Genome Biology, 2005; 6(5): R40-R40 (más artículos en esta revista)

La consolidación de la conocida serie de humanos interacciones proteína-proteína en la preparación de la cartografía en gran escala de lo humano interactome

BioMed Central
Arun K, Ramani (arun@icmb.utexas.edu) [1], Razvan C Bunescu (razvan@cs.utexas.edu) [2], Raymond J Mooney (mooney@cs.utexas.edu) [2], Edward M Marcotte (marcotte@icmb.utexas.edu) [1]
[1] Centro de Sistemas y Biología Sintética y del Instituto de Biología Celular y Molecular, Universidad de Texas, Austin, TX 78712, EE.UU.
[2] Departamento de Ciencias de la Computación, Universidad de Texas, Austin, TX 78712, EE.UU.
[3] Departamento de Química y Bioquímica de la Universidad de Texas, Austin, TX 78712, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Con el fin de consolidar las interacciones conocidas proteínas humanas se desarrollaron dos pruebas para medir la relativa exactitud de los datos disponibles interacción. Además, en 6580 las interacciones entre proteínas humanas 3737 se recuperaron a partir de los resúmenes de Medline y en combinación con la interacción existente para obtener datos de una red de 31609 interacciones entre proteínas humanas 7748, precisa en la misma medida que los conjuntos de datos existentes.

Antecedentes

Los últimos años han visto un enorme desarrollo de las tecnologías de la genómica funcional. En particular, el proteoma de levadura ha sido objeto de considerables esfuerzos, incluido el genoma de toda la proteína de levadura utilizando ensayos de interacción de dos tecnologías híbridas [1, 2], cromatografía de afinidad / espectrometría de masas [3, 4], sintéticas letales ensayos [5, 6], y el genoma contexto métodos [7 - 10]. El éxito en estas áreas, incluso dada la limitada precisión de estas tecnologías [11 - 15], ha llevado a la aplicación de la levadura de dos híbridos método de la marcha [16] y el gusano proteomes [17], siempre que los pasos iniciales hacia mapas De la mosca y el gusano interactomes.

Sólo mínimo se ha avanzado con respecto a la del proteoma humano. La interacción de proteínas de datos existentes están integrados en gran medida de pequeños experimentos recogidos en el BIND [18] y [19] DIP bases de datos, así como un conjunto de aproximadamente 12000 recuperados por las interacciones de curación manual Medline artículos [20] y de las interacciones transferidos de la Otros organismos sobre la base de orthology [21]. La base de datos Reactome [22] alrededor de 11000 ha interacciones [23] que se han introducido manualmente de los artículos básicos centrados en las vías celulares. Gran escala de ensayos de interacción entre proteínas humanas todavía no se han realizado, aunque de mediana escala mapa fue creado para el purificada TNF α / NF κ B, proteínas complejas [24] y las proteínas implicadas en la vía de señalización Smad humanos [25]. Esta situación está en marcado contraste con la abundante información disponible para la levadura y exige la aplicación de alto rendimiento para los ensayos de interacción proteína humana cartografía de la red de interacción.

Una de las lecciones de la levadura interactome investigación es claro: es esencial que tales ensayos de interacción próxima acompañadas de medir las tasas de error, sin la cual la utilidad y la interpretación de los datos se pone en peligro. Para establecer una base para la futura interacción cartografía tratamos de consolidar la interacción proteína humanos existentes y los datos cuantitativos para establecer pruebas de la exactitud de los datos. Hemos tratado también de datos sobre el uso de minas para extraer enfoques adicionales interacciones conocidas de los resúmenes de Medline para añadir a las interacciones existentes.

La mayoría de los actuales conocimientos biológicos pueden ser recuperados de la base de datos Medline, que ahora cuenta con registros de más de 4800 revistas de contabilidad de alrededor de 15 millones de artículos. Estas citas contienen miles de proteínas registrado experimentalmente interacciones. Sin embargo, la recuperación de esos datos manualmente se hace difícil por la gran cantidad de artículos, todos los que carecen de estructura formal. La extracción automática de información sería preferible, y, por lo tanto, la minería de datos de resúmenes de Medline es un campo cada vez mayor [26 - 29].

En este trabajo, presentamos dos ensayos cuantitativos (puntos de referencia), de la exactitud de gran escala de ensayos de interacción proteína humana, la prueba de los grupos existentes de interacción de datos para su relativa exactitud, a continuación, aplicar estos índices con el fin de recuperar las interacciones proteína de los aproximadamente 750000 Medline resúmenes preocupación de que la biología humana, lo que resulta en un conjunto de 6580 las interacciones entre las proteínas de 3737 exactitud comparable a la extracción manual. Combinación de los datos de interacción crea un conjunto consolidado de 31609 interacciones entre proteínas humanas 7748. Sobre la base de este primer conjunto de las interacciones, la estimación de la escala humana interactome.

Resultados
Montaje de los datos de interacción de proteínas público

Primero reunió a los humanos existentes interacción de proteínas de datos (que se resumen en la Tabla 1], lo que representa el estado actual de los humanos interactome. Esto requiere la unificación de las interacciones en virtud de una anotación compartida de denominación y de convenio. Con este fin, estudiamos cada interacción de proteínas para LocusLink (ahora EntrezGene) número de identificación único y mantenerse sólo interacciones (es decir, para dos proteínas AyB, que sólo se mantenga el AB o BA, pero no ambas. Hemos optado por omitir la libre Interacciones, AA o BB, por razones técnicas, ya que su calidad no se puede evaluar en el punto de referencia que desarrollamos funcional). En la mayoría de los casos, una pequeña pérdida de proteínas se produce en la conversión entre los diferentes identificadores de genes (por ejemplo, la conversión de la NCBI 'gi' códigos en BIND a LocusLink identificadores). En el caso de la base de datos de referencia de proteínas Humanos (HPRD), esta transformación se tradujo en una importante reducción en el número de interacciones de las interacciones total de 12013 a 6054 singular, la no coincidencia de las interacciones, en gran parte debido al hecho de que a menudo HPRD ambos registros y AB BA interacciones, así como un gran número de la libre interacción, y los índices de genes por su nombre común en lugar de entradas de la base de datos convencionales, que a menudo ocasionan múltiples entradas para los diferentes sinónimos.

Aunque las interacciones de estas bases de datos son, en principio, derivado de la misma fuente (Medline), los conjuntos son disjuntos (Figura 1], lo que implica que cualquiera de los conjuntos son parciales para las diferentes clases de interacciones, o que el número real de las interacciones en Medline Es bastante grande. Sospechamos ambas razones. Es evidente que cada conjunto de datos tiene un enfoque diferente explícita (Reactome hacia el núcleo celular maquinaria, HPRD hacia genes vinculados a enfermedades, y más de BIND distribuidos al azar). Debido a estos sesgos, es probable que muchas de las interacciones Medline todavía están excluidos de estos datos. La interacción máxima superposición entre conjuntos de datos se considera de BIND: el 25% de estas interacciones son también en HPRD o Reactome; sólo el 1% de las interacciones se Reactome en HPRD o BIND. Un adicional de 9283 (o alrededor de 60000 a menor confianza) están disponibles en las interacciones ortólogos transferencia de las interacciones de gran escala en las pantallas de otros organismos (orthology básicos y orthology de todos) [21].

Evaluación comparativa de los datos de interacción de proteínas

Para medir la exactitud relativa de cada conjunto de datos de interacción de proteínas, que estableció dos puntos de referencia de la interacción precisión, una basada en la proteína función compartida y la otra basada en interacciones conocidas anteriormente. En primer lugar, hemos construido un punto de referencia en el que probamos la medida en que la interacción de un conjunto de datos asociados anotación compartida, una medida previamente demostrado correlacionarse con la precisión de la genómica funcional de datos [13, 14, 21]. Se utilizó el funcional anotaciones que figuran en la Enciclopedia de Kyoto de Genes y Genomas (KEGG) [30] y la Ontología de Genes (GO) [31] anotación bases de datos. Estas bases de datos concretas trayecto y proceso biológico anotaciones, aproximadamente 7500 genes humanos, la asignación de los genes humanos en 155 KEGG vías (en el nivel más bajo de KEGG) y 1356 GO vías (en el nivel 8 de la anotación GO proceso biológico). KEGG GO anotaciones y se combinaron en un solo conjunto compuesto funcional anotación, que fue dividido en pruebas independiente y la formación de conjuntos de la asignación al azar genes anotados en las dos categorías (3792 y 3809 respectivamente anotado genes). Para el segundo punto de referencia conocido sobre la base de las interacciones físicas, que reunió a los humanos de las interacciones proteína Reactome y BIND, un conjunto de 11425 interacciones entre proteínas 1710. Cada punto de referencia, por lo tanto, consiste en un conjunto de relaciones binarias entre las proteínas, ya sea sobre la base de compartir las proteínas que interactúan físicamente o anotación. En términos generales, esperamos que más precisa la interacción de proteínas de datos a ser más enriquecida en proteínas estas parejas. Más concretamente, que esperan una verdadera interacción física a muy Resultado en ambas pruebas, mientras que los no físicos o indirecta de las asociaciones, como las asociaciones genéticos, en caso de que en la puntuación de muy funcional, pero no la interacción física, test.

Para ambos puntos de referencia, el sistema de puntuación establecido para la medición de la interacción es la precisión en la forma de un diario de odds-ratio de pares de genes, ya sea físicamente o compartir anotaciones interactuando. Para evaluar un conjunto de datos, calcular un coeficiente de probabilidad log (PUI) como:

Donde P (D | I) y P (D | ~ I) son la probabilidad de observar los datos (D) condicionada por los genes compartir las asociaciones de referencia (I) y que no comparten las asociaciones de referencia (~ I). Por el teorema de Bayes, esta ecuación puede ser reescrita como:

Donde P (I | D) y P (~ I | D) son las frecuencias de las interacciones observadas en el conjunto de datos dado (D) entre genes anotado compartir las asociaciones de referencia (I) y que no comparten las asociaciones (~ I), respectivamente, mientras que P (I) y P (~ I) representan las expectativas de los anteriores (el total de frecuencias de todos los puntos de referencia que comparten los mismos genes y las asociaciones que no comparten las asociaciones, respectivamente). Esta última versión de la ecuación es más sencilla de calcular. Una puntuación de cero indica la interacción en el conjunto de datos asociados están ensayando no son más probabilidades que los aleatoria a pertenecer a la misma vía o para interactuar; puntajes más altos indican una mayor exactitud de datos.

Entre las publicaciones derivadas de las interacciones (Reactome, BIND, HPRD), un total de 17098 únicas interacciones se producen en la opinión pública de datos. Prueba de la interacción de proteínas existente en la función de los datos de referencia pone de manifiesto que Reactome tiene la más alta precisión (PUI = 3,8), seguido de BIND (PUI = 2,9), HPRD (PUI = 2.1), núcleo orthology-inferirse interacciones (PUI = 2.1) y Los no básicos-orthology inferirse interacción (PUI = 1.1). Los dos conjuntos de datos más precisos, Reactome y BIND, forman la base de la interacción basada en la proteína de referencia. Exámenes el resto de los conjuntos de datos sobre este punto de referencia (es decir, por su coherencia con estos datos precisos interacción de proteínas) revela un ranking similar en el resto de los datos. Core-orthology inferirse interacciones son los más precisos (PUI = 5,0), seguido de HPRD (PUI = 3,7) y no básicos orthology inferirse interacciones (PUI = 3,7).

Reconociendo la proteína nombres aleatorios con un campo condicional (FCI) algoritmo

Para ampliar la lista de las interacciones humanas, los que acudimos a la literatura minera. Hemos adoptado la estrategia de identificación de la proteína por separado en los nombres de los resúmenes y, a continuación, se pongan en venta hasta la interacción de proteínas asociados. Este proceso se hizo difícil por el hecho de que a diferencia de otros organismos, como la levadura o Escherichia coli, los genes humanos no tienen normalizada designación de la convención y, por tanto, se presentan como una de las más difíciles de los conjuntos de genes / proteínas para extraer nombres. Por ejemplo, las proteínas humanas pueden ser nombrados con palabras típicas Inglés, tales como "light", "mapa", "complemento" y "Sonic Hedgehog". Los nombres pueden ser alfanuméricos, puede incluir letras griegas o romanas, puede ser sensible a mayúsculas y minúsculas, y puede estar compuesto por varias palabras. Nombres son frecuentemente sub-cadenas de unos a otros, como 'factor de crecimiento epidérmico "y" receptor del factor de crecimiento epidérmico ", que se refieren a dos diferentes proteínas. Por tanto, es necesario que un algoritmo de extracción de la información de ser formados específicamente para extraer nombres de genes y proteínas con precisión.

Hemos desarrollado un algoritmo capaz de distinguir proteína humana nombres de palabras similares sobre la base de su contexto en la frase. Sobre la base de nuestro trabajo previo en este ámbito [32], hemos desarrollado un algoritmo de clasificación que precisa humanos reconocidos nombres de las proteínas en los resúmenes de Medline. El rendimiento de la proteína nombre "tagger" en un conjunto de humanos con etiqueta de prueba resúmenes se traza en la figura 2. La precisión del algoritmo se midió como su precisión (la fracción de la proteína correcta nombres identificados entre todos los nombres identificados), y su recuerdo (la fracción de la proteína correctamente identificados los nombres de entre todos los posibles nombres correctos de proteínas) en un conjunto de 200 a disposición del público a mano Etiquetados resúmenes [33], así como en 750 resúmenes de Medline con mano de la etiqueta nombres proteína humana (resultados comparables; datos no presentados). El algoritmo, denominado el FCI algoritmo debido a su uso condicional de campos aleatorios, de forma significativa fuera realiza la recolección exacta de la proteína de un diccionario de nombres ( 'diccionario sólo') teniendo en cuenta las palabras «partes de la oración y el contexto en el que Que aparezcan. El FCI algoritmo también supera a los otros algoritmos de reconocimiento de nombre disponibles en el dominio público [32, 34, 35]. Para prepararse para la extracción de proteína de las interacciones, los nombres de las proteínas humanas se identificaron utilizando el algoritmo de FCI en el conjunto de los resúmenes de Medline 753459 citando la palabra 'humano'.

Extraer interacciones funcionales a través de co-análisis de citas

Con el fin de establecer las interacciones que se produjeron entre las proteínas identificadas en los resúmenes de Medline, se utilizó una estrategia de dos pasos: medida co-citación de los nombres de las proteínas, entonces enriquecer estos pares de interacción física usando un filtro bayesiano. En primer lugar, contamos el número de resúmenes citando un par de proteínas y, a continuación, calculó que la probabilidad de co-citación bajo un modelo aleatorio. Figura 3a muestra el rendimiento de la co-citación algoritmo, el trazado de la probabilidad de ser co-citado por azar oportunidad contra la precisión, calculado como un registro probabilidad puntuación basada en la anotación funcional de formación de referencia. Empíricamente, se encuentra la co-citación de probabilidad tiene una relación hiperbólica con la precisión sobre este punto de referencia, con pares de proteínas co-citados con baja probabilidad aleatoria de puntuación alta en el punto de referencia.

El co-citación algoritmo es muy robusto a las variaciones en el mínimo de exactitud con la que las proteínas son identificadas por los nombres de los FCI algoritmo (Figura 3b]. Esta solidez es presumiblemente debido al hecho de que los compañeros de las proteínas requiere cita, que lleva el nombre en repetidas ocasiones a través de muchos resúmenes, con lo que tolerar ocasionales errores en el nombre de proceso de extracción. Con un umbral en la estimación de la extracción de probabilidad de 80% (calculada por el modelo FCI) en el nombre de identificación de proteínas, alrededor de 15000 interacciones se extraen con la co-citación enfoque que comparable o mejor puntuación en la anotación funcional independiente de la prueba de referencia Extrajeron manualmente las interacciones de HPRD, que sirve para establecer un umbral mínimo para nuestras interacciones minadas.

Sin embargo, es evidente que las proteínas se co-citados por muchas razones distintas de las interacciones físicas. Por lo tanto, trató de enriquecer específicamente para la interacción física de la aplicación de un filtro secundario: Se aplicó un clasificador bayesiano para medir la probabilidad de que los resúmenes citando la proteína pares para discutir física interacciones proteína-proteína. El clasificador [36] puntuaciones de cada uno de los co-citando los resúmenes de acuerdo a la frecuencia de uso de palabras relevantes para las interacciones proteína física. Interacciones extraído por la co-citación y filtrado con el estimador Bayesiano se comparan favorablemente con las de otros conjuntos de datos sobre la interacción funcional anotación de prueba de referencia (Figura 4a]. Ensayo de la exactitud de estos pares proteína extraída de la interacción física de referencia (Figura 4b] revela que el co-proteínas citada nota elevada por el presente clasificador son realmente muy enriquecido para la interacción física.

Tomando como mínimamente aceptable nivel de precisión las interacciones mano entró de Medline (HPRD), nuestro análisis co-citation/Bayesian clasificador 6580 rendimientos 3737 interacciones entre proteínas. Mediante la combinación de las interacciones con el 26280 interacciones de otras fuentes, se obtuvieron un conjunto definitivo de 31609 interacciones entre proteínas humanas 7748. En este sentido, hemos optado por no incluir el conjunto completo de orthology derivados de las interacciones debido a su menor rendimiento en la anotación de referencia, aunque estos finalmente será muy útil cuando el apoyo de los futuros datos. El cuadro 2 muestra las contribuciones de cada uno de los conjuntos de datos en este umbral, y una comparación de la superposición de las interacciones en cada uno de los conjuntos de datos se representa como un diagrama de Venn en la figura 5. El diagrama de Venn indica pequeña superposición entre las distintas bases de datos, con menos del 0,2% de las interacciones representadas en todos los conjuntos de datos. No obstante, esta red de interacciones representa el estado actual de los humanos interactome a un nivel razonable de precisión.

El ID-Servir de base de datos de anotación y de las interacciones

Hemos incorporado los resultados de este análisis en un servidor basado en la web [37], que pueden ser solicitados para la interacción de proteínas específicas. Los genes son transversales que figuran dentro de un conjunto de convenciones de denominación, incluidos LocusLink / EntrezGene, RefSeq, y Swiss-Prot, y van acompañados de enlaces a otras bases de datos y GO y funcional KEGG anotaciones. Interacciones proteína derivada de la co-citation/Bayesian análisis se enlazará con la co-citando los resúmenes de Medline, en el que puedan ser directamente verificada manualmente.

Discusión
Características de la red

Con el fin de estudiar las características de la red, se visualiza la red completa de interacciones de proteínas en la Figura 6. En la superposición de un histograma de la densidad de las interacciones en la parcela, vemos que existe una gran agrupación de las proteínas en la red, representado como picos en el histograma. Un examen más detenido pone de manifiesto que estas regiones se corresponden con las proteínas que intervienen en el ribosoma, spliceosome, proteosoma, la replicación, transcripción y los componentes inmune.

Un análisis cuantitativo de la red de distribución de la conectividad y de la agrupación (revisado en Barabasi y Oltvai [38]] se presenta en la Tabla 2. El coeficiente de clustering (<C>) capta la modularidad de la red. Una comparación de nuestra red de final (<C> = 0,24) con 10 redes que se generan aleatoriamente, con el mismo número de interacciones y de las proteínas (<C> = 9 × 10 -3 ± 3 × 10 -5) muestra la agrupación en el Interacción proteína humana red es considerablemente superior a la esperada al azar, a pesar de lo incompleto de la red. El «grado» de la red se define como el número medio de enlaces por proteínas y captura la conectividad de la red. Con excepción de Reactome, cada uno de los conjuntos de datos se indica en el cuadro 2 se muestran una baja conectividad. La red combinada de ambos es intermedio en la conectividad y modularidad. De la proyección de aproximadamente 15 por interacciones proteína de la mejor interacción de datos de la muestra (Reactome) a los 25000 o así estimados en el genoma humano [39] implica a más de 375000 en las interacciones proteína humana completa red de interacción. Tenga en cuenta que cualquier sobrevalora en el número medio de interacciones por proteínas será contrarrestado por el efecto de splicing alternativo en el aumento del número real de las proteínas, lo que hace esta estimación por lo menos una estimación razonable ballpark. El actual conjunto de las interacciones, por lo tanto, no representa más que el 10% de la totalidad de la red.

Ventajas de los puntos de referencia logaritmo de verosimilitud

Una buena medida de la precisión es de enorme importancia, que pueda repercutir en la fiabilidad de todos los análisis. El registro de análisis de riesgo facilita la comparación y evaluación de los diversos conjuntos de datos. El resultado indica la probabilidad de que las interacciones identificadas son correctas basadas en el enriquecimiento de las interacciones positivas expectativas más antecedentes. Tenga en cuenta que este enfoque es diferente de la simple medición de la intersección con las asociaciones de referencia - ya que el enriquecimiento de positivo a negativo se mide asociaciones, y no sólo la recuperación positiva de las asociaciones, incluso con bases de datos pequeñas intersecciones referencia a la serie pueden ser evaluados para comprobar su exactitud. Tenga en cuenta también que los puntos de referencia en sí mismas no son susceptibles de ser 100% correctos - proteína anotaciones son subjetivamente asignadas, muchas proteínas pertenecen a múltiples vías, e incluso parte de la interacción de proteínas comisariada datos pueden ser mal entrado. No obstante, el logaritmo de verosimilitud marco es tolerante de los errores y se limita a exigir que los datos de referencia son por lo general correcta verdadera interacción entre los socios. Figura 4a se muestra la exactitud de cada uno de los conjuntos de datos. Aunque los actuales conjuntos de datos tienen un valor único de precisión, la minadas interacciones se pueden ajustar para la precisión basado en el umbral del FCI y la co-citación probabilidades. Nuevos conjuntos de datos se pueden incorporar utilizando el logaritmo de verosimilitud sistema de puntuación, y, en última instancia, la fuerza de estos criterios podrán ser de utilidad en su integración de datos provenientes de diversos experimentos [14].

Las deficiencias y los puntos fuertes de la minería a través de la literatura co-citation/Bayesian clasificador enfoque

De nuestro trabajo previo [32], nos dimos cuenta de que, de forma directa la identificación de las interacciones proteína sería una tarea difícil, si no fuimos capaces de diferenciar las proteínas y los genes del resto del texto. Por lo tanto, se concentró en la construcción de la proteína nombre extractores y extractores interacción en paralelo de forma que los resultados de los primeros análisis podrían ser incluidas en el segundo.

Cruciales para este proceso fue la creación de un diccionario de alta calidad de proteína humana con nombres y sinónimos de vuelta a la base de datos de asignaciones de las entradas. Por lo tanto, decidió empezar por la creación de un conjunto de genes sin ambigüedades junto con los nombres de sus sinónimos que podrían ser asignadas a un solo gen unificado de identificación (LocusLink identificadores, se le da mantenimiento a través de EntrezGene). El diccionario ha de tener muy pocas entradas falsas para garantizar un mínimo de falsos positivos. El resultado ID-Servir de base de datos recoge los diversos identificadores para un determinado gen y crea un depósito para la recuperación de estos genes a lo largo de las interacciones con sus minadas. Sobre la base de este diccionario, el FCI algoritmo analiza entonces el contexto en el que probablemente las proteínas nombres figuraban con el fin de identificar la proteína nombres con mayor exactitud. En el enfoque que describir, la interacción de proteínas asociados se identifican proteína de entre estos nombres por una versión filtrada de co-citación.

El co-citación enfoque [14, 26, 40] calcula la probabilidad aleatoria de la co-existencia de dos proteínas nombres. El supuesto es que si la co-citación es estadísticamente improbable azar en el marco del modelo, entonces hay una verdadera razón subyacente de las proteínas que se co-citados - es decir, que están interactuando en el plano funcional, la vía, o se co - Localizado o físicamente. El método tiene ventajas y desventajas. No extracto de todas las interacciones, pero sólo estadísticamente significativas con los co-citas. Al utilizar el estimador Bayesiano [36] que para enriquecer aún más las interacciones físicas, pero a expensas de la cobertura. Entre los inconvenientes que se enriquece el algoritmo para ciertos tipos de errores (por ejemplo, 'A no interacciona con B', el diccionario de sinónimos errores que dan lugar a que se enriqueció indebidamente, y así sucesivamente). Sin embargo, consideramos que las ventajas son mayores que los inconvenientes: En particular, la clasificación probabilística, en combinación con el filtro Bayesiano, minimiza los errores sistemáticos, y en el lado izquierdo de la figura 4b, se puede observar que los errores en la co-cita datos no son Más extensas que presenta errores en la transferencia de anotación de otros organismos, o de los errores humanos introducidos por los curadores lectura resúmenes de Medline. El método es de fácil aplicación, y en la actualidad supera a otras a disposición del público los algoritmos de extracción de la interacción de proteínas [34, 35]. Por último, la naturaleza precisa de la interacción pueden ser controlados directamente desde los resúmenes de Medline vinculados. Así, la interacción minadas será ideal para la validación manual por los curadores de las bases de datos de interacción de proteínas (por ejemplo, DIP y BIND).

Conclusión

En conclusión, para prepararse para los intentos de establecer el mapa de las interacciones proteína humana tratamos de consolidar interacciones conocidas y establecer medidas de precisión que son útiles para la evaluación y la integración de los próximos datos. Hemos establecido dos puntos de referencia para evaluar la calidad de los humanos a gran escala de datos de interacción de proteínas, proporcionando medidas cuantitativas útil para el ensayo de la interacción y la integración de datos. El uso de estos puntos de referencia, junto con la disposición y las interacciones minadas, reunido a un conjunto de datos integrada de 31609 interacciones entre proteínas humanas 7748, la formación de un marco para la interpretación de los datos de genómica funcional. Estos datos se recogen en el ID-Servir de base de datos [37], que pueden ser solicitados por las interacciones de proteínas y sus correspondientes citas de Medline. Según nuestras estimaciones, estas interacciones forman menos del 10% de los humanos interactome, preparando el escenario para futuros esfuerzos para completar el mapa de la red humana de las interacciones proteína.

Materiales y métodos
Identificación de proteínas humanas nombres y las interacciones en los resúmenes de Medline

La formación conjuntos de datos utilizados para la literatura son la minería como en [32]. El diccionario de nombres proteína humana fue montado de la LocusLink y Swiss-Prot bases de datos manualmente comisariado por el gen nombres y sinónimos (87723 sinónimos entre 18879 único gen nombres) para eliminar los genes que se conocen como "hipotético" o "probable" y para Omitir entradas que se refiere a más de una proteína identificador. A partir de la base de datos Medline de unos 11 millones de resúmenes (1951-2002) hemos recuperado 753459 resúmenes que contienen la palabra 'humano', ya sea en el título o el texto de usar nuestro cuerpo como para la extracción de las interacciones proteína.

Hemos descrito previamente [32] eficaz de las proteínas y genes nombre de marcado utilizando un algoritmo basado en la máxima entropía. Condicional azar campos (IRC) [41] son los nuevos tipos de modelos probabilísticos que preservar todas las ventajas de los modelos de máxima entropía, y al mismo tiempo evitar la etiqueta sesgo problema al permitir que una secuencia de decisiones de marcado a competir unos con otros en un mundo probabilístico Modelo. En este artículo, nos muestran que supera nuestras mejores FCI anterior tagger máxima entropía.

En tanto la formación y las pruebas del FCI-proteína nombre "tagger", de los correspondientes resúmenes de Medline se procesaron de la siguiente manera: el texto fue tokenized usando los espacios en blanco como delimitadores y el tratamiento de todas las marcas de puntuacion como fichas separadas. El texto está dividido en las sentencias, y parte de las etiquetas de voz se asigna a cada muestra usando la Brill tagger [42]. Para cada muestra, en cada frase, un vector binario de características, se ha generado utilizando la característica de las plantillas de empleados por la máxima entropía enfoque descrito en [32]. Cada característica se producen en la formación de datos se asoció con un parámetro en el FCI modelo. Hemos utilizado el FCI aplicación de McCallum [43]. Capacitar a los FCI de los parámetros, hemos utilizado 750 resúmenes de Medline manualmente anotado los nombres de proteína [32]. Luego predijo proteína nombres marcados en el conjunto de los resúmenes 753459 Medline usando la versión de la FCI algoritmo que utiliza el diccionario, como parte del modelo aprendido (Figura 2], y de esta manera vincularse cada nombre de la etiqueta a un diccionario de entrada. Los resúmenes de Medline con marcado de la proteína nombres están disponibles a petición.

El modelo asigna a cada candidato frase una probabilidad de ser una proteína nombre. Seleccionamos todos los nombres de puntaje más alto que un determinado umbral (umbrales de las pruebas entre el 40% y 95%), retención de las proteínas' LocusLink identificadores junto con los identificadores de PubMed (PMID), de los correspondientes resúmenes. La importancia de la co-cita los nombres de dos proteínas a través de una serie de resúmenes de Medline se calcula a partir de la distribución hipergeométrica [14, 26] como:

,

Donde:

Y N es igual al número total de los resúmenes, en que se citan n de la primera proteína, m citar la segunda proteína, y l citar dos.

La máxima puntuación-15000 co-citada proteína pares fueron luego re-ordenadas de acuerdo con la tendencia de la co-citando resúmenes para discutir las interacciones proteína-proteína. En concreto, la probabilidad de que un co-citando resumen para examinar las interacciones proteína física se evaluó usando el clasificador bayesiano ingenuo como se describe en [36], que las puntuaciones de los resúmenes de Medline arreglo a la utilización de frecuencias de discriminar palabras relacionadas con las interacciones proteína-proteína. Para cada uno de los citados par de proteínas, se calculó la media de los resultados de la co-citando Medline resúmenes, y luego a volver a la co-ranking citada proteína pares por medio de estos resultados.

Análisis de las propiedades de red

Se evaluó la agrupación de los genes en una red de interacción [38] mediante el cálculo de la media de la agrupación coeficiente (<C>) de la N genes como:

Donde C i es el coeficiente de la agrupación de genes i, evaluar a lo largo del conjunto de los genes con al menos dos interacciones y medida como el número de enlaces, n, entre el gen de la k vecinos, dividido por el número máximo de posibles vínculos, k (k -- 1) / 2.

Construcción de la anotación funcional de referencia

El específicas GO KEGG anotaciones, y el funcional puntos de referencia se descargan de la base de datos de ontología de genes [44] y la KEGG base de datos [45]. En el proceso de anotación GO jerarquía (más estrictamente, un gráfico dirigido acíclico (DAG)), el número de términos es máxima anotación en el nivel 8, donde el nivel se define como el número de agrupamientos ganglios de la raíz (nivel 1), Tal como figura en el archivo de DAG Gene Ontología [44]. KEGG funcional anotaciones se construyeron como los conjuntos de códigos numéricos para la KEGG vía diagramas asociados a cada gen. La anotación funcional de referencia está formado por todos los pares de genes humanos, ya sea compartiendo anotación de la fuente (o KEGG GO). Para conjuntos de capacitación y ensayo, anotado genes fueron distribuidos de forma aleatoria en dos categorías y de las asociaciones sólo se considera entre los genes de la misma categoría.

El ID-Servir de base de datos

ID-Servir es una base de datos mySQL relacional de proteínas humanas creada para facilitar la comparación de datos con diferentes proteínas identificadores. La base de datos de mapas 42232 LocusLink (ahora EntrezGene) correspondiente a sus identificadores Genecard, Swiss-Prot, Ensembl, OMIM, Unigene, NCBI GI códigos y números y adhesión a la vía KEGG GO y anotaciones. Proteína de interacción de datos que puede obtenerse en ID-Serve, con co-citación derivados interacciones enlazará con el apoyo de los resúmenes de Medline.

Adicional de los archivos de datos

Los siguientes datos adicionales de interés para el análisis, la capacitación y las pruebas llevadas a cabo en este trabajo están disponibles con la versión en línea de este documento y también pueden ser obtenidos de la ID-Servir de base de datos [37]. Datos adicionales archivos 1 y 2 contienen los cuadros de la proteína "tagger" formación conjuntos. Adicional archivo de datos 3 contiene un diccionario de la proteína humana nombres y sinónimos indexados a LocusLink identificadores. Datos adicionales archivo 4 contiene el conjunto final de la proteína 31609 interacciones entre 7748 proteínas derivadas de este análisis. Datos adicionales archivo 5 contiene la versión definitiva de co-citation/Bayesian clasificador derivados de las interacciones con los identificadores de PubMed co-citando resúmenes. Datos adicionales 6 contiene el archivo de referencia de formación conjunto de las anotaciones funcionales. Datos adicionales 7 contiene el archivo de la prueba funcional conjunto de las anotaciones. Datos adicionales 8 contiene el archivo de referencia conjunto de las interacciones físicas. Datos adicionales 9 archivo contiene la lista de palabras discriminatorias utilizadas por el clasificador Bayesiano para estimar la probabilidad de que los resúmenes de Medline para discutir la interacción de proteínas.

Material suplementario
Archivo Adicional 1
Capacitación conjunto de 200 resúmenes de Medline con todas las ocurrencias de nombres marcados en proteínas
Archivo Adicional 2
Capacitación conjunto de 750 resúmenes de Medline con todas las ocurrencias de nombres marcados en proteínas
Archivo Adicional 3
Diccionario de la proteína humana nombres y sinónimos indexados a LocusLink identificadores
Archivo Adicional 4
Final conjunto de 31609 7748 proteínas derivadas de este análisis
Archivo Adicional 5
Final conjunto de co-citation/Bayesian clasificador derivados de las interacciones con los identificadores de PubMed co-citando resúmenes
Archivo Adicional 6
El punto de referencia de formación conjunto de las anotaciones funcionales
Archivo Adicional 7
Criterio de prueba funcional de anotaciones
Archivo Adicional 8
Criterio conjunto de interacciones físicas
Archivo Adicional 9
Discriminar lista de palabras utilizadas por el clasificador Bayesiano para estimar la probabilidad de que los resúmenes de Medline para discutir la interacción de proteínas
Agradecimientos

Damos las gracias a Lee Insuk de comentarios críticos y Zack Simpson por comentarios críticos y ayuda con la red de visualización. También damos las gracias a Ewan Birney del grupo en el Instituto Europeo de Bioinformática para darnos los datos de la interacción Reactome. Este trabajo fue apoyado por becas de la NSF. (IIS-0325116, 0219061-EIA), NIH. (GM06779-01), Welch (F1515), y un Packard de Becas (EMM).