Journal of Biomedical Discovery and Collaboration, 2006; 1: 19-19 (más artículos en esta revista)

GOAnnotator: vinculación de la proteína GO anotaciones a los elementos de prueba texto

BioMed Central
Francisco M Couto (fcouto@di.fc.ul.pt) [1], Mário Silva J (mjs@di.fc.ul.pt) [1], Vivian Lee (vlee@ebi.ac.uk) [2] , Emily Dimmer (edimmer@ebi.ac.uk) [2], Evelyn CaMon (camon@ebi.ac.uk) [2], Rolf Apweiler (apweiler@ebi.ac.uk) [2], Harald Kirsch (kirsch @ ebi.ac.uk) [2], Dietrich Schuhmann-Rebholz (rebholz@ebi.ac.uk) [2]
[1] Departamento de Informática, Facultad de Ciências, Universidade de Lisboa, Portugal
[2] European Bioinformatics Institute, Hinxton, Cambridge, UK

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Anotación de proteínas con la ontología de genes (GO), lo que es el trabajo en curso y una tarea compleja. Manual GO anotación es preciso y precioso, pero es mucho tiempo. Por lo tanto, en lugar de anotaciones más curada de las proteínas vienen con uncurated anotaciones, que se han generado automáticamente. Texto de minas que utilizan los sistemas de literatura para el intercambio automático de anotación se han propuesto pero que no cumplen las expectativas de alta calidad de los conservadores.

Resultados

En el presente trabajo se describe un enfoque que vincula uncurated anotaciones al texto extraído de la literatura. La selección del texto se basa en la similitud del texto al término de la uncurated anotación. Además de fundamentar la uncurated anotaciones, los extrajeron los textos también dar lugar a nuevas anotaciones. Además, el enfoque que utiliza la jerarquía GO para lograr una alta precisión. Nuestro enfoque está integrado en GOAnnotator, una herramienta que ayuda al proceso de curación GO UniProt anotación de las proteínas.

Conclusión

El GO curadores GOAnnotator evaluado con un conjunto de 66 distintos UniProt / SwissProt proteínas con uncurated anotaciones. GOAnnotator corregir las pruebas previstas en el texto el 93% de precisión. Esta alta precisión de los resultados utilizando el GO jerarquía sólo para seleccionar GO términos similares a los términos de GO uncurated anotaciones en Goa. Nuestro enfoque es el primero en lograr una alta precisión, que es fundamental para el eficaz apoyo de los conservadores GO. GOAnnotator se llevó a cabo como una herramienta web que está disponible gratuitamente en http://xldb.di.fc.ul.pt/rebil/tools/goa/.

Fondo

El objetivo central de GOA (GO anotación) es proporcionar alta calidad GO (Gene Ontología) anotaciones a las proteínas dentro de la UniProt Knowledgebase [1 - 3]. Manual GO produce la anotación de alta calidad y granular GO duración, pero tiende a ser lento y por lo tanto, abarca menos del 3% de UniProt. Para una mejor cobertura, el equipo de GOA uncurated GO anotaciones deduce de mapeo automático entre UniProt y otras bases de datos manualmente curada (por ejemplo, la Comisión de Enzimas de números o InterPro dominios). A pesar de que estas cesiones han de alta precisión, el equipo de GOA todavía tiene que verificar que la extracción de los resultados experimentales de estudios revisados por los papeles.

La lectura de estos documentos lleva tiempo, lo que motiva la investigación de texto-los métodos de minería. Muy temprano en el texto de minas AbXtract sistema fue desarrollado para identificar las palabras clave de MEDLINE y resúmenes para anotar su pertinencia para una familia de proteínas [4]. Otros sistemas se han desarrollado en los últimos años para identificar GO términos del texto: MeKE identificado posibles GO términos sobre la base de la alineación de secuencia [5] y BioIE dependencias sintácticas utiliza para seleccionar GO términos del texto [6]. Por otra parte, otros enfoques utilizar soluciones de TI GO terminología que se aplica como un diccionario [7 - 10]. Sin embargo, ninguno de estos sistemas se han integrado en el proceso de curación de GOA. Por otra parte, sólo Pérez et al. hace uso de la topología de la estructura jerárquica de GO para medir la distancia entre dos términos en función del número de aristas que los separan. Descuidar la semántica de la estructura jerárquica de GO causas anotaciones incorrectas en más de predecir demasiado profunda a nivel de GO, inútil o anotaciones de predicción demasiado general GO.

La selección de fragmentos de texto que mencionar un plazo GO fue evaluada como parte de la competencia BioCreAtIvE [11]. Este concurso permitió la evaluación de diferentes enfoques de minería de textos y su capacidad para ayudar a los curadores. El sistema con la mejor precisión predijo 41 anotaciones, pero 27 no son correctas, lo que lleva a un 35% de precisión (14 de 41) [12]. El principal problema es que el GO no fue diseñado para la minería de texto. Su vocabulario es la mayoría de las veces ambiguo y no puede ser fácilmente deciphered de tratamiento automatizado e incluso a veces por los seres humanos [13]. Sin mejoras en la precisión, tales automático extracciones no ayudan a los curadores. Esto refleja la importancia de diseñar las herramientas más eficaces para ayudar en la curación de esfuerzo.

Cuando anotar manualmente, GOA curadores uso preexistente uncurated anotaciones como guía, que también puede utilizarse para dirigir texto de minas herramientas. Desde GOA curadores principalmente requieren de alta precisión en un texto de minas solución, esperamos que la información de las anotaciones uncurated prestará apoyo a este objetivo sin los complejos problemas de la creación de normas y pautas que abarque todos los casos posibles, la formación y la creación de juegos que son demasiado específicas para se extenderá a los nuevos dominios [14].

Aplicación

GOAnnotator es una herramienta para ayudar a la anotación de GO UniProt entradas de vincular el GO términos presentes en la uncurated anotaciones con las pruebas de texto automáticamente extraídos de los documentos vinculados a UniProt entradas. Inicialmente, el curador proporciona un número de UniProt a GOAnnotator.

GOAnnotator sigue el bibliográficos se encuentran en la base de datos UniProt y recupera los documentos. Documentos adicionales que se haya recuperado de la base de datos GeneRIF o curadores pueden agregar cualquier otro texto [15]. GOAnnotator prioridad a los documentos de acuerdo con el GO términos extraídos del texto y su similitud con el GO términos presentes en la proteína uncurated anotaciones (véase Figura 1]. Cualquier extrajeron GO plazo es una indicación para el tema del documento, que también está tomado de la entrada UniProt. El curador utiliza el tema como una pista a los posibles GO anotación.

La extracción de los términos de GO se basa en Figo, un método utilizado para la BioCreAtIvE la competencia [16]. Figo recibe un pedazo de texto y devuelve el GO términos que se han detectado en el texto indicado. Para cada GO plazo, Figo confianza asigna un valor que representa los términos «probabilidad de ser mencionado en el texto. El valor de la confianza es la relación de dos parámetros. El primer parámetro se llama prueba contexto local y se utiliza para medir la probabilidad de que las palabras en el texto son parte de un determinado plazo GO. El segundo parámetro es un parámetro de corrección, lo que aumenta la confianza de valor cuando las palabras detectadas en el texto son poco frecuentes en GO. En BioCreAtIvE, Figo predijo 673 anotaciones 615, pero no son correctas, lo que lleva a un 8,6% de precisión (58 de 673).

GO términos se consideran similares si están en el mismo linaje o en caso de que comparten un mismo padre en la jerarquía GO. Para calcular un valor de similitud entre dos términos GO, hemos decidido aplicar una medida de similitud semántica. Investigación en Teoría de la Información propuesto muchas medidas de similitud semántica. Algunos de ellos calcular las estimaciones de máxima verosimilitud para cada concepto utilizando los cuerpos y, a continuación, calcular la similitud entre las distribuciones de probabilidad. Similitud semántica medidas combinan la estructura de una ontología con su contenido de información estadística sobre la base de datos de corpus [17]. El contenido informativo de un concepto es inversamente proporcional a su frecuencia en el corpus. Conceptos que son frecuentes en el corpus tienen un bajo contenido de la información. En caso de los cuerpos GO utilizada para obtener la información estadística es el proporcionado por las anotaciones GO, es decir, el contenido de la información de un GO plazo se calcula en función del número de proteínas anotado a la misma. Por ejemplo, GO términos anotado a la mayoría de las proteínas normalmente proporcionan poca información semántica.

Muchos similitud semántica medidas aplicadas a las ontologías se han desarrollado. Se implementó una medida basada en la relación entre el contenido de la información de los más informativos ancestro común y el contenido de la información de ambos conceptos [18]. En estudios recientes se estudió la eficacia de la similitud semántica medidas sobre el GO [19, 20]. Los resultados mostraron que la similitud IR se correlaciona con la secuencia y la familia similitud, es decir, que demostraron la viabilidad de la utilización de medidas de similitud semántica en un principio biológico.

GOAnnotator muestra un cuadro para cada uncurated anotación con el GO términos que fueron extraídos de un documento y fueron similares a los GO término presente en la uncurated anotación (ver Figura 2]. Las sentencias de que el GO términos fueron extraídos también son mostradas. Las palabras que han contribuido a la extracción de los términos de GO se destacan. GOAnnotator los curadores da la oportunidad de manipular la confianza y la similitud umbrales de modificar el número de predicciones.

Resultados

El equipo de GOA se ha ofrecido a cura alrededor del 3% de proteínas de una lista de 1953 uncurated UniProt / SwissProt proteínas. Por lo tanto, disminuyó la similitud y la confianza de los umbrales de GOAnnotator hasta que conseguimos poner en marcha este porcentaje. Nos detuvimos en una similitud del 40% y un 50% los umbrales de confianza, por lo que sólo el 66 proteínas. Esto significa que las pruebas GOAnnotator identificados con los textos más del 40% de similitud y el 50% de confianza para estas 66 proteínas. Por 80 uncurated anotaciones a estas proteínas, GOAnnotator extrajeron 89 anotaciones similares y sus pruebas de texto de 118 resúmenes de MEDLINE. El 80 uncurated anotaciones incluido 78 términos de distintos ámbitos de GO (véase el cuadro 1]. Después de analizar las pruebas de 89 textos, GOA curadores encontró que 83 fueron válidos para sustanciar 77 distintos uncurated anotaciones (véase el cuadro 2], es decir, el 93% de precisión. El cuadro 3 muestra que el 78% (65 de 83) de corregir las pruebas confirmaron los textos uncurated anotaciones, es decir, extrae la anotación y la anotación uncurated contenía el mismo identificador de GO. En los casos en que las pruebas de texto es correcta, no siempre contiene exactamente ninguna de las variaciones conocidas de la extraídos GO plazo. En los demás casos el plazo GO extraído fue similar: en 15 casos el plazo extrajeron GO fue en el mismo linaje de los GO en el plazo uncurated anotación; en 3 casos, el plazo extrajeron GO estaba en un linaje diferente, pero ambos términos son similares (cuota de un padre). En general, podemos esperar GOAnnotator para confirmar la uncurated anotación utilizando los resultados de la literatura científica, pero es evidente también que GOAnnotator puede proponer nuevos términos GO.

Ejemplos

GOAnnotator corregir las pruebas previstas para la uncurated anotación de la proteína "factor humano Complemento precursor B" (P00751) con la expresión "la activación del complemento, vía alterna" (GO: 0006957). La prueba es la siguiente frase del documento con el identificador PubMed 8225386: "La persona humana se complementan factor B es un importante componente central de la vía alterna de activación del sistema del complemento."

GOAnnotator proporcionó una prueba para corregir la uncurated anotación de la proteína "U4/U6 pequeños nuclear ribonucleoprotein Prp3" (O43395) con el término "nuclear mRNA de empalme, a través de spliceosome" (GO: 0000398). A partir de las pruebas la herramienta extrae el niño término "regulación de la energía nuclear mRNA de empalme, a través de spliceosome" (GO: 0048024). La prueba es la siguiente frase del documento con el identificador PubMed 9328476: "Nuclear ARN empalme se produce en un ARN-proteína, denominada la spliceosome." Sin embargo, esta frase no proporciona suficientes pruebas en su propio, el comisario ha para analizar otras partes del documento para sacar una conclusión.

GOAnnotator proporcionó una prueba para corregir la uncurated anotación de la proteína "Agmatinase" (Q9BSE5) con el término "agmatinase actividad" (GO: 0008783). A partir de las pruebas la herramienta extrajeron el término "arginase actividad" (GO: 0004053) que comparte una matriz común. La prueba fue proporcionada por la siguiente frase del documento con el identificador PubMed 11804860: "Residuos necesarios para encuadernación de Mn (2 +) en el sitio activo en agmatinase bacteriana y otros miembros de la superfamilia arginase están totalmente conservados en humanos agmatinase. "Sin embargo, la anotación sólo recibió un NAS (no trazable de autor declaración) evidencia el código, como la frase no proporciona evidencia experimental directa de arginase actividad. Documentos que contenían evidencia experimental directa de la función y localización subcelular de una proteína son más valiosos para ir curadores.

GOAnnotator proporcionó una prueba para corregir la uncurated anotación de la proteína "3'-5 'exonuclease ERI1" (Q8IV48) con el término "exonuclease actividad" (GO: 0004527). La prueba es la siguiente frase del documento con el identificador PubMed 14536070: "El uso de ARN de purificación de afinidad, hemos identificado una segunda proteína, designada 3'hExo, que contiene una de SAP y un 3 'exonuclease dominio y une la misma secuencia." ; Sin embargo, el término "exonuclease actividad" es demasiado alto nivel, y una anotación más precisa debería ser "3'-5 'exonuclease actividad" (GO: 0008408).

Discusión

Los investigadores necesitan algo más que hechos, que necesitan la fuente de la que derivan los hechos [21]. GOAnnotator proporciona no sólo hechos sino también sus pruebas, puesto que los vínculos existentes anotaciones a la literatura científica. GOAnnotator texto utiliza los métodos de minas para extraer GO términos de artículos científicos y proporciona esta información junto con un GO plazo de un uncurated anotación. En general, podemos esperar GOAnnotator para confirmar la uncurated anotación utilizando los resultados de la literatura científica, pero es evidente también que GOAnnotator puede proponer nuevos términos GO. En ambos casos, el curador beneficios de la integración de ambos enfoques en una sola interfaz. Al comparar ambos resultados, el curador recibe apoyo conveniente para tomar una decisión para una curación del día, basándose en las pruebas de los distintos recursos de datos.

GOAnnotator corregir las pruebas previstas en el texto el 93% de precisión, y en el 78% de estos casos el plazo GO presentes en la uncurated anotación fue confirmada. Estos resultados se obtuvieron para un pequeño subconjunto del número total de uncurated anotaciones, pero representa ya un conjunto importante de los curadores. Tenga en cuenta que GO anotación manual cubre menos del 3% de UniProt. Con el tiempo, las proteínas tienden a ser anotada con mayor precisión uncurated términos y bibliografía. Así, el porcentaje de proteínas uncurated satisfacer la similitud del 40% y 50% los umbrales de confianza crecerá y, por tanto, GOAnnotator hacer aún más eficaz. A veces, los que aparece la frase de resumen de un documento no contenía suficiente información para los curadores para evaluar una prueba de texto con la suficiente confianza. Aparte de la asociación entre una proteína y un plazo GO, el curador necesita información adicional, como el tipo de experimentos realizados y la especie de que la proteína se origina. Lamentablemente, muy a menudo esta información está disponible solamente en el texto completo de la publicación científica. GOAnnotator puede recuperar automáticamente los resúmenes, pero en el caso del texto completo del curador tiene que copiar y pegar el texto en la interfaz GOAnnotator, que sólo funciona para un número limitado de documentos. BIORAT resolver este problema de recuperar documentos de texto completo de la Internet [22]. Además, la lista de los documentos citados en la base de datos UniProt no fue suficiente para que el proceso de curación. En la mayoría de los casos, los comisarios encontraron otras fuentes de información en PubMed. En el futuro, GOAnnotator debe ser capaz de consulta en PubMed utilizando los nombres de proteínas para proporcionar una lista más completa de los documentos.

GOAnnotator garantiza la alta precisión, ya que todos los GO términos que no han GO términos similares a los uncurated anotaciones fueron rechazadas. El uso de este 40% similitud umbral puede filtrar significativo potencial de anotaciones que no sean similares a conocer comisariada anotaciones. Sin embargo, sin esta limitación los resultados devueltos por el método de minería de textos que contienen demasiado ruido para ser de utilidad para los conservadores, como se demostró en la BioCreAtIvE la competencia. GOAnnotator se reúne el equipo de GOA la necesidad de herramientas de alta precisión con preferencia a aquellos con alto recordará, y explica la fuerte restricción de la similitud de dos términos GO: sólo aquellos que fueron del mismo linaje o habían compartido sus padres fueron aceptadas. Por lo tanto, no sólo GOAnnotator predijo exactamente uncurated anotación, pero también más específicas GO anotaciones, que fue de gran interés para los curadores. MeKE seleccionado un número significativo de condiciones generales de la jerarquía GO [5]. Otros distinguen entre genes y apellidos para hacer frente a condiciones generales [7]. GOAnnotator se aprovecha de uncurated anotaciones para evitar términos generales, sólo por la extracción de términos similares, es decir, las proteínas populares tienden a ser anotada a términos específicos y, por tanto, GOAnnotator, también extraerá anotaciones específicas para ellos.

El texto se aplica el método de minas Figo fue diseñado para reconocer términos y no para extraer las anotaciones, es decir, a veces el término es GO extrajeron correctamente, pero es irrelevante para la proteína de interés. El método también genera mispredictions en los casos en que todas las palabras de un plazo GO aparecieron en diferentes lugares de una frase o en un lamentable fin. Las mejoras pueden ser el resultado de la incorporación de un mejor análisis sintáctico en la identificación de GO términos similares a las técnicas utilizadas por BioIE [6]. Por ejemplo, una reducción del tamaño de la ventana de Figo o el nombre de identificación de frases puede aumentar aún más precisión. En el futuro, GOAnnotator también pueden usar otro tipo de texto-los métodos de minería que han demostrado ser más eficiente para extraer anotaciones.

Conclusión

Hemos presentado GOAnnotator, un sistema que identifica automáticamente las pruebas de texto en la literatura para GO anotación de Uniprot / SwissProt proteínas. GOAnnotator presentó pruebas de texto en alta precisión (93%, 66 muestra las proteínas) que se aprovechan de las actuales uncurated anotaciones y la jerarquía GO. GOAnnotator incorpora un texto de minas método para extraer GO términos de texto, y una medida de similitud para seleccionar GO términos similares a los términos de GO uncurated anotaciones.

GOAnnotator asiste al proceso de curación que permite la verificación rápida de uncurated anotaciones de pruebas textos, que también puede ser fuente de nuevos anotaciones. GOAnnotator está disponible a través de una interfaz Web, que permite la verificación de uncurated anotaciones de cualquier UniProt entrada con pruebas extraídas de la literatura.

Disponibilidad y requisitos

Nombre del proyecto: ReBIL - Relativo a través de Información Biológica Literatura

Proyecto página: http://xldb.di.fc.ul.pt/rebil/

Sistema operativo: Linux en el lado del servidor, independiente de la plataforma de cliente lados

Lenguaje de programación: Java y PHP en el servidor

Otros requisitos: Disponible desde cualquier navegador de Internet en el lado del cliente

Licencia: Acceso libre

Todas las restricciones al uso de no-académicos: No hay restricciones

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

FC llevó a cabo el desarrollo del sistema y redactó el manuscrito. MS y RA apoya el estudio, y ayudó a redactar el manuscrito. VL, ED y CE participado en el diseño del sistema y se lleva a cabo su evaluación. HK DR y participó en su diseño y la coordinación y la ayudó a redactar el manuscrito. Todos los autores colaboraron desde el comienzo del proyecto. Todos los autores leído y aprobado el manuscrito final.

Agradecimientos

Nos gustaría reconocer a los encuestados para unbiassed y sus valiosas sugerencias y comentarios que contribuyeron para producir un mejor manuscrito.

Esta labor fue apoyada por los centros de formación Marie Curie plan de la Comisión Europea de Calidad de Vida del Programa (Contrato No. QLRI-1999-50595).