BMC Bioinformatics, 2005; 6(Suppl 1): S18-S18 (más artículos en esta revista)

Aprender modelos estadísticos para describir las proteínas con función de la información biomédica mediante texto

BioMed Central
Soumya Ray (sray@cs.wisc.edu) [1], Mark Craven (craven@biostat.wisc.edu) [2]
[1] Departamento de Ciencias de la Computación, Universidad de Wisconsin, Madison, Wisconsin 53706, EE.UU.
[2] Departamento de Bioestadística y de Informática Médica, Universidad de Wisconsin, Madison, Wisconsin 53706, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

El texto BioCreative minería evaluación investigó la aplicación de métodos de minería de texto a la tarea de extracción automática de información de texto en artículos de investigación biomédica. Hemos participado en Tarea 2 de la evaluación. Para esta tarea, hemos construido un sistema para anotar automáticamente una determinada proteína con los códigos de la Ontología de Genes (GO), utilizando el texto de un artículo de la literatura biomédica como prueba.

Métodos

Nuestro sistema se basa en análisis estadísticos simples del texto completo del artículo. Nos enteramos de n-gram modelos para cada código GO utilizando métodos estadísticos y el uso de estos modelos para la hipótesis anotaciones. También aprenden una serie de Naïve Bayes modelos textuales que identifican indicios de posibles conexiones entre la proteína y dada la hipótesis de una anotación. Estos modelos se utilizan para filtrar y clasificar las predicciones de la N-grama modelos.

Resultados

Se presenta la evaluación de experimentos de la utilidad de los distintos componentes de nuestro sistema en un conjunto de datos que posea a cabo durante el desarrollo, los experimentos y la evaluación de la utilidad de fuentes de datos externas que hemos utilizado para aprender nuestros modelos. Por último, nuestro informe los resultados de la evaluación de la BioCreative organizadores.

Conclusión

Observamos que, en los datos de ensayos, nuestro sistema cumple bastante bien en relación con los demás sistemas de presentarse a la evaluación. De otros experimentos sobre la mantenida con los datos, se observa que (i) la Naïve Bayes modelos fueron eficaces en el filtrado y la clasificación inicialmente la hipótesis de anotaciones, y (ii) nuestra aprendido modelos fueron significativamente más exacta cuando fuentes de datos externas se utilizaron durante el aprendizaje .

Introducción

Hemos participado en las dos primeras subtareas de la Tarea 2 de la minería de textos BioCreative evaluación. La tarea general fue diseñado para evaluar los métodos para anotar automáticamente las proteínas con los códigos de la Ontología de Genes (GO) [1] utilizando los artículos de la literatura científica. En la primera subtarea (2,1), un sistema se le asigna un documento, una proteína asociada y un código de IR, y se le pide volver a un segmento de texto del documento que apoya la anotación del texto con el código GO (las pruebas de texto ). En la segunda subtarea (2,2), un sistema se da un documento y una proteína asociada, y se le pide que devolver todos los códigos IR que la pareja debe ser anotada, junto con los correspondientes pruebas de texto para cada código de GO.

Nuestro enfoque para la anotación tarea se basa en una máquina de aprendizaje estadístico perspectiva. Es bastante sencillo e incorpora poco a la manera de lingüística y el conocimiento biológico. No obstante, algunas de las actuales influencia en línea los recursos biológicos, incluido el MeSH diccionario de términos biológicos, y proporcionar las bases de datos de proteínas nombre de alias y GO anotaciones para las proteínas. Creemos que nuestro enfoque sirve como un útil "de referencia", cuyo desempeño en la anotación tarea puede probablemente ser mejorada mediante la adición de expertos biológicos y los conocimientos lingüísticos.

Varios temas clave deben abordarse de manera eficaz a resolver la Tarea 2. En primer lugar, es poco probable que las cadenas exacta de muchos GO códigos aparecen en el texto que se utiliza para describir la consulta proteínas. Es más probable que la importancia particular de los códigos IR debe deducirse de las descripciones indirectos que vemos en el texto. Por lo tanto, para la mayoría de los códigos IR, aprender modelos que inferir por su pertinencia en busca de términos relacionados. El aprendizaje de estos modelos, sin embargo, pide más texto asociado a cada GO código que lo que está disponible en el Grupo 2 de formación establecidos. Para resolver este problema, recoger datos de varias bases de datos disponibles públicamente que describen GO anotaciones de proteínas documento pares para otros no-humano organismos, como la levadura y Drosophila. Una segunda cuestión es que, aun cuando nuestro código GO modelos sugieren que un código de IR se podría inferir a partir de un pasaje de texto, tenemos que evaluar si este código IR está relacionada con la proteína de interés. Para hacer esto, nos enteramos de modelos estadísticos para discriminar entre pasajes de texto que se refieren a las proteínas GO códigos de los que no. Una tercera cuestión clave es que los pasajes pertinentes de texto no están marcados en el entrenamiento conjunto. En nuestro enfoque, simplemente asumir que todos los pasajes que hacen referencia a la proteína y un código de IR en un documento de formación, de hecho, la proteína se refieren a los códigos IR.

Descripción del sistema

Documento de procesamiento de la proteína de consultas en nuestro sistema implica varios pasos claves:

• Los documentos son pre-procesados en un sistema normalizado de representación.

• Los documentos son escaneados para entonces las apariciones de consulta proteínas. Este paso implica el uso de una proteína-alias de bases de datos y un conjunto de reglas heurísticas para la proteína de nombre se pongan en venta.

• Selección de pasajes de los documentos son escaneados para luego partidos contra los códigos IR. Este paso utiliza modelos estadísticos de los códigos IR que se aprenden de formación conjunto de documentos.

• Texto que contiene pasajes putativo partidos contra la consulta y contra la proteína GO códigos son filtradas y clasificadas por un modelo estadístico aprendido. Estos modelos están capacitados para discriminar entre los pasajes que se refieren los códigos IR a las proteínas y los pasajes que no lo hacen.

En las secciones siguientes se describe cada paso en detalle. La figura 1 muestra el diagrama de bloques de representación del conjunto del sistema.

La normalización de documentos

El primer paso realizado por nuestro sistema consiste en transformar un documento dado en un modo normalizado basado en la representación. En primer lugar, tira de todos los códigos XML del documento, siempre que se mantenga la estructura del párrafo. También eliminar todo el texto fuera el resumen y cuerpo principal del documento. Todos los códigos HTML símbolo de unión se transforman a sus equivalentes ASCII. A continuación, eliminar cuerpos extraños en blanco y detener todas las palabras utilizando el Stemmer Porter [2]. A continuación, transformar los nombres de las especies comunes en un formato ampliado utilizando una mano-construido diccionario de esos nombres. También común dividir palabras compuestas con guión en sus componentes utilizando un diccionario de sufijos. Por último, utilizamos un diccionario de términos biomédicos de MeSH [3] para representar técnica términos compuestos cuando se producen en un determinado documento. La figura 2 muestra un ejemplo de la entrada de texto antes y después de la normalización.

Reconociendo la proteína nombres

Con el fin de describir el documento en proteínas pares con códigos IR, primero tenemos que encontrar las referencias a una determinada proteína en el documento. Lo hacemos mediante la búsqueda de dar el nombre de proteínas, así como alias de recogida de SwissPROT [4] y Hugo [5]. Cuando se pongan en venta un alias (incluido el nombre) a un trozo de texto, usamos una simple expresión regular-la representación de los alias, así como la cadena literal. Estas expresiones regulares para permitir que las variaciones de puntuacion y caracteres especiales en el texto que coincide.

Si no encontramos ninguna coincidencias con la proteína dado su nombre o alias, entonces búsqueda usando un conjunto de "la aproximación de los alias que son generados por la aplicación de un simple conjunto de heurísticas para el alias dado. Algunos ejemplos de estos heurística son reglas que eliminase rastrero palabras (por ejemplo, las proteínas y los fragmentos), y las normas que intentan reducir una proteína nombre a un apellido (por ejemplo, dejando caer un carácter simbólico al final de un determinado nombre).

Reconociendo los códigos IR

Además de encontrar referencias a las proteínas, nuestro sistema también debe encontrar referencias a los códigos de ontología de genes. En muchos casos, sin embargo, esperamos que las GO código nombres no aparecerán al pie de la letra en los artículos que se esté trabajando. Por lo tanto, la construcción de modelos estadísticos para predecir si cada GO código se asocia con una proteína de documento par. En particular, nos enteramos de un modelo para cada código de IR para los que tenemos una formación suficiente y documentos. Desde siempre la formación conjunto es muy pequeña y representa a un número relativamente reducido de códigos IR, utilizamos las bases de datos de la página web del Consorcio GO para reunir más datos. Las bases de datos que utilizamos son SGD (levadura) [6], FlyBase (Drosophila melanogaster) [7], WormBase (C. elegans) [8] y TAIR (Arabidopsis) [9]. Son similares a las GOA base de datos [10] dado a nosotros en el sentido de que la lista de proteínas, GO código y el documento de identificación para muchos trillizos proteínas pertenecientes a los respectivos organismos. Estamos extracto de los trillizos de estas bases de datos en los casos en que los documentos asociados han PubMed identificadores que se les hayan asignado. Luego, obtener los resúmenes de estos documentos de MEDLINE. Consideramos que este texto sea "débilmente la etiqueta" con códigos IR, porque es posible que las pruebas GO asociar un código de interés para la proteína podría no ser mencionados en el resumen. Sin embargo, postula que si recogemos un número importante de documentos para cualquier código de IR, una lo suficientemente grande como fracción contendrá este tipo de pruebas, con lo que nos permite saber con precisión que el modelo de código de GO. Nos referimos a nuestros modelos de códigos IR informativo Término modelos.

Aprender un modelo informativo plazo implica la identificación de términos que son característicos de un determinado código de GO. Para ello hemos separado nuestro entrenamiento conjunto en dos: un conjunto de artículos y resúmenes relacionados con el código de IR (el "apoyo" set), y la restante serie de artículos y resúmenes (el "fondo"). Luego determinar ocurrencia para cada cuenta unigram, bigram y trigram en nuestro vocabulario en el texto de apoyo y en el fondo, y realizar una prueba χ 2 en el cuadro con el que cuenta, como se ilustra en la Figura 3. Esta prueba hace que la hipótesis nula que la distribución de un término en las dos clases (con el apoyo y el fondo) son idénticos, y devuelve un puntaje que es proporcional a la fuerza de la hipótesis alternativa. El uso de la puntuación regresó, el rango en los términos de nuestro vocabulario y recoger aquellos cuyos resultados están por encima de un umbral I como parámetro el informativo Condiciones para el GO código de interés. Después de parámetro de ajuste en los experimentos de formación conjunto, nos fijamos I de la 200 y mantenerla constante para nuestros experimentos. Como un ejemplo de la salida de este proceso, por el código GO GO: 0015370, sodio symporter actividad, algunos de los Términos unigram informativo devuelto por este proceso son pantotenato, biotina, transportista, lipoate, smvt, y la absorción de sodio-dependiente. Observamos que las palabras como symporter no son muy indicativos de la presencia de este código GO, a pesar de que forman parte del texto del código en sí. Esto puede ser debido a la actividad en cuestión es generalmente descrito indirectamente en el texto (como se podría esperar), por medio de otras palabras, en lugar de las palabras utilizadas en el texto del código de GO.

Si bien el aprendizaje informativo Término modelo para un código de IR, somos capaces de aprovechar la naturaleza jerárquica de la Ontología de Genes de la siguiente manera. Usamos los documentos que apoyar un código de GO como un apoyo a sus antepasados en la ontología como así. Por ejemplo, la membrana plasmática es un ancestro directo de parte integrante de la membrana plasmática, por lo que, los documentos que están asociados con integrante de la membrana plasmática se utilizan en la recogida de Términos informativo para membrana plasmática. Sin embargo, disminuir el peso de los documentos que justifiquen cada descendiente GO código proporcional a su profundidad en relación con el GO código bajo consideración de la siguiente manera. Que P GO ser el código objeto de examen y dejar que C sea un descendiente de P. Dado que cada ontología es un gráfico dirigido acíclicos, puede haber múltiples caminos de P en C. Que d P (C) la duración media de un camino de P en C. Entonces el peso w P (C) de cualquier documento de apoyo a la hora de calcular C informativo Términos de P viene dada por . De este modo, los documentos de apoyo integral a la membrana plasmática contaría sólo la mitad que en el cálculo de pruebas de membrana plasmática, ya que d P (C) = 1. El peso w P (C) se en cuenta en nuestros cálculos durante la prueba χ 2. Para calcular las estadísticas de fiabilidad para la prueba χ 2 para un código de IR, necesitamos un gran número de documentos. En nuestro sistema, nos ponemos en el número de documentos que se exigen a las 10. Para muchos códigos IR, sin embargo, incluso después de recoger "débilmente la etiqueta" los datos, no somos capaces de acumular 10 documentos. Para este tipo de códigos IR, confiamos en un simple modelo de expresiones regulares. Cada expresión regular se construye a partir de un determinado código GO nombre y su alias.

Cuando se administra un nuevo documento y proteínas, usamos el término modelo informativo para calcular un puntaje para cada código de GO. El resultado es la suma de la χ 2 resultados de todos los Términos informativo que se produjo en esos párrafos en el documento donde el nombre de proteínas también se produjo. A GO código se prevé que ser pertinentes al documento, si la puntuación de código que está por encima de un umbral parámetro S, y aún más, al menos k informativo Términos fueron agrupados. Después de algunos experimentos de ajuste de parámetros en nuestro entrenamiento conjunto, nos fijamos S 4000 y para k al 3 de ellos y celebró constante para nuestros experimentos. Para los códigos IR sin Informativo Término modelos, utilizamos la expresión regular modelo descrito anteriormente. Un plazo se prevé que ocurra si su expresión regular coincide con alguna pieza de texto en un párrafo donde el nombre de proteínas también se produce.

Vinculación de las proteínas y los términos de GO

Habida cuenta de los pasajes de texto que, al parecer, contienen referencias a la consulta a las proteínas y los términos de Ontología Genética, utilizamos un modelo estadístico para decidir cuál de estos códigos IR (en su caso) debe ser devuelto como anotaciones para la proteína.

El plazo informativo modelos no tienen en cuenta las propias palabras en el documento informativo más allá de los términos. Sin embargo, puede haber palabras que son comunes a muchos códigos IR, o que son por lo general texto indicativo de apoyo a la cesión de algunos GO código para algunas proteínas. Por ejemplo, las palabras que describen los experimentos de localización podría ser característica del texto que apoya los códigos IR de la Ontología de componentes. Con el fin de captar esta evidencia, nos enteramos de dos clasificadores Naïve Bayes [11] para cada ontología. Dado un atributo de valor representación de alguna pieza de texto que contenga una coincidencia con la consulta de proteínas y un código de IR, estos clasificadores regresar la probabilidad de que el pedazo de texto apoya la anotación de la proteína con el código de GO. Por lo tanto, se puede utilizar para filtrar, o re-clasificación, los resultados del Informativo Duración y modelos de expresiones regulares.

Para obtener tales Naïve Bayes clasificadores, primero extraer las características de cada uno de los párrafos de los documentos justificativos de las predicciones formuladas por el informativo Término modelos y el modelo de expresiones regulares en nuestro entrenamiento conjunto. Estas funciones consisten principalmente en unigrams se producen en el texto. Nosotros también extraer varias otras características que captura la naturaleza de la proteína-GO código de interacción, que son los siguientes:

1. el número de partidos para la proteína nombre,

2. el número de partidos para el GO nombre en clave (o su informativo Condiciones),

3. la longitud en palabras del pasaje a partir de la primera proteína o informativo Término partido y que terminó con el último de estos partido,

4. la menor distancia entre palabras en un acontecimiento de la proteína y la presencia de la GO código (o su informativo Condiciones),

5. la distancia media entre las palabras en los sucesos de la proteína y el código GO (o su informativo Condiciones), y

6. la puntuación del conjunto combinado GO código, si el modelo informativo Condiciones se utilizó para esta predicción.

Para reducir los problemas overfitting, restringir el conjunto de unigrams utilizado para los 200 que son los más correlacionados con la variable de clase, a juzgar por la información mutua. Dada una clase (apoyo / no apoyo), un apartado se describe como una multinomial sobre el vocabulario y las características de un producto de las distribuciones Gaussian lo largo de los elementos numéricos:

donde D es el párrafo, α i representa la probabilidad condicionada, habida cuenta de la clase, de la palabra i ª de la serie de palabras utilizadas en D (Pr (w i | clase)), i n representa el número de veces que ocurrió w i , Y μ y σ j j representan la gaussiana parámetros para la j ª numérico en función de la clase dada. Los parámetros α i, j μ y σ j son aprendidas a partir de entonces la formación utilizando los datos de estimación de máxima verosimilitud. Aprendemos Naïve Bayes modelos para cada una ontología para GO código predicciones hechas por el informativo Término modelos, y aparte Naïve Bayes modelos para cada una ontología de las predicciones hechas por el modelo de expresiones regulares.

La identificación de pruebas de texto

Después de que el código GO predicciones se hacen ya sea por el modelo informativo plazo o el modelo de expresiones regulares, el correspondiente modelo de Naïve Bayes se utiliza para calificar la probabilidad de que cada párrafo del texto de apoyo a algunas proteínas-GO código asociación. La puntuación máxima en todos los párrafos se utiliza como medida de confianza para una proteína-GO código asociación, y se usa para re-clasificar las predicciones de los informativos Duración y modelos de expresiones regulares. El más clasificó GO código predicciones de las proteínas y que el documento se devuelven por el sistema.

Nuestro sistema se centra en la predicción de un código de IR basado en el documento completo que se le encomienden, en lugar de encontrar a una pieza contigua de las pruebas de texto para el código. De hecho, consideramos que se trata de una fuerza de nuestro enfoque que podemos agregado pruebas de diferentes regiones de un gran documento con el fin de hacer una predicción de un código de GO. Sin embargo, a efectos de la Tarea 2,1 y 2,2, están obligados a identificar un único fragmento de texto que ofrece el mejor apoyo para una proteína predice-GO código de anotación. Para ello, utilizamos el siguiente algoritmo. Siempre devolver un solo párrafo de texto como prueba. Si las previsiones GO código tiene asociado un modelo informativo plazo, usamos ese modelo para anotar todos los párrafos en el documento que dado el nombre de proteínas producido. La mejor puntuación que el párrafo se devuelve entonces. Si el código de IR está en relación con el modelo de expresiones regulares (o no tener un modelo informativo a Plazo), usamos el Naïve Bayes modelos descritos en la sección anterior para clasificar los párrafos relacionados con las predicciones, y devolver el más alto puntaje. Tenga en cuenta que, dado que el plazo informativo modelos son específicos de los distintos códigos IR, mientras que el Naïve Bayes modelos no están, esperamos que este algoritmo para volver mejor prueba texto que si tuviéramos que utilizar siempre el Naïve Bayes modelos para seleccionar los elementos de prueba texto.

Experimentos y Debate

En esta sección, presentamos la evaluación de experimentos en nuestro sistema la formación prevista inicialmente datos, así como una evaluación de la prueba realizada por el BioCreative organizadores.

Evaluación de los componentes del sistema

En primer lugar, presentar los experimentos para evaluar la contribución de los componentes de nuestro sistema: el Informativo Término modelos, los modelos de expresiones regulares y los modelos de Naïve Bayes. Para propósitos de evaluación, aparte de que la documentación dada a nosotros en una formación y una prueba de conjunto. Puesto que hemos documentos de la Revista de Química Biológica (JBC) y de la Naturaleza, hay una partición física del conjunto de documentos. Durante el desarrollo, usamos el JBC documentos como el grupo de aprendizaje para nuestros informativos Duración y Naïve Bayes modelos. Usamos la Naturaleza como documentos de prueba. De este modo, aprendemos a Plazo informativo de los modelos conocidos GO código anotaciones relacionadas con el JBC documentos. A continuación, utilizamos estos modelos y el modelo de expresiones regulares para hacer predicciones de códigos IR en el JBC documentos. Extraemos las características de estas predicciones y aprender Naïve Bayes modelos extraídos utilizando estas características. Para la evaluación, utilizamos el término Informativo modelos de expresiones regulares y modelo para hacer predicciones sobre los documentos de las revistas Nature. A continuación, utilice nuestro aprendido Naïve Bayes modelos para clasificar y filtrar predijo GO anotaciones, habida cuenta de las proteínas y los documentos.

Para evaluar la exactitud de predicción de nuestros modelos, medir la precisión, recuperación y tasas de falsos positivos de nuestras previsiones. Precision es la fracción de código predijo GO anotaciones que son correctos. Recall (conocida también como la "verdadera tasa positiva") se define como la fracción de código correcto GO anotaciones que se predice por el sistema. La tasa de falsos positivos se define como la fracción de ejemplos negativos que se han pronosticado incorrectamente como positiva.

En primer lugar, evaluar el desempeño de la Informativo Duración y modelos de expresiones regulares. Para este experimento, ya que no usaremos la Naïve Bayes modelos. Usamos el término Informativo modelos y las expresiones regulares modelo para predecir los códigos IR de la Naturaleza de artículos, y medir la precisión y recordar. Estos resultados se muestran en la Tabla 1. Para los "combinados" experimento, que combinan los dos modelos de la siguiente manera: usamos el término modelo informativo para cada código de IR que tiene este modelo, y el uso de expresiones regulares para cualquier modelo GO código sin un modelo informativo plazo. Tenga en cuenta que esto implica que la retirada de los "combinados" del sistema no será la suma de la retirada de los dos sistemas de forma independiente. A partir de los resultados, se observa que sin la Naïve Bayes modelos, el sistema está sesgado hacia recordar a expensas de precisión. Sin embargo, esperamos mejorar nuestra precisión de re-clasificación inicial de estas predicciones mediante el Naïve Bayes modelos y thresholding los asociados la confianza. Tenga en cuenta que la muestra para recordar los "combinados" del sistema en el cuadro 1 es el máximo alcanzable de recordar el sistema.

Para medir el valor de re-clasificación de las predicciones utilizando modelos Naïve Bayes, la construcción de precisión recordar (PR) y el receptor de funcionamiento característico (ROC) gráficos. ROC gráficos medir la variación de los verdaderos positivos (recordar) del modelo con respecto a sus falsos positivos como el umbral se desplaza a través de una medida de confianza en las predicciones del modelo. PR gráficos medir el cambio en la precisión en los diferentes niveles de recordar. Evaluamos la confianza de un código de anotación GO para una proteína recibir un documento como el máximo de las probabilidades se define por la ecuación 1 más de los párrafos del documento. En la figura 4, se muestra PR ROC y gráficos para estos modelos de predicciones globales sobre el componente, las funciones y los procesos ontologías. Se muestran los gráficos separados para los casos en que las previsiones iniciales fueron realizados por el informativo Término modelos y cuando las previsiones iniciales fueron hechas por el modelo de expresiones regulares. En la República de China gráficos, la verdadera tasa positiva (recordar) los valores se adaptan a reflejar el hecho de que el máximo alcanzable de recordar la Naïve Bayes sistema está limitado por las predicciones de los modelos GO código utilizado en la primera fase.

De la figura 4, observamos que la Naïve Bayes modelos son bastante eficaces en re-clasificación inicialmente la hipótesis de anotaciones, sobre todo cuando las primeras predicciones son formuladas por el informativo Término modelos. Anotaciones con mayor Naïve Bayes resultados tienen más probabilidades de ser correcta. De este modo, estos modelos son útiles para discriminar entre pasajes de texto que se refieren a las proteínas GO códigos de los que no. Observamos también que, cuando las primeras predicciones son formuladas por el modelo de expresiones regulares, la Naïve Bayes modelos no lograr una alta precisión, incluso en los umbrales de confianza alta. Esto indica que (i) puede no ser mucho más regularidad para ser capturados en los pasajes apoyar estas predicciones, y / o (ii) nuestra hipótesis de la formación, que cada párrafo en el texto citan el apoyo a las proteínas y el código GO fue realmente la relación proteína al Código de GO, se vio gravemente violados. Tomamos nota de que, si tuviéramos una formación suficiente y los datos de cada GO plazo, no es necesario utilizar la expresión regular en todos los modelos. Así, en el límite de una formación suficiente de datos, el comportamiento del sistema está en relación con los gráficos para los modelos informativos plazo.

Utilidad de la etiqueta débilmente fuentes de datos

Para obtener modelos de códigos IR, que recogemos "débilmente la etiqueta" los datos de bases de datos públicas de varios otros organismos, como SGD, FlyBase, WormBase y TAIR. Estos datos están en forma de PubMed resúmenes de los artículos mencionados por GO anotaciones mencionados en estas bases de datos. Se trata de "débilmente marcado", ya que un resumen no puede mencionar la asociación entre un código de GO y una proteína de interés, o incluso mencionar la proteína. Una interesante pregunta es si estos datos los beneficios de nuestro sistema lo que hace más exacta. En esta sección se describe un experimento para responder a esta pregunta.

En este experimento, evaluamos una versión de nuestro sistema que está entrenado por el siempre JBC sólo artículos de revistas. Por lo tanto, Informativo Término modelos se construyen sólo para los códigos IR que tienen una cobertura suficiente en el JBC artículos de revistas. Para nuestro sistema original, el umbral de cobertura fue de 10 documentos, es decir, un código GO tuvo que ser anotada con al menos 10 documentos (texto completo o resumen) a fin de que podamos construir un modelo informativo plazo para ello. Para este experimento, se utilizó una cobertura umbral del 3 documentos. Incluso con un umbral más bajo, pero no hemos podido construir modelos informativos Plazo para más de 200 códigos IR para los que hemos tenido en nuestros modelos de sistema original.

El PR ROC y gráficos de este sistema, prueba celebrada en la Naturaleza-out artículos, se muestran en la Figura 5. Comparando estos resultados con la figura 4, se observa que el rendimiento del sistema ha degradado significativamente en el sistema original. De hecho, el informativo Término modelos cuentan ahora con menor recordar que el modelo de expresiones regulares! No sólo recordar la máxima caída de 18,1% en comparación con el 45,7% anterior, el sistema del punto final de precisión también disminuye a 1,97% desde el 2,9%. El menor rendimiento puede atribuirse a dos causas: en primer lugar, un menor número de códigos IR han informativo Término modelos, a fin de que la menor precisión de expresiones regulares modelo se utiliza más a menudo. En segundo lugar, incluso para los códigos IR que han informativo Término modelos, los términos informativo es probable que sean de menor calidad debido a que el documento umbral de cobertura es menor. Debido a estos factores, las previsiones utilizadas para aprender el Naïve Bayes modelos también son de menor calidad. Esto reduce la Naïve Bayes modelos' capacidad para volver a la categoría de prueba las predicciones.

De este modo, a partir de este experimento, se concluye que el uso de la etiqueta débilmente datos como parte de nuestro entrenamiento conjunto es muy importante para incrementar tanto la precisión y la retirada de nuestro sistema.

Evaluación sobre los datos de los ensayos

En esta sección, se discute el desempeño de nuestro sistema en relación con los demás sistemas presentados en el conjunto de datos de prueba, conforme a la evaluación de la BioCreative organizadores. Debemos tener en cuenta que debido a dificultades técnicas durante la evaluación, completar nuestra presentación para esta tarea no fue evaluada. Es posible que nuestro recuerdo puede haber mejorado si esta evaluación se realizaron. En consecuencia, hemos trazado un "proyectado Recall" punto en la Figura 6, que indica la estimación de recuperación de nuestro sistema de toda nuestra presentación sido evaluadas, en el supuesto de que nuestra precisión estancias en el nivel.

Los resultados de los distintos sistemas se muestran en la Figura 6 para las tareas 2,1 y 2,2. Estamos parcela la precisión de cada uno de los sistemas contra el número de verdaderos positivos predicciones realizadas. A diferencia de la formación conjunto, el número total de corregir las cesiones GO código es desconocido para la prueba. Por lo tanto, no usamos recordar, sin embargo, el número de verdaderos positivos predicciones es proporcional a recordar. Si se ejecuta múltiples fueron evaluados por un grupo, parcela el mejor resultado de ese grupo. Es evidente que ningún sistema proporciona resultados excepcionales para la tarea general, y hay mucho margen de mejora. Observamos que para la Tarea 2,2, nuestro sistema es capaz de lograr un compromiso razonable entre la precisión y recordar - que tiene el tercer mejor precisión, así como el tercer mejor recuerdo. Además, nuestro (estimado) proyecta recordar es la segunda más alta entre todos los grupos. Por Tarea 2,1, los resultados de prueba para nuestro sistema no son tan buenos. Sin embargo, como ya hemos señalado, esto es probable porque nuestro sistema se concentra en modelar el texto completo del artículo, más que ningún paso, y se nos pidió un informe a paso específico para esta tarea.

Conclusión

Hemos construido un sistema que utiliza aprendido modelos estadísticos para anotar automáticamente las proteínas con los códigos de la ontología genética basada en artículos de la literatura científica. Nuestra evaluación experimental del sistema indica que tiene valor predictivo. En particular, nuestros experimentos muestran que la utilización de la etiqueta débilmente fuentes de datos puede mejorar significativamente la precisión de recordar las características de los sistemas de anotación esta tarea. Sin embargo, aún queda mucho margen de mejora. En el trabajo futuro, planeamos investigar varias cuestiones, entre ellas: (i) modificar el aprendizaje a distancia basado en modelos para el reconocimiento de casos adicionales de proteína de nombres, (ii) utilizar modelos con representaciones lingüísticamente más ricos para el paso de filtrado y clasificación candidato anotaciones, y ( iii) con un múltiple enfoque basado ejemplo [12] cuando los modelos de aprendizaje para el filtrado y clasificación. La aplicación de un múltiplo instancia enfoque está motivado por el hecho de que, incluso en la capacitación de datos, los pasajes de texto que apoyen una determinada anotación no se marcan.

Agradecimientos

Esta investigación fue financiada en parte por subvención NIH 1R01 LM07050-01 y NSF subvención IIS-0093016. Los autores también desean agradecer a los organizadores de la BioCreative Evaluación por sus considerables esfuerzos.