Journal of Biomedical Discovery and Collaboration, 2006; 1: 4-4 (más artículos en esta revista)

El TREC 2004 genómica pista categorización tarea: la clasificación de documentos de texto completo biomédica

BioMed Central
Aaron Cohen M (cohenaa@ohsu.edu) [1], William R Hersh (hersh@ohsu.edu) [1]
[1] Departamento de Informática Médica y Epidemiología Clínica, Facultad de Medicina, Oregon Health & Science University, 3181 SW Sam Jackson Park Road, Mail Code: BICC, Portland, Oregon, 97239-3098, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

El TREC Genómica Track 2004 se centró en la recuperación de información y la aplicación de técnicas de minería de texto para mejorar el uso de la información genómica en biomedicina. La Genómica pista consistió en dos tareas principales, la recuperación y ad hoc documento categorización. En este trabajo se describe la tarea de categorización, que se centró en la clasificación de los documentos en texto completo, simulando la tarea de los curadores del Genoma del ratón Informática (MGI) y el sistema consta de tres subtareas. Una subtarea de la tarea requiere la categorización triaje de los artículos que puedan tener evidencia experimental que justifiquen la asignación de IR, mientras que las otras dos subtareas se ocupa de la cesión de las tres de nivel superior GO categorías a cada documento que contenía pruebas de estas categorías.

Resultados

La pista había 33 grupos participantes. La media y la máxima utilidad para medir el triage subtarea fue 0,3303, con una puntuación máxima de 0,6512. Ningún sistema es capaz de mejorar sustancialmente los resultados a lo largo simplemente utilizando el término MeSH Ratones. Análisis de las características importantes de coincidencia entre la formación y la prueba resultó ser menos de lo esperado. Muestra de la cobertura de GO términos asignados a los documentos de la colección es muy escasa. La determinación de los documentos que contienen GO plazo es probable que las pruebas tienen que ser tratados como tareas separadas para cada concepto representado en GO, y, por tanto, requieren mucho más densa de muestreo que se disponía en los conjuntos de datos.

La anotación subtarea presentaron una medida de la F-0,3824, con una puntuación máxima de 0,5611. La media de F-medida para la anotación más pruebas códigos subtarea fue 0,3676, con una puntuación máxima de 0,4224. Gene nombre reconocimiento resultó ser de beneficio para esta tarea.

Conclusión

Clasificación automatizada de los documentos para GO anotación es una tarea difícil, como fue la extracción automatizada de código GO jerarquías y códigos de las pruebas. Sin embargo, la automatización de estas tareas proporcionaría beneficio considerable para la curación biomédicas, y, por tanto, la labor en esta esfera debe continuar. Otras experiencias permitirá la comparación y el análisis ulterior sobre el que algorítmico características son las más útiles en el documento biomédica clasificación, y una mejor comprensión de la tarea características que hacen de clasificación automatizados viable y útil para la curación biomédica documento. El TREC Genómica pista será continua en el año 2005 se centra en una amplia gama de tareas de triage y la mejora de resultados a partir de 2004.

Antecedentes

Debido a la creciente magnitud y complejidad de la literatura biomédica, hay un creciente esfuerzo dedicado a la estructuración de los conocimientos en bases de datos. Uno de los muchos esfuerzos es clave para describir la función de los genes. Para facilitar esta labor, la comunidad científica se ha unido para desarrollar la Ontología de Genes (GO, http://www.geneontology.org] [1], un grande, vocabulario controlado sobre la base de tres ejes o jerarquías:

• Molecular función (MF) - la actividad de los genes en el producto molecular (bioquímica), por ejemplo, unión a proteínas

• Biológica proceso (AP) - la actividad biológica llevada a cabo por el proceso de genes, por ejemplo, en la diferenciación celular

• componente celular (CC) - en la celda donde el producto génico funciones, por ejemplo, el núcleo

Una de las principales uso de la GO ha sido para anotar los genomas de los organismos utilizados en la investigación biológica. Las anotaciones a menudo están vinculadas a otro tipo de información, como la literatura, la secuencia de genes, la estructura de la proteína resultante, etc Un enfoque cada vez más común es el desarrollo de "organismo modelo de bases de datos", que reunirá a toda la información de un organismo específico en Un fácil utilizar formato. Algunas de las más conocidas organismo modelo bases de datos incluyen las dedicadas a la mouse (ratón Genoma informática, MGI, http://www.informatics.jax.org] y de la levadura (Saccharomyces Genome Database, SGD, http://www. Yeastgenome.org]. Estas bases de datos requieren un gran esfuerzo humano para la curación y anotación, que suele ser realizado por los investigadores a nivel de doctorado. Estos curadores pueden ser ayudados por alto sustancialmente la calidad de los instrumentos de información, incluidos los sistemas de clasificación automatizados documento.

En la tarea de categorización, se extrajeron los datos utilizando para nosotros a partir de la base de datos por el MGI MGI personal, que simularon dos de la clasificación de actividades llevadas a cabo por annotators humanos para el sistema de MGI: un triage tarea simplificada y dos variaciones de MGI de la anotación tarea. Sistemas de la obligación de clasificar los documentos en texto completo de un lapso de dos años (2002-2003) de tres revistas, con el primer año (2002) se compone de los documentos de formación de datos y el segundo del año (2003) los documentos que componen la prueba de los datos.

Uno de los objetivos de MGI es proporcionar estructurado, codificado anotación de la función de genes de la literatura biológica. Curadores identificar los genes humanos y asignar los códigos IR sobre la función de genes con otro código que describe el tipo de evidencia experimental de apoyo a la asignación de código de GO. La enorme cantidad de literatura que requieren curación crea un reto para MGI, ya que sus recursos no son ilimitados. Como tal, que emplean un proceso de tres pasos para identificar los documentos más probable para describir la función de genes:

1. Acerca de ratón

El primer paso es identificar los artículos acerca de la biología de la genómica del ratón. El texto completo de varios centenares de artículos de revistas se busca las palabras ratón, ratones, o murino. Artículos pasar este paso se analizaron además para su inclusión en MGI. En la actualidad, los artículos se buscan en un navegador de uno a la vez, porque la búsqueda de texto completo no está disponible para todos los de las revistas incluidas en MGI.

2. Triage

El segundo paso es determinar si los artículos identificados deben ser enviados para curación. MGI curates artículos no sólo para GO, sino también en otros aspectos de la biología, como la cartografía genética, la expresión génica de datos, la descripción del fenotipo, y más. Para GO curación, MGI se esfuerza por seleccionar sólo los artículos que contienen los datos de apoyo a la asignación de un código GO a un gen específico. El objetivo de este proceso de selección es limitar el número de artículos enviados a los curadores humanos para más exhaustiva y un análisis específico. Los artículos que superan esta etapa MGI entrar en el sistema con etiquetas de GO, de cartografía genética, embriológicos expresión, etc El resto de los artículos no se entró en MGI. Nuestra tarea participan triage clasificar correctamente los documentos que habían sido seleccionados para GO anotación en este proceso.

3. Anotación

El tercer paso es la curación con GO. Curadores identificar los genes para los que existe evidencia experimental para justificar la asignación de códigos IR. Estos códigos son asignados GO, junto con un código adicional para cada GO código que indica el tipo de evidencia experimental. No puede más de un gen específico asignado códigos IR en un determinado papel, y no puede haber más de un GO código asignado a un gen. En general, y en nuestra colección, sólo hay una evidencia código por código GO cesión por papel. Nuestra tarea anotación en una simplificación de esta anotación paso. El objetivo de esta tarea no fue para seleccionar el real GO plazo, sino más bien para seleccionar automáticamente el uno o más jerarquías GO (función molecular, el proceso biológico, componente o celular) de los términos que habían sido seleccionados para anotar el gen para el artículo. Sistemas de tratar de automatizar este paso deben identificar los genes individuales, quizás utilizando técnicas de reconocimiento de la entidad denominada [2], así como el código correspondiente GO jerarquía. Para la subtarea secundaria, los sistemas deben identificar las pruebas así como el tipo de código.

A más corto, versión preliminar de este documento carece de gran parte del análisis y la discusión que aquí se presenta se publicó originalmente en la línea "http://trec.nist.gov/pubs/trec13/papers/GEO.OVERVIEW.pdf".

Métodos

Los documentos para la categorización de los artículos tarea consistió de tres revistas de más de dos años, lo que refleja los documentos en texto completo que pudimos obtener de Highwire Press http://www.highwire.org. Highwire es un "valor añadido" electrónico de la editorial de las revistas científicas. La mayoría de las revistas en su colección son publicados por las asociaciones profesionales, con el derecho de autor con el resto de asociaciones. Highwire originalmente se inició con revistas biomédicas, pero en los últimos años se ha extendido a otras disciplinas. También han apoyado IR (recuperación de la información) relacionados con la investigación y por actuar como intermediario entre el consentimiento editores y los sistemas de información los grupos de investigación que quieran utilizar sus revistas, como la TREC Genómica trazado.

Las revistas disponibles y utilizados por nuestra pista de este año fueron Diario de Química Biológica (JBC), Diario de Biología Celular (JCB), y Actas de la Academia Nacional de Ciencias (PNAS). Estas revistas tienen una buena proporción de los artículos del genoma del ratón. Cada una de las ponencias de estas revistas se imparte en formato SGML Highwire basada en la definición de tipo de documento (DTD). Tenemos artículos de uso a partir del año 2002 para la formación de los datos y de 2003 para los datos de pruebas. Los documentos para la categorización de tareas vino de un subconjunto de los artículos que tengan las palabras del ratón, ratones o murino como se ha descrito anteriormente. Hemos creado un cruce de archivo (mirar tabla de arriba), que coincide con un identificador para cada artículo Highwire (su nombre de archivo) y su correspondiente identificación de PubMed (PMID). El cuadro 1 muestra el número total de artículos en cada revista y el número de cada revista incluida en el subconjunto utilizados por la pista. La colección de documentos SGML formación fue de 150 megabytes de tamaño comprimido y sin comprimir 449 megabytes. La colección de documentos SGML prueba fue de 140 megabytes y 397 megabytes comprimido sin comprimir.

Desde MGI anotación está a la zaga de la publicación del artículo, un importante número de documentos han sido seleccionados para anotación, pero aún no anotado. Desde el punto de vista de la subtarea triage, queríamos uso de todos estos artículos como ejemplos positivos, ya que todos ellos fueron seleccionados para GO anotación. Sin embargo, no podíamos utilizar los artículos que aún no anotado para la anotación jerarquía tarea, ya que no teníamos las anotaciones. También es necesario un conjunto de ejemplos negativos para la anotación jerarquía tarea y optó por el uso de artículos seleccionados para la acción de MGI para otros (es decir, la no-GO anotación). Estos ejemplos negativos contienen información sobre la investigación del ratón, pero no incluyen las pruebas para la asignación de un código de GO. La figura 1 muestra los grupos de los documentos y la forma en que fueron asignados a ser ejemplos positivos y negativos de las subtareas.

Triage subtarea

El objetivo del triage subtarea es identificar correctamente a los documentos de que se considera que la evidencia experimental que justifican la anotación con códigos IR. Algunos ejemplos positivos de los trabajos incluidos designado GO anotación por MGI. Como se señaló más arriba, algunos de estos documentos todavía no se habían anotado. Ejemplos negativos son todos los trabajos que no hayan sido designadas para GO anotación en el sistema operativo MGI. Para la formación de datos (2002), hubo 375 ejemplos positivos y negativos ejemplos 5462. A los datos de prueba (2003), hubo 420 ejemplos positivos y negativos ejemplos 5623. Ver Tabla 2. Asimismo, cabe señalar que el sistema de MGI es, como la mayoría de las bases de datos operacionales, continuamente actualizado, de modo que los datos de la pista representa un resumen de la información de la base de datos obtenidos en mayo, de 2004.

La evaluación para medir el triage tarea fue la utilidad medida suelen aplicar en la investigación y la categorización de texto utilizado por el ex TREC Filtrado trazado. Esta medida contiene los coeficientes de la utilidad de recuperación no pertinentes y los documentos pertinentes. Se utilizó una versión que se normalizó por el mejor resultado posible:

U = U norma crudo / U max

Donde U es la norma normalizado Resultado, U crudo del puntaje bruto, y U max el mejor resultado posible.

Los coeficientes para medir la utilidad se deriva de lo siguiente. Para que una prueba de recogida de los documentos de clasificar, U bruto se calcula como:

U cruda = (r * u pertinentes-docs-recuperados) + (u nr * no pertinentes-docs-recuperados)

Donde:

• u r = utilidad relativa de documento pertinente

• u nr = utilidad relativa de los no pertinentes documento

Utilizamos valores de u r u nr y que se regían por los casos límite para diferentes resultados. En particular, pensamos que era importante que la medida tiene las siguientes características:

• Totalmente perfecta predicción: U norma = 1

• Todos los documentos designados positivo (triage todo): 1> U norma> 0

• Todos los documentos designados negativo (triage nada): U norma = 0

• Totalmente imperfecto predicción (todas las predicciones equivocadas): U norma <0

Nosotros fijo u nr en -1 como se suele hacer. Con el fin de alcanzar la frontera por encima de los casos, hubo que colocar u r> 1. El enfoque ideal habría sido entrevistar a MGI curadores de decisiones y utilizar enfoques teórico para determinar su utilidad. Sin embargo, el tiempo y las limitaciones de recursos no permiten esto. Decidimos que la selección de todo lo que debe tener un enfoque de mayor puntuación que el triage de nada, ya que la práctica actual en MGI es examinar (triage) GO todo para la práctica de pruebas y que ciertamente tiene valor a la MGI y muchos de sus usuarios Base de datos. Triaging nada en el resultado no está comisariada GO pruebas. Dado que el proceso actual tiene valor, pero también deja mucho margen de mejora en la eficiencia, que estima que una norma U en el rango de 0.25-0.3 para el triage de todo condición sería apropiado. La solución para estos casos frontera con U ~ 0.25-0.3 norma para este caso, se obtuvo un valor de u r ~ 20. Para mantener los cálculos simples, elegimos un valor de u r = 20. 3 muestra el valor de U norma de los cuatro casos límite.

La medida U max se calculó suponiendo que todos los documentos pertinentes no se recuperaron y no se recuperaron los documentos pertinentes, es decir, completamente perfecta y predicción U máx = u * r-todos-los-docs recuperados.

Así, para la formación de datos,

U cruda = (20 * pertinentes-docs-recuperados) - nonrelevant-docs-recuperados

U máx = 20 375 7500

U norma = [(20 * pertinentes-docs-recuperados) - nonrelevant-docs-recuperadas] / 7500

Asimismo, para la prueba de datos,

U cruda = (20 * pertinentes-docs-recuperados) - nonrelevant-docs-recuperados

U máx = 20 420 8400

U norma = [(20 * pertinentes-docs-recuperados) - nonrelevant-docs-recuperadas] / 8400

Anotación subtareas

El principal objetivo de anotación subtarea era, en vista de un artículo y el nombre de genes, para identificar correctamente cuál de las jerarquías GO (también llamados dominios) había dentro de los mismos términos en que fueron anotados por el MGI curadores. Tenga en cuenta que el objetivo de esta tarea no fue para seleccionar el real GO plazo, sino más bien para seleccionar una o más jerarquías GO (función molecular, el proceso biológico, componente o celular) de los términos que habían sido seleccionados para anotar el gen para el artículo . Documentos que se había anotado en términos de uno a tres jerarquías.

Para ejemplos negativos, hemos utilizado los documentos de 555 que había un gen nombre asignado, pero fueron utilizados para otros fines por MGI. Como tales, estos documentos no tenían GO anotaciones. Estos documentos, sin embargo, tiene uno o más genes asignado por MGI para la anotación de otros fines.

Una subtarea secundario era determinar la correcta GO pruebas de que el código fue con la jerarquía de código. Estas pruebas de los códigos de distinguir el tipo de pruebas que el artículo dispone para asignar el código de GO, como IDA (inferirse de ensayo directo), o IMP (inferirse de fenotipo mutante). Sólo dos grupos tomaron parte en esta subtarea. El cuadro 4 muestra el contenido y la cuenta de los archivos de datos para esta subtarea. Para la formación de datos, hubo un total de 504 documentos que fueron ya sea positivo (uno o más términos asignados GO) o negativa (no hay términos asignados GO) ejemplos. A partir de estos documentos, un total de 1291 genes había sido asignado por MGI. (El archivo de genes que figura el identificador de MGI, el gen símbolo, y el nombre de genes. No contiene ningún otro sinónimos.) Hubo 1418 el documento único posible-de pares de genes en la formación de datos. Los datos de las tres primeras filas de la Tabla 4 se diferencian del resto en el sentido de que los datos fusionados de ejemplos positivos y negativos. Se trata de lo que se utilizan como insumos para los sistemas de nombrar a los dominios o GO GO dominios más pruebas de sus códigos por la anotación tarea. Cuando los datos de prueba fueron puestos en libertad, estos tres expedientes fueron los únicos que se presentaron.

A los ejemplos positivos en la formación de datos, hay 178 documentos y 346 pares de genes documento-. Hubo documento 589-GO-gen nombre de dominio tuplas (sobre un máximo posible de 346 * 3 = 1038). Hubo documento 640-GO-gen nombre de dominio de código de pruebas de tuplas. Un total de 872 GO más pruebas códigos han sido asignados a estos documentos. Para los ejemplos negativos, hay 326 documentos y de 1072 el documento de pares de genes. Esto significa que los sistemas podrían asignar 1072 * 3 = 3216 el documento-gen-GO nombre de dominio tuplas. Tenga en cuenta que las pruebas MGI códigos se refieren al tipo de pruebas, no las cosas que hay pruebas para. Algunos documentos contienen pruebas de más de un tipo de gen y GO dominio.

La evaluación de las medidas para la anotación subtareas se basaban en el concepto de la identificación de tuplas de datos. Teniendo en cuenta el artículo y de genes, sistemas designado a uno o ambos de los siguientes tuplas:

• <article, gene, GO jerarquía code>

• <article, gene, GO jerarquía code, pruebas code>

Se empleó un recuerdo, la precisión, y F-medida de evaluación para cada medida subtarea:

• Recuerdan = número de tuplas correctamente identificados / número correcto de tuplas

• Precision = número de tuplas correctamente identificados / número de tuplas identificado

• F = (2 * recordar * precisión) / (recordar + precisión)

Para la formación de datos, el número total de corregir <article, gene, GO jerarquía code> tuplas fue 589, mientras que el número total de corregir <article, gene, GO jerarquía code, pruebas code> tuplas fue 640.

Ejemplos del formato de presentación requeridos para cada subtarea se muestran en 5.

Resultados

Hubo 98 carreras presentadas a partir del 20 de la clasificación de los grupos de tareas. Estos se distribuyen a través de las subtareas de la tarea de categorización de la siguiente manera: 59 para el triage subtarea, 36 para la anotación jerarquía subtarea, y tres para la anotación más pruebas jerarquía código subtarea.

Triage subtarea

Los resultados de la selección se muestran en la subtarea 6. Una variedad de grupos utilizan clasificadores basados en diferentes técnicas de aprendizaje automático. Por ejemplo, el grupo de la Universidad de Rutgers utilizado un clasificador Bayesiano basado en un modelo de regresión logística [3], el grupo de la Corporación Patolis utilizado un clasificador basado en SVM [4], y nuestro grupo de OHSU utiliza una versión modificada de votación perceptron el algoritmo de clasificación [5 ]. La mayor puntuación corre tendido a hacer uso de términos MeSH de alguna manera. Los mejores resultados vinieron de ejecutar Rutgers, utilizando el registro de MEDLINE, ponderación, y filtrado por el término MeSH Ratones [3]. Ellos lograron una Unorm de 0,6512.

Sin embargo, este grupo también señaló que el término MeSH Ratones solos anotó mejor que todos, pero la única top plazo, con un Unorm de 0,6404. Esto significa que ningún otro enfoque más capaz de clasificar los documentos para triage que simplemente usando el término MeSH Ratones de la MEDLINE record. Por supuesto, este plazo sólo logró una precisión de alrededor de 15% (con un 89% de recordar), por lo que esta función está lejos de ser un predictor perfecto. Todos los triage subtarea resultados se muestran gráficamente en la figura 2, junto con la utilidad para el término MeSH Ratones y la decisión de seleccionar todos los artículos.

Estos resultados nos permiten seguir las colecciones de textos analizados, la comparación de las características identificadas como fuertes predictores en la formación de datos (documentos desde el año 2002) con las de los datos de prueba (los documentos a partir del año 2003). Una de las cuestiones importantes en la aplicación de los sistemas de clasificación de texto a los documentos de interés para los curadores y annotators así es cómo la capacitación disponibles datos representa los documentos que se han clasificado.

Cuando la calificación de un texto biomédica, la capacitación disponibles los documentos deben haber sido escrito antes de que el texto que se ha de clasificar. Esto es necesario para las tareas de TREC realista simulación de la automatización de la tarea de la selección GO curadores. Trabajos escritos después de un determinado artículo no estará disponible para el sistema de formación antes de la clasificación de ese artículo. Sin embargo, por su propia naturaleza, el campo de la ciencia cambia con el tiempo, al igual que el lenguaje utilizado para describirlo. La rapidez con la literatura escrita cambios de la ciencia tiene una influencia directa sobre el desarrollo de los sistemas de clasificación de texto biomédica en términos de cómo se generan y características escogido, la frecuencia de los sistemas de la necesidad de nueva formación, la forma en el gran incremento de la formación debe ser, y es posible efecto El máximo rendimiento que se puede esperar de estos sistemas.

Queríamos empezar a entender este problema potencialmente importante de la deriva terminológica en la literatura biomédica. Con el fin de medir qué tan bien las características de la formación elegida representó a la recopilación de información importante en la clasificación de los documentos en la colección de prueba, se realizó idéntica función de la generación y procesamiento de la selección en la formación y la prueba de las colecciones, incluyendo su origen y dejado de decir, de Chi-cuadrado Función de selección, a un alfa de 0,025, y la inclusión de términos MeSH en el potencial conjunto de características. El proceso genera un conjunto de 1885 funciones en la formación de recogida y 1899 importantes elementos de prueba sobre la colección. Luego mide el grado en que la formación colección representa el conjunto de características de la prueba recogida por el conjunto de características de la computación similitud entre las cifras de los dos conjuntos [6]. Dice el coeficiente de similitud fue 0,2489, la similitud de Jaccard fue 0,1422, coseno similitud fue 0,2489, y la medida se superponen 0,2499. Todas las medidas de similitud muestran un bajo grado de similitud entre los dos conjuntos.

Hemos realizado medidas de similitud equivalente en el individuo palabra frecuencias de la formación y la prueba recogida, filtrados Inglés palabras comunes como antes, y ordenados de las palabras más frecuentes a menos frecuentes para ambos conjuntos. Cálculos medidas de similitud entre los primeros 100, 1000, y de 10000 palabras en ambos conjuntos mostraron consistentemente altos de similitud medidas, con la máxima similitud Dice ser el coeficiente de 0,9618 en 100 palabras, y la mínima de ser una similitud de Jaccard de 0,9232 a 10000 palabras.

Estamos también interesados en cómo los GO códigos asignados a los documentos mediante la capacitación y la prueba de las colecciones se superponen. La Figura 3 muestra una trama de la serie de códigos IR en el combinado (además de las pruebas de capacitación) corpus, en función del número de documentos relacionados con cada uno de esos códigos IR. Como puede fácilmente observarse, la gran mayoría de los GO códigos relacionados con los documentos en el corpus se asocian únicamente con un solo documento en el corpus (448 de 599), mientras que el 90% de GO códigos que aparecen en el corpus asociados a dos o Menos documentos.

Recordemos que un documento debe ser positivo para triaged GO si existen pruebas para cualquiera de los temas que figuran en los códigos 20000 GO. Un documento puede contener evidencia de más de un código de IR, pero dado el limitado tamaño de la formación conjunto, un documento que es más probable que sea clasificado como positivo para GO si contiene indicios de un código común de IR en lugar de uno raro. Figura 4 analiza esta situación en el combinado corpus. La cifra muestra el número de documentos en el corpus, cuya más comunes asociados GO código se da (por la frecuencia de los códigos IR en el corpus) en el eje "x".

Es evidente que un número importante de documentos (48 de cada 328, aproximadamente el 15%) tienen una "más comunes" GO código que aparece sólo una vez en todo el corpus. Más de la mitad de los documentos más comunes tienen un código que aparece GO menos de 10 veces en todo el cuerpo.

Anotación jerarquía subtarea

La anotación jerarquía subtarea resultados se muestran en 7, mientras que la anotación más jerarquía subtarea código resultados de las pruebas se muestran en la Tabla 8. La principal medida de evaluación para esta tarea fue la F-medida. Debido a que sólo existe una sola medida por correr, no hemos podido llevar a cabo estadísticas comparativas. Figura 5 muestra la anotación jerarquía subtarea resultados gráficamente.

En la anotación jerarquía subtarea, corre el gran variedad de recordar y precisión. La mejor funciona, es decir, los que tienen el más alto F-medidas, ha de recordar los niveles medio y precisión. El vino de arriba correr la Universidad de Indiana y utilizado una variedad de enfoques, incluyendo un k-vecino más cercano de modelo, lo que se refiere a la cartografía MeSH, utilizando palabras clave y glosario campos de los documentos, y el reconocimiento de los nombres de genes [7]. Además después de la presentación corre planteado sus F-medida a 0,639. En toda una serie de grupos, se encontró beneficio de equiparación de genes nombres adecuadamente. Universidad de Wisconsin también se encuentran los nombres de genes en la determinación de la pena y características de modelado en los que las penas previstas valor [8].

Discusión

El TREC 2004 Genomics Track categorización tarea incluyó una amplia diversidad de enfoques, con lo sustancial de la variación entre los resultados. Tratando de discernir el valor relativo de ellos es difícil, ya que algunos grupos realizaron experimentos de parametrización o utilizado las líneas de base común.

El triage subtarea se vio limitada por el hecho de que el uso de los término MeSH Ratones asignado por el MEDLINE indizadores fue mejor de la MGI triage decisión que ninguna otra cosa, incluida la compleja función de la extracción y de la máquina los algoritmos de aprendizaje de muchos grupos participantes. Algunos expresaron su preocupación de que MGI podría dar preferencia a basar decisiones anotación en maximizar la cobertura de los genes en vez de catalogación exhaustiva de la literatura, algo que sería útil para los usuarios de su sistema, sino comprometer el valor de sus datos en tareas como automatizado artículo triage. Se nos aseguró el director de MGI (J. Blake, comunicación personal) que la decisión inicial de triage para un artículo que se hizo independiente de la cobertura previa de los genes, aunque prioridad decisiones adoptadas más tarde en la tubería no tomar en cuenta la cobertura. Como tal, el triage en los que nuestras decisiones se basaron de datos de sonido es el punto de vista de la clasificación documento.

La decisión también fue anotación no afectados por la presente desde los aspectos positivos y negativos no son exhaustivas muestras de diseño, es decir, el conjunto de datos de la anotación tarea no incluía todos artículo GO anotaciones hechas por MGI durante este período de tiempo. El corpus no necesitan ser exhaustiva de los resultados de ser válidos para este subtarea, sino que simplemente hay que corregir para la formación y muestras de ensayo con GO jerarquías y las pruebas distribuidas uniformemente alrededor de los códigos.

Otra preocupación acerca de los datos de MGI es si la instantánea obtenida a mediados-2004 fue significativamente actualizado en el momento en la pista se terminó. Esto fue analizado a principios de 2005, y se encontró que de hecho el número de PMIDs en el triage subtarea había aumentado de tamaño en un 10%, con un número muy pequeño de muestras positivas anteriormente ahora negativamente triaged (curadores determinó que estos documentos hizo en realidad No contienen pruebas de la cesión GO). Estamos re-corrió nuestros métodos presentados en la actualización de datos y obtener resultados prácticamente idénticos.

La principal cuestión para el triage es la razón por la subtarea sistemas no están en condiciones de superar el único término MeSH Ratones. Cabe señalar que este término está lejos de ser perfecta, lograr un 89% de recordar, pero una precisión de sólo el 15%. Entonces, ¿por qué no más elaborados sistemas de superar esto? Hay una variedad de posibles explicaciones:

• MGI datos es problemático - mientras que hace algunos MGI control interno de la calidad, no la llevan a cabo en el nivel que los grupos de investigación que, por ejemplo, con las puntuaciones de kappa.

• Nuestros algoritmos y los sistemas son imperfectos - no son conscientes de que existe o no existe una mejor predicción característica fija y algoritmos para esta tarea.

• Nuestra métrica puede ser problemática - es el factor = 20 utilidad en la fórmula apropiada? ¿Cómo podemos determinar un medio más apropiado de la computación de utilidad que refleja con mayor precisión las necesidades de los curadores MGI?

• La deriva terminológica entre el 2002 y la formación corpus corpus 2003 prueba fue lo suficientemente grandes como para reducir la eficacia de todas las características que discriminan a excepción del término MeSH Ratones. Tal vez un estilo en línea (incremental), la formación y el método de evaluación sería más apropiado que el lote método que hemos utilizado aquí.

• El triage GO tarea es significativamente más compleja de lo anteriormente estudiado el documento de clasificación de tareas. Mucho más datos puede ser necesaria la capacitación adecuada algoritmos de aprendizaje automático.

En cierta medida, todas estas explicaciones puede jugar un factor, pero la última es, probablemente, el factor dominante. El GO triage tarea parece mucho más difícil de lo anteriormente estudiado biomédica documento triage tareas. En el 2002 Descubrimiento del conocimiento y minería de datos (KDD) Challenge Cup, una tarea algo similar a la TREC triage tarea se organizó en torno a la selección de documentos sobre la Drosophila (mosca de la fruta) para la curación de FlyBase, utilizando también los artículos completos. En general, el análisis de los resultados demostró que los sistemas hizo bastante bien, con el mejor sistema de lograr una medida de F-78% en hacer sí o no las decisiones sobre los documentos, similares a la selección necesita una decisión en la tarea TREC [9].

Los resultados de la genómica TREC pista GO triage tarea parece mucho peor, con la mejor presentación de puntuación una utilidad de 0,6512 y el correspondiente F-Resultado de alrededor del 27%. Sin embargo, existen varias diferencias importantes entre el TREC y la KDD triage tareas, además de la obvia, pero posiblemente diferencia importante, que la KDD tarea se centró en la genómica y la mosca de la TREC tarea de ratón. En primer lugar, tanto la formación y la prueba de las colecciones para la KDD tarea había una proporción relativamente alta de positivos (33% y 43%, respectivamente), frente a la tarea TREC (6,5% y 7%). Además, la tarea TREC utiliza una utilidad en gran medida hacia los altos recordar que, si bien la KDD Copa utilizado F-Resultado, el equilibrio armónico media de recordar y precisión. Por lo tanto, la KDD medida no tiene en cuenta la preferencia por un conservador, no faltan muchos artículos positivos, como lo hemos hecho aquí, de igual ponderación correcta predicción de los aspectos positivos y negativos, y había una proporción de 50% positivos en la prueba de recogida. Estos factores pueden haber hecho bien en la puntuación KDD tarea más fácil en comparación con la tarea TREC.

Otra diferencia entre la TREC y KDD compartida tareas puede ser aún más importante. La KDD FlyBase triage tarea consistía en "determinar si el documento cumple con los FlyBase criterios de la expresión de genes de curación, y para cada gen, indicar si el documento tiene plena evidencia experimental para los productos genéticos (mRNA y / o proteínas)" [9]. Positivo clasificación se determinó únicamente en el pleno si el documento evidencia experimental incluyó la vinculación de los genes de sus productos. El TREC tarea consiste en determinar si el documento contenía las pruebas para la asignación de los códigos IR, GO cualquier código. Actualmente, hay alrededor de 20000 términos diferentes en el IR, en los sectores de componentes celulares, funciones moleculares y procesos biológicos. Se trata claramente de una gama mucho más amplia de temas que la simple transcripción de genes productos, y hace que la TREC GO tarea mucho más heterogénea que la KDD tarea.

Figuras 4 y 5 muestran que la toma de muestras y la cobertura de IR en términos de la formación y las pruebas conjuntos, así como la combinación de la recogida, es muy escasa, tanto en lo individual GO términos, y para los documentos que contienen pruebas de términos comunes GO. Con 20.000 términos diferentes en la GO bajo tres epígrafes principales, una gran variedad de diferentes temas inherentes a la persona GO términos pueden estar presentes en nuestra colección.

Cada uno de estos temas individuales se puede ver como un sí / no en la propia tarea de clasificación. El GO triage mejor categorización tarea puede ser pensado como muchos subtareas, cuando la clasificación de la presencia / ausencia de cada GO código se hace individualmente, y el documento es para triaged GO si clasificadas como positivas para cualquiera de los códigos IR. Pero cada uno de los códigos IR se muestra muy finamente. Cuando el cuerpo está dividido en la formación y la prueba de las colecciones, es muy probable que para la mayoría de los códigos IR, ya sea de formación o pruebas de la serie será o códigos de muchos desaparecidos, incluyen un solo documento que se asocia a un código determinado, o en el mejor de los casos, muy Muestra el poco GO códigos pertinentes para la clasificación de un documento positivo para el triage tarea. Por lo tanto, el corpus puede contener GO muchos temas para los que hay un número insuficiente de casos de proporcionar muestras de la prueba en los dos conjuntos y la formación.

Para cerca del 85% de los documentos, el más común GO código asociado con un documento se encuentra asociada con dos o más documentos. Curiosamente, esta cifra está muy cerca de la recuperación de los mejores resultados para el sistema de triaje GO tarea 88,8%, y puede representar un límite máximo rendimiento en el recuerdo de este conjunto de datos.

La combinación de las muestras de cada uno de los muchos temas juntos GO puede dar lugar a la fuerte características para un determinado tema que se está oscurecida por la fuerte características en otros temas, la abrumadora cualquier sistema de clasificación, con el consiguiente ruido, sólo con características comunes a la mayoría de los temas Todavía predictivo. Parece que el término MeSH Ratones cumple con esta descripción. La deriva terminológica que muestran una diferencia significativa en las características entre la formación y la recolección de prueba pueden ser simplemente debido a la muy escasa muestra de la variedad de temas GO más de dos años. Esto se fundamenta en los datos que la mayoría de palabras comunes (después de dejar de palabra remoción) fueron en gran parte sin cambios, pero el conjunto de características estadísticamente significativa cambiado un poco desde el año 2002 a 2003.

Todo lo anterior se presta apoyo a la teoría de que el triage GO tarea es difícil porque contiene muchos sub-problemas que son de muy escasa densidad de la muestra. Existe aremany GO códigos asociados tiene un solo documento que figura en el corpus, y hay muchos, muchos códigos IR que están completamente ausentes de la corpus. Creemos que el triage subtarea de datos representa una importante tarea (es decir, el documento es valioso triage en una variedad de ajustes de la biomedicina, como discernir la mejor evidencia en estudios clínicos), y que estos datos proporcionan el sustrato inicial para el trabajo a seguir en este ámbito . Sin embargo, parece que la corpushas a ser mucho, mucho más grande con el fin de apoyar el aprendizaje de máquinas en la gama completa de códigos IR para la clasificación automatizada de texto en esta tarea específica. Con el tiempo, se MGI recoger grandes cantidades de datos durante el curso natural de la curaduría documentos cada año, pero puede ser un tiempo muy largo antes de un número suficiente de muestras están disponibles para todos los códigos IR. Selección de los datos específicamente para entrenar y probar los sistemas de clasificación para la identificación de los documentos que contienen pruebas de la más común y otros códigos IR, más específicamente definidos triage escenarios (como embriológico expresión) pueden ser más fáciles de tareas para abordar en el corto plazo.

La anotación más baja jerarquía tarea tuvo participación, y el valor de escoger la correcta jerarquía no está clara. Sin embargo, habría un gran valor para los sistemas automatizados que podría realizar GO anotación, a pesar de que la tarea es muy difícil [10]. Estos resultados demuestran el valor en la identificación de genes y otros nombres vocabulario controlado términos en los documentos para esta tarea.

Conclusión

La clasificación automatizada de los documentos para GO anotación demostrado ser una tarea difícil. La extracción automática de los códigos IR jerarquía se hace más difícil. Este fue el primer año en que la TREC Genomcs Track incluyó una tarea de clasificación, y así nuestra comprensión de la mejor manera de abordar estas tareas de curación biomédica acaba de comenzar. Texto actual son los sistemas de clasificación de la mayoría de las veces optimizado para una equilibrada F-medida, de precisión y de recordar cuando se ponderan por igual. Sin embargo, la utilidad asimétrica medida que se utiliza en el triage tarea fue muy ponderado hacia recordar. Esto refleja las prioridades del documento de los curadores. Es probable que una mayor optimización de la experiencia para este tipo de utilidad medida proporcionará mejores resultados.

Análisis de la función de conjuntos mostraron una menor correlación estadísticamente significativa entre las características de la formación y la prueba de lo esperado. Si bien esto es más probable debido a la escasa toma de muestras de cada uno de los temas GO, en la actualidad hay pruebas suficientes para determinar la importancia práctica y de carácter general de este, y si este es un problema general para la clasificación biomédica documento.

Si bien no era capaz de mejorar el rendimiento de triage simplemente utilizando el término MeSH Ratones, probablemente se deba a la heterogeneidad de los GO triage tarea y es poco probable que sea el caso de otros, más específicos biomédica documento triage tareas. Adicionales en otras tareas de investigación proporcionará más información sobre las expectativas de desempeño para biomédicas documento de la clasificación. Esta tarea no es probable representante de clasificación para el documento biomédica tareas de curación. El Instituto del Genoma del ratón también curates artículos para fines distintos GO anotación. Comparación con estas tareas se dará más información sobre el verdadero potencial de la clasificación para el documento biomédica curación.

El TREC Genómica pista será continuar en el 2005. La categorización tarea consistirá en la selección de documentos para un conjunto de cuatro categorías de interés para triage MGI curación, incluyendo los fenotipos alelo, embryologic expresión, y la biología del tumor, así como la repetición de la clasificación GO triage tarea con los datos actualizados. Es de esperar que la comunidad de investigadores será capaz de aprovechar su experiencia de este año y presentar mejores resultados en 2005. Hay un gran beneficio potencial para la curación de la biomedicina, y el trabajo en este ámbito debe seguir para realizar plenamente las ventajas del sistema automatizado de clasificación biomédica documento de texto y la minería podrían aportar a la investigación biomédica.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

AC redactado el artículo, llevar a la presentación de OHSU TREC de Genómica para la tarea de categorización, y la primera sugirió la utilidad de medir asimétrica y frontera casos. WR sillas de la pista y TREC Genómica inicialmente sugirió la pista tareas descritas aquí. Ambos autores servir en el TREC Genómica Track comité directivo y revisado y aprobado el manuscrito final.

Agradecimientos

El TREC 2004 Genomics pista fue apoyada por NSF Grant ITR-0325160. La pista también agradece la ayuda de Ellen Voorhees y NIST.

El TREC 2004 Genomics Track desea reconocer la ayuda de Judith Blake y su personal en el Instituto del Genoma del ratón por su apoyo en la creación de las tareas y la preparación de los datos para esta investigación.

La tarea de categorización de los datos y los detalles de su uso están disponibles en el sitio web de TREC Genómica (http://ir.ohsu.edu/genomics/]. Una segunda versión de los datos se publicó a principios de 2005, que actualiza los datos de 2004 para corregir algunos errores menores.