Journal of Biomedical Discovery and Collaboration, 2006; 1: 3-3 (más artículos en esta revista)

Mejora del acceso a la Bibliome: la TREC 2004 Genomics Track

BioMed Central
William Hersh R (hersh@ohsu.edu) [1], Ravi Teja Bhupatiraju (bhupatir@ohsu.edu) [1], Laura Ross (rossthread1@comcast.net) [1], Phoebe Roberts (Phoebe.Roberts @ biogenidec. Com) [2], Aaron Cohen M (cohenaa@ohsu.edu) [1], Dale F Kraemer (kraemerd@ohsu.edu) [1]
[1] Oregon Health & Science University, Portland, OR, EE.UU.
[2] Biogen Idec Corp, Cambridge, MA, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

El objetivo de la TREC Genómica Track es mejorar la recuperación de información en el ámbito de la genómica mediante la creación de colecciones de prueba que permitirá a los investigadores a mejorar y entender mejor las fallas de sus sistemas. La pista de 2004 incluyó una tarea especial de recuperación, simulando el uso de un motor de búsqueda para obtener la documentación sobre temas biomédicos. En este artículo se describe la pista de Genómica de la Conferencia de Recuperación de Texto (TREC) 2004, de un foro para la evaluación de sistemas de infrarrojos de la investigación, donde la recuperación en el dominio de la genómica ha comenzado recientemente a ser evaluadas.

Resultados

Un total de 27 grupos de investigación presentado 47 diferentes carreras. El más eficaz se ejecuta, medida por la principal medida de evaluación de la media de precisión media (PAM), utiliza una combinación de dominio de las técnicas específicas y generales. La mejor MAPA obtenidos por cualquier plazo es 0,4075. Ampliación de las consultas técnicas que con el nombre de genes, así como listas de palabras relacionadas con artículos tuvo la mejor eficacia. Sin embargo, varias ejecuciones realizadas poco más que una simple línea de base plazo, que indica que la selección cuidadosa de las características del sistema es esencial.

Conclusión

Diversos enfoques ad hoc para proporcionar una recuperación de la diversidad de eficacia. El TREC Genomics prueba de pista y su colección de recursos que permitan proporcionar herramientas de mejora de los sistemas de recuperación de información.

Antecedentes

La creciente cantidad de investigaciones científicas en la genómica y otras disciplinas biomédicas ha dado lugar a un crecimiento en la cantidad de datos en línea y de la información, incluyendo la literatura científica. Un desafío cada vez mayor para los investigadores biomédicos es la forma de acceder a la gestión de este y cada vez mayor cantidad de información. Un reciente libro de texto de la bioinformática, "Pocas áreas de la investigación biológica llamamiento en favor de un más amplio en la biología de la concepción moderna de la genética. Este fondo está probado hasta el extremo en la selección de genes candidatos para la intervención con un proceso de enfermedad ... La literatura es el más poderoso de recursos para apoyar este proceso, pero también es el más complejo y de confusión fuente de datos para la búsqueda "[1].

Esta situación presenta oportunidades y retos para la recuperación de la información (IR) sobre el terreno. IR es la disciplina en cuestión con la indexación y recuperación de información. A pesar de que históricamente ha centrado la mayor parte de su investigación sobre los documentos de texto, el campo se ha ampliado en los últimos años con el crecimiento de las nuevas necesidades de información (por ejemplo, pregunta-respuesta, la cruz-lenguaje), los tipos de datos (por ejemplo, la secuencia de datos, vídeo) y Plataformas (por ejemplo, la Web) [2]. Un acompañamiento tutorial se describen los términos y conceptos básicos de IR [3].

Biomédicas motivaciones

Con el advenimiento de las nuevas tecnologías para la secuenciación del genoma y el proteoma, junto con otros instrumentos para la determinación de la expresión de los genes, las estructuras de las proteínas, y así sucesivamente, el rostro de la investigación biológica se ha convertido cada vez más intensivo de datos, la creación de grandes desafíos para los científicos, que Antes se ocupaban con relativamente modestas cantidades de datos en su investigación. El crecimiento de datos biológicos ha dado lugar a un correspondiente aumento de los conocimientos científicos en lo que a veces los biólogos llamar a la bibliome de la biología o la literatura. Un gran número de recursos de información biológica disponible se han convertido en los últimos años [4].

Probablemente el más importante de ellos son de la National Center for Biotechnology Information (NCBI), una división de la Biblioteca Nacional de Medicina (NLM), que mantiene la mayor parte de la NLM de la genómica relacionada con las bases de datos [5]. Como IR históricamente ha centrado en los datos basados en texto, el NCBI recursos de mayor interés para la comunidad IR incluyen MEDLINE (la base de datos bibliográfica de la literatura médica, acceso a los sistemas de PubMed y otros) y los libros de texto como en la línea de herencia mendeliana Man (MIM) . Sin embargo, reconociendo que la literatura es a menudo un punto de partida para la exploración de los datos, también existe gran interés por los recursos como Entrez Gene [6], que sirve como un conmutador para integrar la información genética, así como proporcionar la anotación de su función mediante el ampliamente aceptado GeneOntology (GO) [7]. PubMed ofrece también los vínculos de los textos completos de artículos de revistas en la Web los sitios de los editores. Genómica existen recursos adicionales más allá de la NCBI, como el modelo de bases de datos del genoma organismo [8]. Como en el NCBI recursos, esos recursos sirven rica vinculación y anotación.

Debido a la creciente magnitud y complejidad de la literatura biomédica, hay un creciente esfuerzo dedicado a la estructuración de los conocimientos en bases de datos. El uso de estas bases de datos se ha generalizado debido al crecimiento de Internet y la Web, así como un compromiso de la comunidad de investigación para poner todos los datos posibles en el dominio público. La Figura 1 muestra el proceso general de "canalizar" la literatura hacia el conocimiento estructurado, que muestra el sistema de información de las tareas utilizadas en diferentes niveles a lo largo del camino. Esta cifra muestra nuestro punto de vista de la utilización óptima de IR y de otros ámbitos de la información y la extracción de texto de la minería.

Tanto la IR y la bioinformática comunidades tienen una larga historia de los foros de evaluación de los métodos. Este último tiene las conocidas críticas de Evaluación de Métodos de Predicción de estructura de proteínas (CASP) para la iniciativa de predicción de estructura de proteínas [9, 10]. Más recientemente, el problema se han iniciado las evaluaciones para los investigadores interesados en la extracción de información (IE) [11], incluido el descubrimiento de las bases de datos de conocimiento (KDD) Cup [12] y la BioCreAtIvE iniciativa [13].

De recuperación de textos de conferencias

IR La comunidad ha tenido un foro de evaluación en la Conferencia de Recuperación de Texto (TREC, trec.nist.gov) desde 1992. TREC es una actividad anual de la comunidad de investigación IR patrocinado por el Instituto Nacional de Estándares y Tecnología (NIST) que tiene como objetivo proporcionar un foro para la evaluación de los sistemas de infrarrojos y los usuarios [14]. Una característica clave de TREC es que los grupos de trabajo de investigación sobre una fuente común de datos y un conjunto común de las preguntas o tareas. El objetivo es que permita hacer comparaciones entre los sistemas y los enfoques de una orientados a la investigación, de manera colegiada. TREC actividad está organizada en "vías" de interés común, tales como la cuestión de la respuesta, en varios idiomas IR, la búsqueda en la web, interactivos y recuperación. TREC generalmente funciona en un ciclo anual, con datos distribuidos en la primavera, los experimentos correr en el verano, y los resultados presentados en la conferencia anual que tiene lugar por lo general en noviembre.

De evaluación de la TREC se basa en el "paradigma de Cranfield" sistema de éxito que las medidas basadas en cantidades recuperadas de los documentos pertinentes, en particular la evolución de las cifras de recordar y precisión [2]. Operacionalmente, recordar y precisión se calculan a una prueba conocida colección de documentos, temas, y las sentencias de importancia entre ellos. TREC en la mayoría de pistas, los dos se combinan en una única medida del rendimiento, con una media de precisión media (PAM). El primer paso en la determinación de MAPA es calcular la media de precisión de cada tema, que se mide por la media de precisión después de cada documento pertinente se recupera. La media de todos los media de la precisión de estos valores es el MAP.

TREC pista de la genómica

El objetivo de la TREC Genómica Track es la creación de colecciones de ensayo para la evaluación de la recuperación de la información (IR) y las tareas relacionadas con la genómica en el dominio. La Genómica Track difiere de todas las demás pistas de TREC en el sentido de que se centra en la recuperación de un dominio específico en contraposición a la recuperación general de las tareas, como la búsqueda en la web o de pregunta y respuesta. La pista de 2004 fue el segundo año de la TREC Genómica trazado. Este año fue diferente desde el primer año, como los recursos que teníamos a nuestra disposición de una Fundación Nacional para la Ciencia (NSF) de Investigación de Tecnología de la Información (ITR), que permite la concesión de apoyo para la programación y la pertinencia sentencias. En contraste, para 2003 la pista que teníamos que confiar en los poderes de la pertinencia y de otras sentencias de datos estándar de oro [15]. La Genómica Track es supervisado por un comité directivo de las personas con antecedentes en IR y / o la genómica.

El TREC 2004 Genomics pista consistió en dos tareas. La primera tarea fue una norma ad hoc tarea de recuperación utilizando temas reales obtenidos de la investigación biomédica y de los documentos científicos de un gran subconjunto de la base de datos bibliográfica MEDLINE. La segunda tarea se centró en la categorización de los documentos de texto completo, simulando la tarea de los curadores del Genoma del ratón Informática (MGI) y el sistema consta de tres subtareas. La segunda tarea se describe en un compañero de trabajo [16]. Un total de 33 grupos participaron en el 2004 Genomics pista, por lo que es la pista con la mayoría de los participantes en la totalidad de TREC 2004. El resto de este documento se describen los métodos y resultados de la tarea de recuperación ad hoc, a la ampliación de informe original de la conferencia [17].

Métodos

El objetivo de dichas tareas fue para imitar la búsqueda convencionales. El caso de uso es un científico con una necesidad específica de información, a buscar la base de datos bibliográfica MEDLINE para encontrar los artículos pertinentes de recuperar.

Documentos

La colección de documentos ad hoc para la tarea de recuperación es un subconjunto de 10 años de MEDLINE. Estamos contemplando el uso de documentos en texto completo en esta tarea, pero no pudieron obtener una cantidad adecuada para representar el mundo real a buscar. Por lo tanto, optamos por utilizar MEDLINE. Como se señaló anteriormente, sin embargo, a pesar de la amplia disponibilidad en línea de texto completo, revistas científicas, en la actualidad la mayoría de los usuarios de la literatura biomédica seguir utilizando MEDLINE como punto de entrada. En consecuencia, hay un gran valor al poder de búsqueda en MEDLINE con eficacia.

El subconjunto de MEDLINE utiliza para la pista constaba de 10 años de concluido citas de la base de datos que incluye entre 1994 y 2003. Los registros se obtuvieron mediante los Concluido Fecha (DCOM) para todas las referencias de campo en el rango de 19940101 - 20031231. Esto proporcionó un total de 4.591.008 registros. Se utilizó el campo DCOM y no Fecha de publicación (DP). Como resultado de ello, se publicaron algunos registros, pero no concluirá antes de 1994, es decir, la recaudación había:

• 2.814 (0,06%) antes de 1980 AD

• 8.388 (0,18%) antes de 1990 AD

• 138.384 (3,01%) antes de 1994 AD

El resto 4452624 (96,99%) fueron las AD en el periodo de 10 años de 1994-2004.

Los datos se puso a disposición en dos formatos:

• MEDLINE - NLM el estándar en formato de texto ASCII con campos señalados y delimitados por 2-4 carácter abreviaturas (sin - 9587370116 bytes, gzipped - 2797589659 bytes)

• XML - la más nueva NLM formato XML (sin - 20567278551 bytes, gzipped - 3030576659 bytes)

Temas

Los temas ad hoc para la tarea de recuperación se desarrollaron a partir de la información real de las necesidades de los biólogos y modificado lo menos posible a las necesidades de crear estados con una razonable cantidad estimada de los artículos pertinentes (es decir, más de cero, pero menos de un millar). Las necesidades de información de captura se inició con entrevistas por 12 voluntarios que buscaron los biólogos en su entorno local. Un total de 43 entrevistas arrojó las necesidades de información 74. Algunos de estos voluntarios, así como otras cuatro personas, creado temas en el proyecto de formato de la entrevista original de los datos.

Estamos destinados a cada necesidad de información han examinado más de una vez, pero sólo fueron capaces de hacer esto con algunos de ellos, hasta que terminó con un total de 91 proyectos de temas. Las mismas personas que luego fueron asignadas diferentes temas para el proyecto de realizar una búsqueda en PubMed lo que pueden ser modificados para generar final de los temas con un número razonable de los artículos pertinentes. La pista de silla hizo un último paso para hacer el formateo consistente y extracto de los 50 que parecía más adecuado como temas para la pista.

Los temas son en formato XML y tiene los siguientes campos:

• Identificación - 1 a 50

• Título - abreviado declaración de necesidad de información

• Información necesidad - necesidad de información completo de la declaración

• Contexto - información de antecedentes necesario para colocar información en contexto

Hemos creado otros cinco "muestra" los temas, por ejemplo, el tema 51:

<TOPIC>

<ID> 51 </ ID>

<TITLE> PBR322 utiliza como vector un gen </ TITLE>

<NEED> Encuentre información acerca de las secuencias de base y de restricción de los plásmidos en los mapas que se utilizan como vectores de genes. </ NECESIDAD>

<CONTEXT> El investigador desea manipular el plásmido mediante la eliminación de un gen y de las necesidades de la base de la secuencia original o restricción de la información de ruta plásmido. </ CONTEXTO>

</ TEMA>

Relevancia sentencias

Relevancia sentencias se realiza a través de los convencionales "método" en virtud del cual un número fijo de alto rango de cada uno de los documentos oficiales se agruparon y ejecutar a una persona (cegados con el número de grupos que se recuperó el documento y lo que sus declaraciones fueron de búsqueda) . La pertinencia entonces asesor juzgado cada documento para el tema específico de consulta como definitivamente pertinentes (DR), posiblemente pertinentes (PR), o no pertinentes (NR). Para los resultados oficiales, que exige binario pertinencia resoluciones judiciales, documentos que fueron valorados DR o PR se consideraron pertinentes.

Las piscinas fueron construidas de la siguiente manera. Cada uno de los 27 grupos designados de arriba precedencia plazo que se utilizará para las resoluciones judiciales pertinentes, por lo general, lo que pensaron sería su mejor rendimiento plazo. Nos tomó, en promedio, 75 documentos de la parte superior de cada uno de los temas de estos 27 carreras y elimina los duplicados para crear un solo grupo para cada tema. La piscina de tamaño medio (número medio de los documentos juzgados por tema) fue 976, con un rango de 476-1450.

La relevancia sentencias fueron realizados por dos personas con experiencia en biología. Uno era un biólogo de doctorado y el otro es estudiante de pregrado de biología. Cada tema fue juzgado plenamente por uno de los jueces. Además, para evaluar interjudge acuerdo, se seleccionaron cada décima artículo en la piscina de seis temas para duplicar sentencia, que permita calcular el estadístico kappa de oportunidad para la corrección de acuerdo [18].

Evaluación de medidas

La principal medida de evaluación de la tarea fue de precisión media media (PAM). Los resultados fueron calculados usando el programa trec_eval, un sistema de puntuación de la TREC. Se realizó un análisis de medidas repetidas usando un análisis de varianza, con las pruebas de Tukey posthoc comparaciones pairwise. Además de analizar MAP, que también evaluó la precisión en los documentos 10 y 100.

Resultados

Un total de 27 grupos de investigación presentado 47 diferentes carreras. El cuadro 1 muestra el tamaño de la piscina, el número de los documentos pertinentes, con una media de precisión media (PAM), de precisión en promedio 10 documentos, y la media de precisión de 100 documentos para cada tema. (Precisión en 100 documentos es potencialmente en peligro debido a una serie de temas que tengan muchos menos de 100 documentos pertinentes y, en consecuencia, no poder obtener buenos resultados con esta medida, no importa cuán eficaces eran los documentos pertinentes a la clasificación en el tema de la lista. Sin embargo, como Observa en el Cuadro 1, la media y mediana del número de documentos relevantes para todos los temas es de 100 y, como tal, todas las carreras se verían afectados por esta cuestión.)

Los resultados de las dos resoluciones judiciales para el estadístico kappa se muestran en la Tabla 2. El valor resultante de kappa fue del 0,51, lo que indica una "justa" nivel de acuerdo, pero no es demasiado diferente de la pertinencia sentencia actividades similares en otros ámbitos, por ejemplo, [19]. En general, el doctor biólogo asignado más artículos en la categoría correspondiente a la de pregrado.

Los resultados de todos los grupos participantes se muestran en la Tabla 3. El análisis estadístico para el MAP ha demostrado la importancia en todas las pistas, con la pareja importancia para ejecutar la parte superior (pllsgen4a2) obtenía a la RMITa correr alrededor de una cuarta parte de la manera en los resultados.

Los mejores oficiales se logró correr por Patolis Corp, con un MAPA de 0,4075. [20]. Este plazo utilizado una combinación de ponderación Okapi (BM25 de la frecuencia de los términos, pero con frecuencia el documento estándar inversa), Porter derivados, la ampliación de los símbolos por LocusLink MeSH y registros, ciego pertinencia comentarios (también conocida como ceguera de ampliación de consultas), y el uso de los tres El tema de los campos (título, la necesidad, y el contexto). Este grupo también informó de un plazo posterior a la presentación que añadió la lengua técnica de la elaboración de modelos de Dirichlet-Antes suavizado para lograr un mayor MAPA de 0,4264. (Véase el documento de acompañamiento por Zhou et al. Para la definición de algunos de estos términos. [3]]

El siguiente mejor ejecute se logró por la Universidad de Waterloo [21]. Este grupo utiliza una variedad de enfoques incluyendo Okapi ponderación, ciego pertinencia comentarios, y diversas formas de dominio específicos de la ampliación de consultas. Sus comentarios ciego pertinencia hecho uso de documento comentarios de costumbre, así como los comentarios de los pasajes. Su dominio específico de ampliación de consultas incluyó la ampliación de las variantes léxicas, así como la ampliación de siglas, de genes, proteínas y nombre sinónimos.

Un número de grupos de la palabra utilizada impulsar pesos en consultas o documentos. Tsinghua University impulsado palabras en los títulos y resúmenes, junto con el uso ciego de ampliación de consultas [22]. Alias-i Corp impulsado palabras de consulta en el título y necesidad declaraciones [23]. Universidad de Tampere encontrado valor en la identificación y uso de bi-gram frases [24].

Un número de grupos de las técnicas aplicadas, no obstante, que son perjudiciales. Prueba de ello es la OHSU funciona, que utiliza el sistema de Lucene "fuera de la caja" que se aplica TF * ponderación de las FDI [25]. Los enfoques que trató de mapa para vocabulario controlado términos no tuvieron, como la Universidad de Indiana [26], de la Universidad de California de Berkeley [27], y la Biblioteca Nacional de Medicina [28]. Muchos grupos trataron una variedad de enfoques, beneficioso o no, pero por lo general sin comparar común de la base de referencia o corriendo exhaustiva de experimentos, lo que hace difícil discernir exactamente qué técnicas previstas beneficio. La Figura 2 muestra gráficamente los resultados oficiales con anotaciones, la primera ejecución estadísticamente significativa de la parte superior, así como ejecutar la OHSU "línea de base".

Como suele ocurrir en TREC ad hoc corre, hubo una gran cantidad de variación dentro de los distintos temas, como se ve en la Tabla 1. La Figura 3 muestra el promedio MAPA a través de los grupos para cada tema. La figura 4 presenta los mismos datos ordenados para dar una mejor indicación de la variación entre temas. Había un fuerte relación entre la media y la máxima MAPA para cada tema (Figura 5], mientras que el número de relevantes por tema versus MAPA fue menos asociados (Figura 6].

Discusión

El TREC Genómica Track 2004 fue todo un éxito, con una gran cantidad de entusiasta participación. En todas las tareas, la diversidad de métodos se han aplicado, lo que resulta en una amplia variación entre los resultados. Tratando de discernir el valor relativo de ellos es difícil, ya que algunos grupos realizaron experimentos de parametrización o utilizado las líneas de base común.

En la especial tarea de recuperación, la mejor enfoques de las técnicas empleadas que se sabe que son eficaces en la no-biomédicas TREC IR tareas. Entre ellas Okapi ponderación, ciego pertinencia comentarios, y el lenguaje de modelización. Sin embargo, algunos enfoques específicos de dominio que parecía ser beneficiosos, tales como la ampliación de las consultas con sinónimos de los vocabularios controlados, que se encuentran ampliamente disponibles. También parece haber algún beneficio para el impulso de las partes de las consultas. Sin embargo, también es fácil para muchos grupos de hacer cosas perjudiciales, como lo demuestra la OHSU plazo de un sistema de las FDI TF * "fuera de la caja", que obtuvo resultados muy por encima de la mediana.

¿Cómo son los sistemas de Genómica en la pista, es decir, se centró en los sistemas de infrarrojos en el dominio de la genómica, en relación con los sistemas de realizar en otros ámbitos? Esto es por supuesto una cuestión difícil de responder, ya que diferentes resultados no sólo puede ser debido a los distintos sistemas, sino también diferentes colecciones de ensayo, los temas, y / o las resoluciones judiciales pertinentes. El más completo análisis de esta cuestión hasta la fecha ha venido de Buckley y Voorhees, que en comparación al año diversas tareas y con mejores resultados con los sistemas generales de la TREC tarea datos ad hoc [29]. Tareas previstas tema con una mayor elaboración funcionó mejor (MAP alrededor de 0.35-0.40) que aquellos con temas más cortos. La Genómica Track temas podrían considerarse comparables a estos temas, con resultados comparables. Se ha observado que TREC pistas con mucho más grandes colecciones de documentos, por ejemplo, el Terabyte Track [30] y en la web de pista [31], lograr mucho menor MAPA mejores resultados, con ninguno mejor que 0,28. A pesar de que no se abordó esta cuestión explícitamente, los datos obtenidos mediante los experimentos de la Genómica Track debería permitir una investigación más a fondo de los atributos que hacen de la genómica IR más fácil o más difícil que otras IR tarea dominios.

Este trabajo, de evaluación y de infrarrojos utilizando las colecciones de ensayo general, tienen una serie de limitaciones metodológicas. En general, la evaluación utilizando colecciones de ensayo es más apropiada para la evaluación de los sistemas de infrarrojos que este tipo de sistemas en manos de usuarios reales. TREC tiene una pequeña historia de la evaluación interactiva IR [32], con los resultados que muestran que el éxito de la utilización del sistema no está necesariamente asociada con una mejor recuerdo y precisión [33].

Otra limitación de la utilización de la prueba de evaluación es la falta de coherencia de las colecciones de relevancia sentencias. Este problema es muy conocido en la construcción de colecciones de ensayo [19], pero en general, la investigación ha demostrado que el uso de diferentes sentencias absolutas, pero no afecta el rendimiento relativo [34]. En otras palabras, dar lugar a diferentes sentencias diferentes MAP y otros resultados, pero los sistemas que funcionen bien con un conjunto de resoluciones judiciales tienden a hacer como relativamente bien con los demás. Lamentablemente no haber realizado suficientes sentencias duplicadas para evaluar el impacto de las diferentes resoluciones judiciales en el seguimiento de 2004. Vamos a tratar de realizar este análisis, en el futuro, las ofertas de la pista.

A pesar de estas limitaciones, la recopilación de pruebas y los resultados obtenidos proporcionan datos importantes para profundizar la investigación. Una variedad de cuestiones adicionales pueden ser investigados, tales como los atributos de los documentos y temas (incluida la lingüística aspectos como las palabras y los conceptos presentes o ausentes) que se asocian con la pertinencia. Además, el 2005 la oferta de la pista de Genómica tendrá lugar, la presentación de más datos para futuras investigaciones.

Conclusión

La tarea especial de recuperación de la pista TREC Genómica ha desarrollado recursos que permiten a los investigadores evaluar los sistemas y algoritmos de búsqueda en el dominio de la genómica. Los datos para el 2004 realizar el seguimiento ha sido puesto en libertad a la comunidad en general de que continúe la experimentación, y más ofertas anuales de la pista mejorará estas herramientas. Las lecciones aprendidas de la pista de 2004 guiarán el funcionamiento y la investigación de las futuras ofertas de la pista en el 2005 y más allá.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

WRH conceptualizar la TREC Track Genómica, dirigido a la organización de la tarea especial de recuperación, y ha elaborado este documento. RTB hizo todo de la programación y el cotejo de los datos. LR y PR realizó la pertinencia sentencias. AMC siempre comentarios y reflexiones críticas con el funcionamiento de la vía y de la edición del documento. DFK realizó el análisis estadístico.

Agradecimientos

El TREC 2004 Genomics pista fue apoyada por NSF Grant ITR-0325160. Agradecemos la ayuda de Ellen Voorhees y NIST TREC en la gestión y las siguientes personas que entrevistó a los biólogos a obtener temas para la búsqueda ad hoc tarea: Shannon Bradshaw, Marie Brandt, Rose Campbell, Marc Colosimo, Colleen Crangle, Anne-Marie Currie, Dina Demner-Fushman, Elizabeth Horn, Rob Jelier, Phoebe Johnson, Mike Kroeger, Marc Light, Rose Oughtred, Gail Sinclair, Lynne Sopchak, y Lorrie Tanabe.

La recogida de pruebas descritas en este documento está disponible en la TREC Genómica Track http://ir.ohsu.edu/genomics sitio Web y puede ser descargado después de la firma del Acuerdo de uso de datos y volviendo a NIST.