Journal of Biomedical Discovery and Collaboration, 2006; 1: 8-8 (más artículos en esta revista)

Colaboración para el desarrollo de los dos Arrowsmith nodo interfaz de búsqueda diseñada para los investigadores de laboratorio

BioMed Central
Neil R Smalheiser (neils@uic.edu) [1], Vetle I Torvik (vtorvik@uic.edu) [1], Amanda Bischoff-Grethe (agrethe@ucsd.edu) [2], Lauren B Burhans (HSC lburhans @ . wvu.edu) [3], Michael Gabriel (michaelgabriel@bellsouth.net) [4], Ramin Homayouni (r.homayouni @ memphis.edu) [5], Alireza Kashef (kashef@uiuc.edu) [3], Maryann E Martone (maryann@ncmir.ucsd.edu) [6], A Guy Perkins (perkins@ncmir.ucsd.edu) [6], Diana L Precio (diana@ncmir.ucsd.edu) [6], Andrew C Talk (a-talk@northwestern.edu) [3], Ruth Oeste (rwest@ncmir.ucsd.edu) [6]
[1] Departamento de Psiquiatría y el Instituto Psiquiátrico de la Universidad de Illinois, MC912, 1601 W. Taylor Street, Chicago, IL 60612, EE.UU.
[2] Departamento de Psiquiatría de la Universidad de California-San Diego, La Jolla, CA, y Asuntos de los Veteranos de San Diego Healthcare System, San Diego, CA, EE.UU.
[3] Programa de Neurociencia y Beckman Institute, University of Illinois, Urbana, IL, EE.UU.
[4] Profesor Emérito del Departamento de Psicología y Beckman Institute, University of Illinois, Urbana, IL, EE.UU.
[5] Departamento de Neurología, Universidad de Tennessee, Memphis, TN, EE.UU. Dirección actual: Programa de Bioinformática de la Universidad de Memphis, EE.UU.
[6] Centro Nacional de Microscopía y Imaging Research y el Departamento de Neurociencias, Universidad de California-San Diego, La Jolla, CA, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen

Arrowsmith es una única asistida por ordenador estrategia diseñada para ayudar a los investigadores a detectar biológicamente relevantes para las conexiones entre dos diferentes juegos de artículos en Medline. En este artículo se describe cómo una inter-institucional consorcio de neurocientíficos utilizan la UIC Arrowsmith interfaz web http://arrowsmith.psych.uic.edu en su trabajo diario y guiado el desarrollo, perfeccionamiento y ampliación del sistema en un conjunto de herramientas destinadas a uso de la comunidad científica en general.

Fondo

A mediados del decenio de 1980, Don Swanson desarrollado el concepto de "descubrir el conocimiento del público":

"Imagínese que las piezas de un rompecabezas, deberá estar diseñado y creado, y que, una vez recuperado y montado, entonces ponen de manifiesto un patrón - undesigned, no deseados, y nunca antes visto, sin embargo, un patrón que los comandos de interés e invita a la interpretación. Así es, yo reclamo, que forma independiente creado piezas de conocimiento puede albergar un invisible, desconocido, no deseados y patrón. Y así es que el mundo de los conocimientos registrados pueden producir realmente nuevos descubrimientos "[1].

Swanson llegó a publicar varios ejemplos en los cuales dos literaturas disjunta (es decir, conjuntos de artículos que no tengan documentos en común, no autores en común, y pocas citas cruzadas), no obstante, celebrada piezas complementarias de conocimiento que, cuando se reunió, hizo preciso y comprobables predicciones sobre las posibles terapias para los trastornos humanos [2, 3]. Posteriormente, sus predicciones se han confirmado por laboratorio y los estudios clínicos [4]. Uno de nosotros (NS) comenzó a colaborar con Swanson durante el decenio de 1990. Además de publicar más las predicciones derivadas de esta data-mining enfoque [5 - 8], hemos creado una sistemática asistida por ordenador estrategia de búsqueda ( "Arrowsmith") y organizó una manifestación sitio web para realizar búsquedas Arrowsmith [9 - 11].

Inicialmente, Swanson hizo hincapié en el llamado un nodo de búsqueda, en la que uno comienza con una sola literatura (por ejemplo, la que hace referencia a una enfermedad) y la búsqueda de un segundo desconocido literatura tener los conocimientos complementarios (por ejemplo, la que hace referencia a las posibles terapias). En cierto sentido, la búsqueda de un nodo es una forma de generar nuevas hipótesis [9]. Sin embargo, pronto se dieron cuenta de que los dos nodos de búsqueda es de aplicación más general y mejor con las prácticas de información de la mayoría de los investigadores biomédicos: En este caso, el usuario especifica dos literaturas diferentes A y C son los que generalmente no se solapan, pero se sabe o la hipótesis de tener alguna relación biológicamente relevantes. La herramienta Arrowsmith hace una lista de palabras y frases B que se producen en común en los títulos de las dos literaturas, y (después de filtración a través de un "stoplist") presenta este llamado B-lista para el usuario. Para cada B plazo, el usuario puede yuxtaponer los títulos que contengan A y B con los que contengan B y C, y así es más fácil juzgar si el B-plazo es probable que representan un biológicamente-vínculo significativo entre A y C. En un sentido, los dos nodos de búsqueda es una forma de evaluar y establecer prioridades definidas por el usuario hipótesis [9, 10].

Arrowsmith es posiblemente el mejor sistema establecido para llevar a cabo la minería de datos de la literatura biomédica, después de haber sido ampliamente analizados, reproducirse y discutido por la comunidad de ciencias de la información [por ejemplo, [12 - 24]]. Sin embargo, a partir de 2000, no está claro si la mayoría de los científicos biomédicos banco quería o necesitaba el tipo de información que podrían proporcionar Arrowsmith. ¿Encontrar ocasiones de rutina para el uso de esa sofisticada herramienta? Por otra parte, tomó muchas horas para llevar a cabo una sola búsqueda, incluyendo la elaboración de las preguntas Arrowsmith, la navegación por el sitio web, y analizar los resultados. ¿Típico de los investigadores biomédicos ser lo suficientemente motivados para aprender a realizar análisis Arrowsmith? ¿Descubrir hallazgos significativos que afectan a sus experimentos o sugerir nuevas direcciones de investigación? En el presente trabajo, se discute la forma en campo de pruebas interactuado con el software Arrowsmith y colaboración han guiado el desarrollo del sistema, incluidas las nuevas y (para nosotros) las direcciones imprevistas. En otro documento se describe cómo el interfaz de Arrowsmith y la infraestructura subyacente han evolucionado [25]. Un tercer documento (en preparación) se emplean campo de pruebas "como las" normas de oro "para el modelado cuantitativo de B-y los términos de la información implícita vincular dos literaturas.

Métodos

A cinco años cerebro humano Proyecto Fase I del proyecto se inició (de mayo de 2001) en la Univ. Illinois-Chicago para poner a prueba la viabilidad de la formación de investigadores biomédicos de utilizar la herramienta Arrowsmith. Arrowsmith se prevé se compara con un ordenador con ayuda de estrategia de búsqueda [9, 10], no simplemente como único producto de software. Un componente importante del proyecto era incluir una serie de pruebas de campo situada en las grandes, multi-disciplinaria neurociencia grupos de investigación. Estos sitios tienen todos los activos neuroinformática programas de investigación, además de laboratorio y / o investigaciones clínicas, y que fue escogido para representar una diversidad de tipos de experimentos, las técnicas y los datos incluidos electrofisiología, bioquímica, microscopía electrónica y estudios de imagen humana. Cada sitio tiene un PI que escogió una o varias de su grupo a servir como campo de pruebas. Estos representan una diversidad de descripciones de puestos y funciones, incluyendo estudiantes de postgrado (Lauren Burhans, Alireza Kashef), postdocs (Andrew Talk, Amanda Bischoff-Grethe, Diana Precio), el personal de los científicos (Guy Perkins), y los investigadores principales (Ramin Homayouni, Neil Smalheiser).

El objetivo de este consorcio es hacer descubrimientos científicos, publicar los documentos e identificar las nuevas orientaciones - típica para un consorcio de investigación en cualquier lugar, pero muy diferente de un típico desarrollo de software o evaluación de proyectos. No hemos reclutar sujetos humanos o estudiar su comportamiento sobre la normalización de tareas. Por el contrario, el campo de pruebas sí eran los de elegir libremente lo que para realizar búsquedas, y fueron los que más la observación de los resultados. De hecho, a pesar de la utilización de la tercera persona en este documento, el campo de pruebas son co-autores y han contribuido activamente a la síntesis de las conclusiones. Al tener campo de pruebas conducta Arrowsmith dos nodo búsquedas en el contexto de su labor normal y corriente-, nos espera para identificar los tipos de situaciones en las que surja la oportunidad para vincular diferentes literaturas, y para documentar las diversas estrategias que utilizan los científicos para el manejo de este tipo de tema.

Durante el primer año, el equipo fue montado, la UIC Arrowsmith sitio fue programado para un entorno multi-usuario, la semántica y la categoría del filtro se aplicó para el B-términos (véase más adelante) [25]. Las búsquedas se inició en serio en 2002. Dos días de talleres para el campo de pruebas se celebraron en septiembre de 2003 y 2004, como orientación, tutoría y todas las reuniones de las manos. Cada campo de pruebas se le dio un bloc de notas electrónico para registrar las oportunidades para la realización de búsquedas Arrowsmith (fig. 1], independientemente de que hayan resultado de experimentos de laboratorio, asistir a seminarios, documentos de la escritura, o de conversaciones con otros, y para registrar los datos de las Arrowsmith búsquedas (fig. 2]. Bloc de notas entradas fueron enviadas a UIC por e-mail o ftp. Semanal llamadas telefónicas fueron realizadas por el Gestor del Proyecto para cada campo de pruebas para vigilar el curso de su trabajo científico, para obtener más información sobre las búsquedas terminado, para sugerir otras formas de buscar, recibir sugerencias para mejorar la interfaz web, y el documento de seguimiento hasta terminado de búsquedas. (A pesar de que la razón fue documentada para cada búsqueda Arrowsmith, y su seguimiento, no se trató de reconstruir todo el proceso de la actividad científica en torno a una búsqueda.) Por último, una serie de comentarios no solicitados y se recibieron sugerencias de los usuarios públicos de la Interfaz Web, por correo electrónico. Más de 125 diferentes búsquedas fueron introducidos y analizados.

El sitio web Arrowsmith / interfaz de usuario y las bases de datos y algoritmos han sido modificados casi continuamente en respuesta a las necesidades del campo de pruebas, continúa hasta el día de hoy. Por otra parte, el campo de medición y de sus proyectos son muy diversos. Debido a esto, el presente documento se centra en la cuestión de cómo campo de pruebas contribuido al desarrollo de la herramienta, y no hace ningún intento para evaluar el desempeño de los Arrowsmith herramienta en cualquier punto dado en el tiempo. A pesar de que las dos búsquedas se nodo tópica diversa, encontramos que los términos de B-identificados como útiles para vincular a cada una búsqueda fiable tienden a compartir ciertas características. Así, aunque las presentes observaciones son cualitativos que no son simplemente subjetivo - los dos nodo búsquedas incluyen suficientes datos objetivos que sirvan de base para el modelado cuantitativo (Sra. en preparación).

Especialmente durante los primeros años del estudio, que estaban preocupadas por la posibilidad de que el campo de pruebas podría ser indebidamente influenciada o sesgada hacia la realización de determinados tipos de búsquedas o el seguimiento de una determinada manera. Por esta razón, su contacto principal para la formulación de las búsquedas se VT, que tiene un doctorado en Ciencias de Ingeniería, pero no de fondo en la ciencia biomédica. Esta restricción se suavizó con el tiempo a medida que adquirimos datos suficientes, y así se convirtió en campo de pruebas que participan en los trabajos de colaboración científica entre los sitios.

Un grupo de investigadores sociales informática, que están analizando los aspectos más amplios de información científica de búsqueda de necesidades y comportamiento, también ha estudiado muchos de los Arrowsmith campo de pruebas (entre otros voluntarios), como sujetos humanos, mediante entrevistas, visitas sobre el terreno y pruebas documentales. Su investigación se ha diseñado, financiado y llevado a cabo con independencia de los Arrowsmith Proyecto, y se publica por separado [26, 27].

Resultados
1. La primera interfaz de búsqueda y la logística de la realización de búsquedas

Inicialmente se tenía previsto desarrollar una interfaz de uso fácil a la UIC que conectar al software creado por Don Swanson Arrowsmith para la realización de un nodo y dos búsquedas nodo [53]. Sin embargo, Don modificado continuamente su sitio web a la luz de su propia investigación, lo que hace difícil mantener una relación estable a UIC. Internet tiempo de traslado es un problema importante, como es necesario para descargar los artículos de PubMed [54] para el ordenador del usuario y luego cargar los archivos al kiwi. Por otra parte, cuando se ejecuta una búsqueda en PubMed a través de un sólo podría recuperar 10000 artículos en cada literatura.

Por lo tanto, no reflejan sitio web fue creado a UIC con una completamente diferente interfaz de usuario y back-end [55], que se centró en dos nodo búsquedas exclusivamente. Debido a todos sobre el terreno de pruebas utilizadas en PubMed MEDLINE para la búsqueda, el cuadro de búsqueda en PubMed fue importado en los Arrowsmith sitio para que se consideró para el usuario al igual que las dos búsquedas se llevan a cabo a través de PubMed. No descargar o subir ficheros de que fuera necesaria. Una vez que el A y C, las preguntas han sido inscritas y aprobadas por el usuario, el servidor web automáticamente computado un B-lista y se presentó a este usuario para más de filtrado y / o exposición de AB y BC títulos. Para aumentar la velocidad de consultas, una copia personalizada de MEDLINE se creó en forma de base de datos de manera que sólo necesario para recuperar el artículo IDs de PubMed, no los registros completos. Sólo 3 minutos o menos se necesitan para introducir una búsqueda y obtener una "cruda" B-lista.

Todos los usuarios eran capaces de obtener un B-lista con éxito, sin necesidad de formación de manera significativa. Sin embargo, la cruda B-lista - que contiene cientos a unos miles de B-términos que aparece en orden alfabético - es excesivamente largo para la mayoría de campo de pruebas para escanear. Uno de nosotros (NS) se había ocupado de esta cabeza-a tomar por separado de impresión de participaciones de AB y BC títulos y yuxtaponiendo manualmente más copiosa tazas de café latte, mientras se encuentra sentado en el campus cafés. Sin embargo, la mayoría de pruebas sobre el terreno carecían de la suficiente voluntad de la cafeína, por lo que hemos implementado dos estrategias de filtrado que reduce el tamaño de la lista B-en gran medida sin reducir el número de enlaces interesantes:

En primer lugar, nuestro colega Marc Weeber hizo una lista de todos los términos (palabras y hasta frases de tres palabras) que aparecen en los títulos de los documentos de MEDLINE y corrió a través de estos los NIH MetaMap programa [MMTx versión 2,0] para asignar a cada término de uno o más semántica categorías, si es posible, tal como se define por el Mando Unificado de Medicina Idioma System (UMLS) [28, 29]. A continuación, agrupados los 134 categorías semánticas en ~ 15 categorías de super-tal como se indica en [30]. Los usuarios pueden seleccionar términos pertenecientes a cualquiera de las categorías de super-oa cualquiera de las categorías semánticas individuales en él; alternativamente, podrían mantener todos los términos que correlacionarse con al menos una categoría semántica, mientras que el descarte términos que no mapa a todos. Esta característica es muy popular ya que en la mayoría de los casos los usuarios sabía qué tipo de condiciones que estaba buscando antes de tiempo. Sin embargo, la MetaMap programa no es infalible en cuanto a la cartografía aisladas (sobre todo porque está diseñado para emplear la información de que rodea el texto), y algunos términos son especialmente poco representadas en la UMLS, incluidos los términos y neuroanatomical proteína y gen nombres. Por lo tanto, el vocabulario NeuroNames [31] y el Tanabe-Wilbur lista de proteínas y genes nombres [32] han sido agregadas por separado-ver las listas, que fueron tratados como categorías semánticas y podría ser seleccionado por los usuarios, ya sea individualmente o como parte de la semántica Super-categorías. (En el curso de este estudio, el vocabulario NeuroNames fue formalmente incorporado al UMLS [33].]

En segundo lugar, un filtro de frecuencias que se puso en práctica, como una configuración por defecto, eliminado todos los B-términos que aparecieron en un solo documento, ya sea en la literatura [para las literaturas más de 1000 artículos en tamaño]. Este eliminado alrededor de ¾ de B-, aún informalmente los usuarios juzga que son muy pocos "interesante" lo que se perdieron. (Esto ha sido posteriormente evaluados con mayor rigor [ms. En preparación].) La mayor parte del campo de pruebas se llevaron a cabo búsquedas después de la semántica y la frecuencia de los filtros se llevaron a cabo (fig. 3, 4, 5, 6, 7, 8, 9]. También se embarcó en una investigación a largo plazo para identificar programa adicional de filtrado y clasificación de los procedimientos; un total de 8 filtros se han aplicado hasta la fecha [25]. Inicialmente, una lista corta se muestra la parte superior de ~ 50 predijo pertinentes B-términos, pero actualmente la página web Arrowsmith muestra todos los términos B-clasificado en orden de la probabilidad de que van a suministrar la información a través de vincular las dos literaturas.

2. Información de búsqueda de necesidades y estrategias de campo de pruebas

Tenemos previsto inicialmente que dos nodos búsqueda se llevaría a cabo en una estrategia que consta de dos pasos [9 - 11]. En primer lugar, se esperaba que sobre el terreno de pruebas que definir una hipótesis que implica la búsqueda de posibles vínculos entre dos diferentes campos de investigación A y C, que muestran poca o ninguna superposición (en términos de tener pocos o ningún documento en común). Nos ha recomendado que los usuarios deben examinar en primer lugar se define una amplia búsqueda en PubMed de "A y C" para encontrar y analizar toda la literatura directos que pueden estar presentes (incluidos los relacionados con el uso de términos MeSH, y los casos de A y C y sinónimos del mismo en los dos título y resumen los campos). En segundo lugar, después de comprender lo que ya se conoce acerca de A y C en el contexto, entonces se llevará a cabo una Arrowsmith dos nodo búsqueda usando las preguntas estrictamente definidas en A y C (por ejemplo, restringir la búsqueda a los casos de A y C en el título campos ). Sin embargo, no limitar el tipo o la forma de búsquedas realizadas por campo de pruebas, pero les animó a "jugar" con posibles usos en el curso de su trabajo científico.

Por lo que sabemos, ninguno de los probadores de campo cada vez seguido el escenario recomendado. De hecho, independientemente de su antigüedad o capacitación, ninguno de ellos llevó a cabo búsquedas en PubMed básica en la forma recomendada por los científicos avezados información, ya sea [34]. Por el contrario, rápidamente escaneados los primeros uno o dos páginas de los artículos devueltos con el objetivo de obtener unos pocos, los últimos, los documentos pertinentes: a) No se les trate con precisión, ya sea la maximización o amplitud de la búsqueda, b) no pasar un mucho tiempo la elaboración de la consulta inicial con cuidado, ni tampoco tienden a modificar y volver a entrar en consultas, c) que en general no utilizar opciones avanzadas, tales como el botón Detalles para ver cómo los términos de búsqueda fueron procesados. Poco se prestó atención a términos ambiguos (por ejemplo, "frío" se puede referir a la temperatura fría, el resfriado común o enfermedad pulmonar obstructiva crónica), o términos conectan con múltiples AND, OR o NOT operaciones (lo cual plantea la posibilidad de recuperar demasiados o muy pocos documentos). (Véase el debate en el apéndice 1.) Una vez que reconoció que el comportamiento de un campo de pruebas en la realización de dos allanamientos nodo está en consonancia con su enfoque de la simple búsqueda en PubMed, campo de pruebas no recibieron instrucciones para tratar de encontrar todas las informaciones complementarias inherentes a un determinado Arrowsmith búsqueda, pero en lugar de llevar a cabo relativamente rápido, corto, se centró búsquedas que responde a preguntas concretas que surjan en el curso de su investigación.

Al preguntar sobre el terreno de pruebas para emplear los dos nodos de búsqueda como parte de su flujo de trabajo normal (Tabla 1], aparecieron numerosas aplicaciones que antes eran imprevistos (véase más adelante). Evaluar y priorizar las hipótesis fue principalmente llevada a cabo por los investigadores principales o los que participan en el diseño de experimentos y propuestas de subvención por escrito. Estudiantes de postgrado (y en menor medida, postdocs) expresa la sensación de que su descripción del trabajo se limitó a llevar a cabo experimentos en el marco establecido por sus supervisores. Por lo tanto, no se sienten cómodos en busca de vínculos que pudieran enviarlos fuera de la exploración de nuevas disciplinas o el uso de nuevas técnicas. Incluso si los enlaces de interés fueron encontrados durante el curso de una búsqueda Arrowsmith, a su juicio, se ha limitado a influir en el diseño de futuros experimentos llevados a cabo en su laboratorio. Para esta cohorte, Arrowsmith la búsqueda se limita básicamente a las tareas más concretas de comportamiento de búsqueda de información, por ejemplo, la obtención de información que pueda contribuir al debate de la sección documentos están escritos, o evaluar si un inesperado, anómalo encontrar en el laboratorio justifica el seguimiento de (Cuadro 1].

3. "Classic" Arrowsmith dos nodo búsquedas diseñado para evaluar y priorizar las hipótesis

En numerosas ocasiones nodo dos búsquedas hizo, en efecto, identificar nuevas y prometedoras direcciones de investigación que condujo a la planificación o ejecución de nuevos experimentos, o que dieron lugar a nuevos presentados y financiados, incluso las propuestas de subvención. Cinco ejemplos se resumen a continuación hacer hincapié en su variedad y la diversidad (véase el apéndice 2 para el 6 de ejemplos adicionales).

4. Y la variante híbrida búsquedas

A veces dos nodo se llevaron a cabo búsquedas para encontrar información que podría haber sido obtenido a partir de una búsqueda en PubMed directa. Por ejemplo, los usuarios de vez en cuando entraron por separado A y C consultas con el fin de examinar el conjunto de documentos presentes en ambos A y C literaturas (que se enumeran en una ventana independiente dentro de la interfaz web). Esto podría haber sido recuperados a través de PubMed más simplemente por entrar en la consulta [A y C]. Sin embargo, usar las dos nodo interfaz siempre la opción de permitir inmediatamente a examinar la B-términos entre las dos literaturas, en caso de que deseen.

Una gran aplicación de los dos fue nodo de búsqueda de construir una lista de temas que son comunes a dos (o la superposición de que no se solapan), juegos de artículos [41]. Por ejemplo, uno de nuestros colegas querían construir una lista de enfermedades que se caracterizan tanto por aneurisma de la aorta y el desprendimiento de retina (no necesariamente en la misma persona, y no necesariamente se describe en el mismo documento). A dos nodo de búsqueda en [aneurisma de la aorta] vs [desprendimiento de retina], con B-términos filtrados para la categoría semántica de las enfermedades, fácilmente dio el resultado deseado (fig. 3, 4, 5, 6, 7, 8, 9] .

Otro importante uso de los dos nodos de búsqueda fue a buscar artículos en una disciplina eliminan de la propia, o para ver una literatura a la luz de otro contexto (por ejemplo, una enfermedad específica). En la mayoría de los casos, un campo de pruebas era un experto en un campo (representado por la literatura A) y totalmente familiarizado con la literatura el segundo (C). Aquí el objetivo es identificar los artículos en la literatura C, que son los más que pueda ser relevante o útil, sobre el terreno A. Por ejemplo, GP quería navegar por la literatura en complejo I mitocondrial - no toda la literatura, que contiene más de 10000 artículos, pero sólo los que comparten ciertos términos B-con la literatura sobre la enfermedad de Parkinson.

5. Un nodo de búsqueda de oportunidades

La búsqueda de un nodo se utiliza para encontrar un desconocido que la literatura puede contribuir a un problema específico. Hemos detectado una serie de situaciones en las que formuló sobre el terreno de pruebas problemas que llama, naturalmente, para un nodo de búsquedas. Por ejemplo, RH elaborado su propio método de relación directa e indirecta de genes co-ocurrencia enlaces en la literatura [42] para predecir un conjunto de proteínas que pueden interactuar funcionalmente con el reelin vía de señalización, a pesar de que no co-ocurren en cualquier documento que citan reelin. En otro caso, AT estaba interesado en la identificación de una lista de genes que se sabe que se expresará en la amígdala, que no han sido previamente estudiadas en el contexto de miedo acondicionado, pero que podría plausiblemente se espera que desempeñen un papel en ese proceso.

6. Campo de prueba de sugerencias

Campo de pruebas hechas en curso sugerencias con respecto a la interfaz y el proyecto de manera que la interfaz podría ampliarse para fines especializados. Campo de pruebas se reunió con VT, así como RW, un diseñador gráfico, lo que resulta en mejoras a la interfaz web: Por ejemplo, en 2003, un portapapeles se añadió para guardar los artículos seleccionados, un diagrama de flujo se añadirá a la parte superior de las páginas de búsqueda para servir como un plan de trabajo general para el procedimiento de búsqueda, y un diagrama de Venn se añadió a visualizar el tamaño relativo y la superposición de las dos literaturas. Varios campo de pruebas expresado el deseo de tener Arrowsmith abarcar más allá de bases de datos bibliográficas en PubMed, a fin de que la educación, la psicología, ingeniería y ciencias de la computación documentos podrían ser registrados también - por desgracia, esto no fue factible debido a las restricciones de los últimos servicios. Por último, varios probadores ámbito público y usuarios de la web sugirió que se añadiera gen centrada en las extensiones de Arrowsmith, como la búsqueda de características comunes entre la totalidad de un grupo de genes identificados durante un experimento de microarrays.

Discusión

Los dos nodos de búsqueda se basa en una clara, lógica modelo de formación de hipótesis y pruebas, y sigue una sistemática de varias etapas procedimiento [9, 10] - todavía no hemos encontrado sorpresas a cada paso, cuando los investigadores biomédicos se permite una libertad total a emplear esta herramienta en el curso de su vida cotidiana labor científica. Las necesidades del campo de pruebas borrosa distinción entre simples de recuperación de información, la formación de hipótesis, síntesis de una literatura, y navegar dentro de un campo desconocido. A su vez, esto nos ha llevado a rediseñar la interfaz web y su bases de datos y algoritmos, y de hecho de volver a conceptualizar los dos nodo proceso de búsqueda.

La primera lección que hemos aprendido es que la lista de términos-B tiene que ser exhibidas y evaluadas en cuestión de unos minutos, en lugar de horas o días. Hemos creado una serie de 8 filtros para permitir que el usuario manualmente para restringir el número de B-términos que deben ser examinados. Sin embargo, esto requiere una gran cantidad de instalaciones mental y la sentencia, ya que cada búsqueda debe ser personalizado. Disponer de un corpus de campo de pruebas de consultas, y la B-términos que se han marcado como pertinentes (es decir, indicando significativos vínculos entre las literaturas A y C), han permitido el desarrollo de un modelo cuantitativo que nos permite visualizar todos los términos B-clasificado en orden de la probabilidad de que es probable que sean de interés para algunos usuarios (Sra. en preparación). Esto permite ahora al usuario escanear rápidamente el ranking B-lista, aunque más de filtrado manual está disponible como una opción.

La segunda lección es que sobre el terreno de pruebas vistos los dos nodos de búsqueda no como una relación detallada de dos fases estrategia de explorar todas las posibles relaciones entre dos literaturas, sino más bien como una simple extensión de las búsquedas en PubMed. A su vez, las búsquedas en PubMed vistos no como una forma de obtener un conocimiento completo de un campo particular, sino como un medio para identificar una o varias reciente, los documentos pertinentes para satisfacer una gran necesidad de información específica [que por lo general no es totalmente capturada por el los términos de la consulta entró en la interfaz de búsqueda]. De este modo, al igual que el japonés formal chadō ceremonia del té ha dado paso a dunking un saquito de té en agua caliente, por lo que el nodo dos Arrowsmith búsqueda ha evolucionado de belleza a la práctica.

En tercer lugar, es gratificante comprobar sobre el terreno de pruebas que fueron capaces en muchas ocasiones a emplear dos nodo búsquedas para evaluar y priorizar sus hipótesis. Dos nodo búsquedas hizo afectar a su flujo de trabajo la medida en que propone nuevas ideas para artículos o propuestas de subvención, y sugirió que el apoyo o nuevas líneas de investigación en el laboratorio. Sin embargo, el campo de pruebas no estaban interesados sólo en la identificación de nuevos enlaces no declarada, pero trató de identificar los vínculos significativos, aunque son bien conocidas en la literatura ya. Inicialmente se esperaba que los usuarios estarían interesados principalmente en los vínculos de naturaleza causal ( "A afecta a B que afecta a C"). Sin embargo, muchos registros en forma: "encontrar los temas (conceptos, métodos, organismos, las proteínas, las regiones anatómicas, etc) que han sido estudiadas en ambas literaturas A y C". Además, muchos registros se hicieron en forma de navegar: "me encontrarán en los documentos de la literatura C que son más similares a, o que puedan ser de interés para, en los documentos de la literatura A".

Estas aplicaciones aumentar en gran medida el posible alcance y la audiencia de Arrowsmith, y sugieren varias vías para la ampliación de la herramienta. Por ejemplo, para la navegación, uno podría desear para pasar por alto la lista B-mostrar y presentar los usuarios directamente con una selección de títulos artículo que se organizan en algunos fáciles de escanear. Por otra parte, esto sugiere futuras ampliaciones para la UIC Arrowsmith sitio web, tales como permitir a los usuarios realizar búsquedas de dos nodo-B que emplean los términos tomados de cualquier Medline campos especificados (autores en común, afiliaciones, MeSH, etc), así como para llevar a cabo dos nodo búsquedas entre dos conjuntos de texto completo de documentos en PubMed Central. A pesar de que la relación señal-ruido puede ser desfavorable para encontrar vínculos causales incrustados en el texto de manera eficiente, muchos artículos son sólo codificado en texto completo: Por ejemplo, un período de dos nodo de búsqueda en artículos de texto completo podría revelar fácilmente las referencias citadas, los reactivos empleados o las personas que se reconoce en ambas literaturas.

Por último, nuestra experiencia con el campo de pruebas ha identificado una serie de información adicional de búsqueda de necesidades para las que estamos construyendo nuevas herramientas que son de libre acceso [55]. La autoridad proyecto [43] es disambiguating nombres de los autores en Medline, para permitir a los usuarios el grupo de artículos de acuerdo a las personas que el autor de ellos, y para permitir una mejor comprensión de la publicación científica y el comportamiento de redes de colaboración. Anne O'Tate La herramienta permite a los usuarios un resumen de las características de una búsqueda en PubMed resultados muy rápidamente (por ejemplo, la publicación de autores que en conjunto de artículos clasificados por frecuencia, las revistas, los términos utilizados en el título o el resumen, Medical Subject Headings, etc), y los permisos ellos para ver los detalles más abajo sin necesidad de revisar y volver a sus preguntas. El WETLAB proyecto es la creación de una muy simple, la búsqueda de datos, de código abierto, multiplataforma cuaderno electrónico de laboratorio. Creemos que el texto de la minería tiene el potencial de hacer una contribución significativa a los procesos de descubrimiento científico y la colaboración.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

NS concebido y dirigido el estudio, interactuado con regularidad con el campo de pruebas, y llevó a cabo sesiones de orientación y tutorías. VT programada la electrónica portátil, interactuado con regularidad con el campo de pruebas, y mantiene la documentación en los registros y su seguimiento. También programadas, mantenido y actualizado la interfaz web y los programas informáticos y bases de datos. AG, LB, RH, AK, GP, DP, y AT utilizado las dos herramientas de búsqueda de nodo en el curso de su trabajo científico y proporcionó comentarios, críticas y sugerencias. RW entrevistados campo de pruebas y analizó el flujo de trabajo y requisitos de diseño de la interfaz web. MG y MM supervisado sobre el terreno de pruebas en sus estudios científicos y de doble comprobado la adecuación y la cobertura del manuscrito.

Apéndice 1. Estrategias de búsqueda de campo de pruebas para las necesidades de información diaria y las tareas

El campo de pruebas se les dio tanto hands'-en sesiones de tutoría y en la realización de búsquedas en PubMed básicos y Arrowsmith nodo dos búsquedas, y Don Swanson escribió un tutorial para ellos debatir estrategias para la búsqueda en MEDLINE [34]. No obstante, independientemente de sus conocimientos, capacitación o experiencia - y con independencia de si eran estudiantes de posgrado o investigadores principales avezado - campo de pruebas rechazó la estrategia recomendada de elaborar con cuidado las preguntas y modificando sucesivamente en un intento de formular la consulta óptima para un determinado búsqueda. Por el contrario, una primera consulta se plantea y, a continuación, la primera de una o dos páginas de resultados recuperados fueron digitalizadas para uno o varios de los artículos pertinentes.

Desde el punto de vista de una información científica, esa estrategia podría parecer ignorantes, mal o incluso temeraria - afín a la conducción sin cinturón de seguridad o incluso un volante! Y, sin embargo, el campo de pruebas estaban familiarizados con el manejo apropiado de complicado, herramientas sofisticadas, como microscopios electrónicos, electrofisiológicos plataformas, microarrays y máquinas de fMRI de imágenes. Por lo tanto, su búsqueda debe ser reconocido como una estrategia deliberada, que puede considerarse como más o menos eficaz en función de lo bien que responde a las necesidades de los usuarios, pero que no pueden descartarse de plano.

Se necesita investigación adicional para entender el comportamiento de búsqueda de pruebas de campo: Una posibilidad es que debido a PubMed y más actuales sistemas de recuperación de información están diseñados para recuperar exhaustivamente todos los documentos sobre un determinado tema, que no están bien alineados con las necesidades más discretos de un usuario común. Una segunda posibilidad es que la facilidad de "Google" en la web ha creado la expectativa de que la búsqueda debería dar lugar a gratificación instantánea. Dado que los usuarios tienen un conocimiento profundo de sus propios campos y estaban familiarizados con las debidas y los términos de búsqueda específicos para utilizar en sus consultas, tal vez este les ha permitido elaborar sus iniciales consulta de tal manera que para obtener resultados aceptables en la mayoría de los casos. Una tercera posibilidad es que los usuarios de manera intuitiva darse cuenta de que es difícil, si no impracticable, para elaborar una consulta tal que capta la totalidad del contexto de una determinada búsqueda. Por último, puede ser que los actuales sistemas de recuperación de información relativamente dar malos resultados, incluso cuando se administra una "óptima" consulta [44]. En cualquiera de estos casos, la rapidez de escaneo de búsqueda de salida (el contexto de mantenimiento en cuenta) puede ser la más eficiente línea de acción.

Por lo que sabemos, ningún estudio ha examinado sistemáticamente la búsqueda en PubMed comportamiento de los estudiantes o profesionales científicos en condiciones de libre-gama condiciones - es decir, cuando la tarea es elegido libremente por el usuario, y cuando los resultados se evalúa en términos de si la información recuperada era adecuado para la pregunta planteada. Estos estudios podrían descubrir usuario optimización principios que van más allá de la precisión y recordar, o al menos puede dar pistas sobre la manera en que las interfaces de búsqueda pueden llegar a ser mejor alineados con las necesidades de sus usuarios.

Apéndice 2. "Classic" Arrowsmith dos nodo búsquedas diseñado para evaluar y priorizar las hipótesis

Cinco ejemplos se dan en el cuerpo del documento, y otros seis ejemplos son discutidos aquí.

Ejemplo 6

Un número de búsquedas directamente motivada por tratar de entender imprevistos hallazgos realizados por el campo de pruebas en el curso de sus estudios en curso. Por ejemplo, experimentos anteriores habían demostrado que la plasticidad neural de la actividad dentro del núcleo medial geniculate, durante la evitación discriminativa en conejos, fue mucho mayor en la división medial de este núcleo en comparación con la división ventral [45]. Para identificar los factores que puede explicar la diferencia en las respuestas neuronales (en particular, las proteínas expresadas diferencialmente en estas dos regiones), AK llevó a cabo una serie de dos nodo de búsquedas, incluyendo una búsqueda en [(medial geniculate O medial geniculate cuerpos) y ventral] vs . [(Medial geniculate O medial geniculate órganos) y "división medial"] en busca de términos en la categoría de genes o proteínas nombres que podrían estar relacionados con la plasticidad neural o de aprendizaje. Él encontró que un determinado subtipo de receptor NMDA (NR2A) es más abundante expresada en la división medial, mientras que NR2B se expresa principalmente en la división ventral [46]. Esto es interesante ya que, en otras regiones del cerebro, NR2A había sido implicado en LTP (una forma de plasticidad en relación con la observada en el medial geniculate), mientras que NR2B estaba implicado en LTD. Por lo tanto, esta sugiere la hipótesis de que medie NR2A activación neuronal durante discriminativo así como la evitación.

Ejemplo 7

DP está tratando de evaluar la posible pertinencia de astrocitos en la enfermedad de Parkinson proceso, y en el curso de la realización de una serie de dos nodo búsquedas, encontró dos referencias que se informa (1) la exposición de los astrocitos a la trombina reduce los niveles de los receptores de glutamato metabotrópicos, y (2) mGluR5 metabotrópicos activación de los receptores de glutamato aumenta las actividades de dos tipos de Ca 2 + activados por los canales de K + en astrocitos del hipocampo de rata. Porque astrocytic Ca 2 + activados por los canales de K + se han sugerido para participar en el normal acoplamiento de la actividad neuronal a la circulación sanguínea, la interrupción de este proceso podría tener consecuencias para astrocytic de la homeostasis neuronal. El éxito de la aplicación de los antagonistas mGluR5 en un subgrupo de pacientes con EP sugiere además que un estudio más profundo del vínculo existente entre mGluRs neuroglia y están garantizados. La primera referencia es también interesante porque los informes de que la trombina de señalización en respuesta a lesiones CNS thrombospondin induce la liberación, y que thrombospondin liberados por astrocitos induce la sinaptogenesis. Tomados en conjunto, la hipótesis de que DP astrocytic thrombospondin / trombina señalización puede ser una respuesta temprana a, o de modulador, PD patógenos señales.

Ejemplo 8

Después de un documento de Sheng del grupo parecía que la presentación de informes mitocondrial tasa de actividad es limitante para la formación de nuevas espinas dendríticas y sinapsis neuronal tras la estimulación [47], GP y NS conjuntamente para identificar ideas prometedoras "lagunas" en los conocimientos actuales sobre posibles funciones de las mitocondrias en plasticidad neuronal y el aprendizaje. Local regulación de la síntesis de proteínas en las espinas dendríticas de la plasticidad sináptica está bajo intensa investigación de muchos laboratorios. Sin embargo, hemos observado que la regulación local de la síntesis de proteínas mitocondriales fue casi totalmente ignorada en este contexto (un estudio ha descartado la síntesis de proteínas mitocondriales como factor en la regulación de aparición temprana a largo plazo la potenciación (LTP)). Sin embargo, un período de dos nodos específicos en la búsqueda de inhibidores de la síntesis de proteínas mitocondriales [cloranfenicol o tetraciclina] frente a [el aprendizaje o la memoria] reveló que estos fármacos han demostrado inhibir fases específicas de la memoria en vivo [por ejemplo, [48]]. Esto sugiere que la síntesis de la proteína mitocondrial podrían estar implicados en la regulación de LTP, espinas dendríticas o plasticidad sináptica, sobre todo en fines de sostenido o fases de consolidación y crecimiento, sino que puede ser útil para probar experimentalmente si cloranfenicol o tetraciclina afectan estos procesos.

Ejemplo 9

Después de leer un artículo de prensa acerca del tratamiento del síndrome de las piernas inquietas con fármacos dopaminérgicos, AG tratado de catalogar las similitudes entre el síndrome de las piernas inquietas (SPI) y bruxismo (dientes de molienda). A pesar de que la literatura sea directa debatir ambas condiciones, de dos nodo de búsqueda también se juzga a ser útil para revelar similitudes: Ambos síndrome de las piernas inquietas y bruxismo pueden verse agravados por el estrés. Aproximadamente el 10% de los enfermos SPI también tienen bruxismo. En ratas, los agonistas de la dopamina aumento de bruxismo. Y, ambos son factores comorbid en el síndrome de Tourette (un trastorno de los ganglios basales), así como en pacientes con enfermedad de Parkinson.

Ejemplo n º 10

NS habitual nodo dos búsquedas tanto durante la experimentación y la escritura fases de su investigación. Por ejemplo, mientras prueba la hipótesis de que la calpaina se cleave y activar dicer cerca de las sinapsis [49], llevó a cabo un período de dos nodo de búsqueda en [la calpaina] vs [postsináptica densidad] para construir una lista de otras proteínas que se sabe que son exfoliados de la calpaina y situado en la densidad postsináptica. Otro estudio, lo que demuestra que genómica repite contribuido a determinadas Micro RNA genes y sus objetivos [50], motivado por una búsqueda [Alu] vs [microRNAs], que a su vez dio lugar a un estudio computacional Alu predecir que se repite en 3'-UTRs RNAs mensajeros de servir como objetivo para las regiones de mamíferos microRNAs [51]. A propuesta de donación del NIH se presentó para poner a prueba esta hipótesis experimentalmente.

Ejemplo 11

Extracelular doble hundidos RNA es una señal para activar sistémica silenciamiento del ARN en C. elegans; varias de las proteínas necesarias para el transporte de doble hundidos ARN se conservan en los mamíferos [52] y se expresa en el cerebro de mamíferos. ¿Podría doble hundidos ARN tienen un papel fisiológico en la señalización entre las neuronas? NS se pregunta si tal vez extracelular doble hundidos ARN aplicado a tejido cerebral podría hacer que las células que secretan citoquinas que, a su vez, podría estimular neurite resultado. A dos nodo de búsqueda en [dsRNA] vs [neurite resultado] se llevó a cabo y se filtra en los términos para la categoría de Factor de Inmunodeficiencia. Un puñado de citoquinas fueron identificados en la lista B-(interferón gamma, interleucina-1, interleucina-6 y factor de necrosis tumoral). El interferón gamma parece prometedor como un factor putativo, en la medida en dsRNA aplicada a las células pueden obtener interferón gamma, y desde otros documentos informó de que (en un contexto diferente) inferferon gamma pueden estimular neurite resultado.

Agradecimientos

Este proyecto cerebro humano / neuroinformática investigación está financiado conjuntamente por la Biblioteca Nacional de Medicina y el Instituto Nacional de Salud Mental. Don Swanson, Marc Weeber y Zhou Wei dio la asistencia con las principales interfaces web y programación. Gracias a John Goudreau permiso para discutir su búsqueda. Este artículo está dedicado a Stephen H. Koslow, que durante más de 10 años llevó al cerebro humano del proyecto.