Journal of Biomedical Discovery and Collaboration, 2006; 1: 10-10 (más artículos en esta revista)

Herramientas para la adquisición de conocimientos dentro del sistema NeuroScholar y su aplicación a las vías anatómicas de localización de datos

BioMed Central
Gully APC Burns (gully@usc.edu) [1], Cheng-Wei Cheng (weichenc@usc.edu) [2]
[1] Instituto de Ciencias de la Información, 4676 Admiralty Way, Marina Del Rey, CA 90292, EE.UU.
[2] Instituto de Investigación de Neurociencia, Universidad de California del Sur, 3641 Watt Way, Los Angeles CA 90090-2520, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Bases de conocimientos que resumen la literatura publicada en línea proporcionan referencias útiles para áreas específicas de los sistemas a nivel de biología que no son apoyados por otros a gran escala las bases de datos. En el campo de la neuroanatomía, de los pequeños grupos se centró han construido equipos de tamaño medio las bases de conocimientos para resumir la información publicitaria que describa las vías de localización de los experimentos en varias especies. A pesar de años de recopilación y conservación, estas bases de datos sólo ofrecen cobertura parcial de la literatura publicada disponible. Dado que los científicos leer estos documentos deben generar las interpretaciones que normalmente se entró en un sistema de este tipo, se pretende ofrecer aquí para fines generales herramientas de anotación para que sea fácil para los miembros de la comunidad para contribuir a la tarea de acopio de datos.

Resultados

En el presente trabajo se describe un código abierto, disponible gratuitamente sistema de gestión de conocimientos denominado «NeuroScholar 'que permite la marcación directa estructurada de los archivos PDF de acuerdo con un bien diseñado esquema para capturar los detalles esenciales de esta clase de experimento. Si bien, el ejemplo a través trabajado en este documento es bastante específico para neuroanatomical conectividad, el diseño es extensible libremente y podría ser utilizada para construir bases de conocimiento local de otros tipos de experimento. Conocimiento representaciones del experimento son también directamente relacionado con los contingentes fragmentos textuales de la investigación original del artículo. A través de la utilización de este sistema, no sólo podría miembros de la comunidad contribuir a colación la tarea, pero los datos de entrada se pueden reunir para automatizados enfoques que permitan la adquisición de conocimientos mediante el uso de Procesamiento del Lenguaje Natural (NLP).

Conclusión

Se presenta un funcional, instrumento de trabajo para permitir a los usuarios a poblar las bases de conocimientos para neuroanatomical conectividad de datos de la literatura a través de la utilización de cuestionarios estructurados. Este sistema es de código abierto, plenamente funcional y disponible para su descarga a partir del [1].

Fondo

Aunque la bioinformática bases de datos masivas de apoyo a las actividades de los investigadores, proporcionando acceso inmediato a factores genéticos, moleculares y de datos vía, la mayor parte del conocimiento biomédico está disponible sólo para los investigadores en forma de artículos de investigación en la literatura primaria. El uso de esta información es, por tanto, obstaculiza en gran medida por el proceso de tener que localizar, leer, comprender y sintetizar esos datos. En general, más tiempo se dedica a los investigadores biomédicos de lectura, escritura y revisión de informes científicos que en directo experimental esfuerzo [2, 3]. Esta situación se aplica a todas las disciplinas de la biología, y que sugiere soluciones informáticas que ayudan a científicos biomédicos interactuar con y sintetizar la información de la literatura primaria podría llegar a tener un gran impacto en el campo en su conjunto.

En determinados ámbitos, como la neuroanatomía connectional, los datos descritos en la literatura son relativamente homogéneas y fáciles de modelo estático dentro de un esquema de base de datos [4 - 6]. Con el fin de realizar meta-análisis del estado de los conocimientos en el campo, los investigadores construyeron depósitos de dominio específico de los datos introducidos por parte de la literatura [5 - 14]. Neuroanatomical Estos datos fueron tratados como un matemático gráfico que podría entonces ser analizados utilizando métodos estadísticos multivariados, [10, 12, 13, 15 - 21]. Los análisis de las conexiones de la corteza gato predijo la existencia de plaid de patrones de células sensibles a la anterior ectosylvian sulcus demostrar la utilidad potencial de este enfoque [10, 22].

A pesar del aparente "éxito", como ellos, y la obvia importancia de proporcionar a gran escala las bases de conocimientos (KBs) a la comunidad en general para este tipo de datos útiles como las conexiones neuronales, el desarrollo y la población de estos sistemas ha sido siempre problemático . En general, la representación del conocimiento (KR) debería proporcionar soluciones específicas funciones clave incluidas razonamiento inteligente, eficiente y cómputo la comunicación humana [23]. Por ahora, el más importante desafío que enfrenta KB constructores es proporcionar eficaces y precisos de los métodos de poblar el repositorio de conocimiento de la literatura utilizando las denominadas "la adquisición de conocimientos' (KA) métodos. En el momento de redactar este informe, hay dos grandes colaciones de la conectividad neuronal datos de que dispone la comunidad a través de Internet: el sistema CocoMac [5] y "BAMS '[6]. Para indicar la dificultad de este problema, el proceso de recopilación de información en CoCoMac está documentada en un 89 páginas (disponible a partir de [24]]. Ambos sistemas contienen decenas de miles de conexión individual informes tomados de centenares de documentos (que, en ambos casos, es todavía sólo una parte relativamente pequeña muestra de la literatura disponible). Ambos sistemas están especializados en bases de datos relacionales y custodia de todas las tareas se realizan manualmente por los miembros de cada proyecto. Se trata de documentos de lectura, la interpretación de su contenido y, a continuación, la introducción de datos en el sistema para representar la collator las interpretaciones (con anotaciones adicionales a explicar el razonamiento subyacente). Este proceso es esencialmente una "entrada de datos' tarea que requiere la participación de expertos curadores. La ineficiencia de la literatura basada en la adquisición de conocimientos es evidente al comparar esta situación con la que se encuentra en la biología molecular, donde de alto rendimiento métodos de adquisición de proporcionar acceso directo a los datos. UniProt [25] es un ejemplo que contiene miles de millones de registros individuales. Es evidente que la curación de conocimiento biomédico de la literatura de pequeños equipos especializados es insuficiente para resolver el problema de construir representaciones de cómputo global de la información contenida en la literatura.

Es importante señalar que esta situación se repite en casi todos los biológicos disciplina donde un gran número de hechos se presentan en la literatura. Dentro de este proyecto, connectional neuroanatomía actos sólo como un caso ilustrativo simplemente porque ha habido repetidos intentos de construir las bases de datos en este ámbito, y ninguno de los sistemas existentes han resuelto el tema de entrada de datos. Este documento dirigida específicamente a las cuestiones relacionadas con el cotejo de las vías de localización de los experimentos, sino que también proporciona una solución general que también se ocupa de cuestiones más amplias de cómo uno puede construir bases de conocimiento para otros dominios.

En este trabajo, abordar esta cuestión dentro de una aplicación de software llamada 'NeuroScholar ». Se trata de una informática biomédica sistema de gestión de conocimientos científicos para hacer frente a la literatura publicada [14] y sus propios datos [26]. Se ha diseñado específicamente para los sistemas a nivel de neurociencia trabajo, pero podría ser utilizado en cualquier materia biomédica. Se trata de un código abierto de Java, disponible a partir del [1]. El diseño del sistema se basa en los principios de conocimiento de ingeniería que incorporan estándar de la industria orientada a objetos conceptos (basados en el Lenguaje Unificado de Modelado o «UML») y puede ser traducido al marco de la lógica o predicado-KR lógica de las normas (como la Web Ontología del idioma, "otros espacios arbolados»). El público objetivo de este trabajo es la comunidad de investigadores de la informática biomédica que ver la literatura publicada como un recurso valioso y que desean construir KBs de la información publicada. El NeuroScholar sistema podría actuar como una plataforma para el desarrollo de tales sistemas.

Este proyecto está motivado por la observación de que la tarea de leer detenidamente y describir artículos de investigación se realiza muchas veces por los científicos en la ejecución cotidiana de su trabajo. De hecho, los investigadores a título individual sintetizar una gran cantidad de información en sus propios conocimientos personales representación. Esto puede ser enteramente sobre la base de una capacidad de entender, memorizar y recordar la información. Por otro lado, esto puede implicar cuadernos de papel, archivo de tarjetas u otros no computacionales estrategias. Comúnmente, los científicos utilizar cualquiera de las dos de fabricación casera o comercial computacional de estrategias de gestión del conocimiento como hojas de cálculo, la construcción de diagramas de síntesis en aplicaciones de dibujo (por ej., PowerPoint, Adobe Illustrator, etc.), Bases de datos, Laboratorio de Sistemas de Gestión de la Información (LIMS " ), O la toma de nota programas (p. ej., Lotus Notes, OneNote, etc.).

En este sentido, ofrecer una "herramienta de estudio 'para los científicos biomédicos para gestionar sus interpretaciones y las observaciones derivadas de la investigación de la literatura como estructuradas y sin estructurar anotaciones. Nuestro objetivo final es proporcionar una interfaz de usuario que ayuda a los usuarios de estudio de la literatura y al hacerlo, proporciona un medio para facilitar la adquisición de conocimientos, ya sea en personal o comunitaria KBs. A continuación, describimos los NeuroScholar sistema como una pieza de software de apoyo a la acción de construir KBs individualizada para científicos biomédicos. Esto incluye los siguientes componentes: (a) la representación del conocimiento herramientas de diseño, (b) la literatura la capacidad de gestión, (c) tres métodos diferentes de la literatura anotación (texto libre, atributo-valor pares y estructurado de datos KR), (d) la agregación estructurada anotaciones sobre la base de múltiples fragmentos de texto en KRS completa de experimentos. Vamos a discutir los posibles métodos de intercambio de conocimientos y la consolidación construido en este software. También sugieren que este trabajo es el primer paso de una estrategia que culminará en el uso de minería de textos para automatizar la adquisición de conocimientos de literatura publicada.

El trabajo que se describe aquí se ha informado en forma preliminar como carteles de conferencias [27, 28].

Aplicación
Arquitectura del sistema

Flujo de datos dentro del sistema NeuroScholar se organiza dentro de la arquitectura se muestra en la Figura 1. En esta fase del desarrollo del sistema, nos centramos en la tarea de generar KRS-libre de información que describe el formato de datos primarios (experimental documentos, páginas escaneadas bloc de notas y datos de imágenes). El sistema tiene tres componentes: un depósito para el conocimiento de recursos propios, simple KA mecanismos basados en anotaciones, KR y un componente para proporcionar una estructura de representación de las principales conclusiones de los datos.

El repositorio proporciona una interfaz con la interfaz de PubMed de la National Center for Biomedical Information (NCBI) como un método sencillo para recuperar las citas de texto completo de documentos. Una observación incidental que ha demostrado ser muy útil en el diseño de NeuroScholar, es que sólo es necesario conocer cuatro piezas de información (el apellido del primer autor, año de publicación, el número del volumen, y la primera página de el artículo) para recuperar un único PubMed entrada para cualquier citación documento fiable. Esta estructura proporciona una estructura de la indexación de artículos de investigación y nos proporciona una rápida y fácil método de recuperación de la plena PubMed citas con un conjunto mínimo de criterios de búsqueda.

El componente de adquisición de conocimientos se basa en "fragmentar" documentos (ver [26] para una discusión de este proceso). Este es esencialmente el mismo proceso como un importante destacar la sección de texto en un artículo con un marcador, por lo tanto, delimitar que el paso de importancia para el usuario. A continuación, el sistema permite al usuario adjuntar datos estructurados a estos fragmentos. De acuerdo con el principio de que una eficiente KA sistema debe actuar como un "buen alumno" de forma activa tratando de adquirir conocimientos, uso de cuestionarios para dirigir al usuario a introducir datos de que se trate de cuestiones específicas [29]. El sistema resultante es una interfaz que puede ser utilizada por expertos en dominios con un mínimo de capacitación para poblar una KB con información estructurada.

Al mantener las coordenadas del fragmento en el contexto del documento original, en la mayoría de los casos, es posible extraer el texto anotado. En los casos en que esto es imposible, (como con los documentos escaneados donde cada página es simplemente una imagen de mapa de bits) es sencillo para capturar y guardar una imagen de la delimitación dentro del archivo PDF. Reconocimiento óptico de caracteres (OCR) software puede ser aplicado a esta imagen para tratar de reconstruir el texto del fragmento. Si esto no puede ser permitido (por ejemplo, debido a las restricciones del derecho de autor), entonces por lo menos, podemos reconstruir el fragmento de redefinir las delimitaciones más imágenes de las páginas del archivo PDF. Por lo tanto, siempre y cuando el usuario final tiene los derechos para el artículo original, cualquier fragmentos guardados en NeuroScholar pueden ser recuperados. En los autores de experiencia en desarrollo de sistemas que resumen la información de la literatura, es indispensable mantener el texto original de la fuente que apoya la base de cualquier posterior resumen [11]. Este "rastro de papel" es vital para permitir la validación y verificación de conocimientos dentro del sistema.

El KR generado utiliza el "Ver-Primitivo-Data-Modelo de marco» ( «VPDMf», [14, 30]] para definir los objetos compuestos de un objeto-orientado método de combinar los paquetes, clases, asociaciones, funciones y atributos [31] encapsulados en estructuras de datos llamada 'opiniones'. El sistema también permite que otras orientado a objetos conceptos tales como la herencia y la dependencia a ser incorporados en un modelo de conocimiento. NeuroScholar proporciona un gráfico-como interfaz de usuario para mostrar los conocimientos representaciones donde las opiniones se definen como nodos en un gráfico y vínculos o relaciones entre las opiniones aparecen como vincular los bordes.

El VPDMf es un proceso automatizado de secuencias de comandos que toma un modelo UML como entrada adicional basada en XML, documentos de diseño que describen la composición detallada de las entidades que componen el modelo de conocimiento. Transforma el UML basado en diseño orientado a objetos en un esquema de base de datos relacional con el correspondiente modelo de objetos de Java basada en el mismo diseño. Esto proporciona NeuroScholar programática con acceso a los datos en el esquema. Nos hemos dado cuenta de que el sistema puede acomodar los distintos puntos de vista con toda una estructura compleja, por ejemplo: la localización del tracto-experimento de vista implica 12 clases separadas en el modelo UML, y un ejemplo típico de vista contiene más de 100 tuplas datos individuales en el sistema subyacente base de datos. El VPDMf ha sido descrito como un documento de referencia de conferencias en [30]. Utilizamos un diseño modular, de modo que todos los componentes de la versión más reciente de la KB (que consta de 38 datos-y 6-opiniones relación) se organizan en seis módulos más pequeños (sobre la base de 'paquetes' en el modelo subyacente UML). Cada uno de estos diferentes regula un componente del sistema global: los recursos bibliográficos y fragmentos; bloc de notas blocs de notas y fragmentos; neuroanatomical componentes, y las representaciones de determinados tipos de experimento.

La representación del conocimiento de diseño

La estructura central de NeuroScholar la representación del conocimiento se muestra en la Figura 2 como una captura de pantalla del sistema. El sistema utiliza el TouchGraph biblioteca de código abierto [32] a fin de establecer una dinámica, interactiva para ver la representación del conocimiento. El «conocimiento», ofrece una vista general de la representación de un hecho o una interpretación. Se define tres especializaciones del conocimiento de las declaraciones: "fragmentos" (declaraciones procedentes de fuentes externas a NeuroScholar), 'experimentos' (representaciones locales de primaria los datos experimentales) y «modelos» (declaraciones interpretativas sobre el significado de los experimentos). Tanto los fragmentos de experiencia y opiniones son especializados, a su vez, para proporcionar «bibliográfica-fragmentos' (fragmentos procedentes de fuentes literarias);" bloc de notas de fragmentos' (fragmentos derivados de blocs de notas escaneadas o imágenes de datos); "las vías de localización de los experimentos' (representaciones de experimentos relacionados con el estudio de las conexiones neuronales) y los experimentos de fisiología "(representaciones de los experimentos relacionados con correlacionar la actividad neuronal con la conducta en determinadas manipulaciones experimentales). Como se muestra en la Figura 2, los diferentes tipos de conocimiento son la declaración central moneda del sistema. Estas opiniones pueden ser unidos entre sí por 'apoya', 'contradice' o 'es-sobre' las relaciones basadas en diseños ontológico para la argumentación redes [33, 34]. Para las descripciones de los principios de diseño y modelos de datos subyacente a esta representación, ver [4, 35]. Como este proyecto está sujeto a cambios en sistemas y soluciones sean desarrollados más a fondo, nos remitimos al lector al sitio web de actualización esquemas y especificaciones [1].

Dentro de este trabajo, se presentan los datos relativos a la utilización del sistema para recopilar información de la localización del tracto-literatura. Ver [35, 4] para el conceptual y diseño lógico de los KR. La Ver-Definición-Graph de esta representación se muestra en la Figura 3.

Hay tres opiniones que han significado para esta representación (A) la "localización del tracto--experimento '(TTE), (B) el" tracto-localización-histología "(TTH) y vista (C) la" localización del tracto - - el sitio de la inyección "(TTIJ). La ETT es un niño de la «experimento» y «conocimiento», puntos de vista (que le permite ser incorporados a redes de argumentación mediante la utilización de «apoya» y «en contradicción con las relaciones, ver Figura 2]. El TTH opinión refleja un patrón histológico de etiquetado en todo el cerebro (tal como se muestra en neuroanatomical mapas que se podrán añadir al sistema a través de la NeuARt II plugin [36]] para que se hereda de los' datos de ruta 'y' primitivo-espacial Puntos de vista. Por el contrario, la opinión de TTIJ refleja una pequeña región de tejido donde el depósito inicial de trazador se hace (y también puede ser descrito utilizando el plugin NeuARt II, véase más adelante), por lo que hereda de la «cerebro-volumen" y "espacio - primitivos puntos de vista. El TTIJ opinión también está vinculado a un "trazador químico opinión, lo que representa un" modelo único "punto de vista, esto indica el tipo de trazador utilizado en el experimento (por ej., Phaselous leucocitos-crioaglutininas o 'Phal'; Fluoro-Gold o «FG»). Tanto el TTH TTIJ opiniones y dependen de la opinión de TTE por lo que no puede existir en forma aislada de la experiencia propia. Además, el TTH TTIJ y opiniones se incluyen en la propia vista TTE, (que ilustran la capacidad del sistema VPDMf para poder capturar el diseño de estructuras compuestas de conocimientos como un único encapsulado objeto).

Estas entidades constituyen la información mínima que sea necesario para poder inferir las cualidades esenciales de una proyección neuronal de este tipo de experimento. Una inyección se realiza en una región específica, produce y transporta el etiquetado en una serie de otras regiones. La absorción de propiedades del marcador químico utilizado en el experimento determinar la dirección de transporte axonal utilizados por la etiqueta neuronas ( 'anterógrado »o« retrógrado ») y, por consiguiente, revelar la dirección de la conexión neural. Esta estructura es coherente durante los experimentos que utilizan diferentes, no transynaptic marcadores.

Uno de los puntos fuertes de la VPDMf como una metodología de representación que es compleja estructuración de los datos pueden ser encapsulados en una sola vista que pueden ser gestionados y manipulados por los usuarios finales. El interior intrincado de un individuo puede ser vista oculto de los usuarios finales, por lo que numerosos componentes internos de un complejo juicio (como TTEs), se puede presentar en un solo formulario o página Web. Mostramos la opinión de TTE como UML clase y objeto diagramas en la Figura 4.

La clase diagrama muestra el diseño actual de las ETT. Las abreviaturas utilizadas para los atributos seguir el Grupo de Gestión de objetos (OMG) tipos (por ej., 'Int32' está a favor de 32-bit-entero, etc.) Y son en su mayoría auto-explicativo. En los casos en que las referencias a otras clases aparecen como 'objeto (objetivo) », hemos incluido todas las clases de meta en la Fig. 4. El 'CV' clase está a favor de "vocabulario controlado" y es una de sólo lectura para la tabla de términos específicos. El 'Dato' clase se refiere a una medición o el valor y pueden utilizarse para representar datos ordinales (simplemente mediante el suministro de oficiales y tropa). Dos clases adicionales se incluyen para atlas de base de datos espaciales: el 'atlas' clase en sí (por ej.,' Swanson92 "es el código de identificación de referencia [37]] y el 'AtlasVolume' clase para referirse a cada nombre en una estructura determinada Atlas. En el VPMDf, la estructura completa de una instancia punto de vista es representado como un gráfico con nodos interconectados. El objeto diagrama muestra en la Fig. 4 se obtiene a partir de una captura de pantalla del sistema funcional. Ilustra todos los objetos que participan en un "vacío" TTE punto de vista y proporciona una representación concreta del objeto a objeto de conexión. Típicamente, un TTH vista capturado por el sistema de un artículo de investigación podría incluir como más de un centenar de separar 'labeledAtlasVolume' primitivas (ver Fig. 4], de modo que con un ejemplo real, este gráfico sería ilegible.

General diseño de la interfaz de usuario

Desde la web del surf es universal e intuitiva para casi todos los usuarios de ordenador, basado en el "look-and-feel" de la interfaz NeuroScholar a la de un navegador web. El inicio del sistema, los usuarios se presentan con hacer clic en una lista de activos y archivados KBs. Al seleccionar una activa base de conocimientos, los usuarios se presentan con una lista de puntos de vista dentro del sistema (con cuenta de casos de cada sección). Todas las acciones subsiguientes se regirán por la máquina de estados se muestra en la Fig. 5 (UML como un diagrama de estados donde están los polígonos sistema de estados y las flechas son acciones que causan las transiciones entre estados).

La interfaz de usuario está siempre en uno de esos estados para un determinado punto de vista, salvo en el inicio del sistema, cuando el usuario todavía no ha seleccionado una base de conocimientos actuales. Las acciones pueden ser desencadenadas por los menús, menús pop-up, enlaces o botones. El TouchGraph interfaz se muestra en la Fig. 2 proporciona otro soporte para la interacción pulsando con el botón derecho (o la combinación Shift + clic) nodos y bordes de vista específicos de interacciones. Con el fin de alterar el contenido de la base de conocimientos (mediante la introducción de la 'Editar' o 'Insertar' estados, los usuarios deben primero registrarse en el sistema. Este estado basado en el sistema que nos permite aplicar una función de historial para que los usuarios puedan ver las acciones que han adoptado dentro del sistema y volver a estados anteriores, lo que deliberadamente refleja un navegador de «back-botón 'y' historia 'características.

Programación de particularidades

El sistema está desarrollado en Java 1.4.2 y se puede ejecutar en Windows, Mac OS X o Linux. Se utiliza el código abierto MySQL base de datos relacional como mecanismo de persistencia. Hemos puesto en marcha una web de servicios de nivel para el acceso a las redes subyacentes a la base de conocimientos. El código fuente completo de la NeuroScholar sistema se encuentra disponible en la página del proyecto en SourceForge [38] y el programa se despliega como un instalador de paquetes, (ver [1] para la documentación acerca de la descarga y la instalación del sistema). Este proceso puede requerir conocimientos especializados en la creación de la base de datos MySQL con una contraseña administrativa (se describe este proceso y otras conjunto común de tareas película con la documentación encontrada en el sitio web). El sistema cuenta con el apoyo de un amplio marco de prueba basado en JUnit [39], que itera a través de todos los estados y la acción se muestra en la Fig. 5 (insertar, eliminar, editar, consulta, lista, etc.) Por cada ver en un modelo específico e informes las excepciones y los fracasos. Hemos probado los elementos básicos del sistema para cada plataforma se ha descrito anteriormente, mediante la utilización de este marco. Fragmenter El módulo utiliza la excelente biblioteca de Java multivalentes para hacer y analizar los archivos PDF [40, 41].

Resultados

NeuroScholar El sistema ofrece una serie de características que permiten a los usuarios interactuar con el texto completo de artículos científicos, todos centrados en la 'Fragmenter' plugin. Estas interacciones se basan en (a) el simple texto y voz basados en funciones de anotación, (b) atributo-valor par de funciones de anotación, y (c) el conocimiento de la captura »del subsistema (que constituye el principio de contribución de este documento). Vamos a describir cada uno de estos sistemas a su vez. La aparición de la NeuroScholar sistema de exhibición de un «bibliográfica-fragmento opinión con el plugin fragmenter activa aparece en la Fig. 6. Con el fin de ilustrar una serie de funciones que se invocan en esta imagen, hemos colocado etiquetas numeradas en la figura para identificar diferentes secciones.

(1) La barra de herramientas y menús

El sistema tiene un diseño similar general común para los navegadores web-, a fin de que la 'barra de direcciones' contiene el nombre de la actual base de conocimientos, hay un botón para la página principal y los botones para mover hacia atrás y hacia adelante a través de la historia de las opiniones mostradas en la solicitud (en lugar de una historia de visitar páginas web) y hay una serie de tres botones que alternar abrir un panel en la parte superior derecha del lado de la principal objeto de proporcionar una funcionalidad adicional: la Historia del panel, el panel gráfico o y el grupo Árbol.

(2) El panel gráfico

Como se ha descrito anteriormente, al pulsar uno de los tres botones de alternar en la barra de herramientas activa la izquierda-panel lateral con uno de los tres interfaces de usuario. El panel Historial permite al usuario volver a una vista anterior / estado combinación (como "muestra el fragmento-bibliográfica con el ID exclusivo valor de 33146 ', como es el caso de la vista se muestra en la Fig. 6]. Fig. 6 se muestra el panel gráfico, que contiene dos pestañas. Uno de ellos es utilizado para mostrar la definición de la vista gráfico (como se muestra en imágenes aisladas Figs. 2 y 3 para ilustrar el diseño de la representación del conocimiento), mientras que el otro muestra la opinión de ejemplo gráfico (que se muestra en la Fig. 6]. De acuerdo con las convenciones gráficas de la web semántica, las clases se muestran como elipses y rectángulos como los casos [42]. El ejemplo que se muestra es tomada de [43], que muestra sólo 1 de 97 fragmentos derivados de este documento. NeuroScholar intentos de aliviar el desorden visual de contar con un gran número de nodos presentan en el gráfico de una sola vez mediante el suministro de «nodos de proxy ', que son en forma de rombo y« contener »30-ordenados alfabéticamente ver ejemplo nodos. Cada nodo ver ejemplo en el gráfico muestra sólo la primera línea de su índice, a menos que el usuario sitúa el ratón sobre el nodo para ver el texto completo del nodo del índice (véase el nodo central en la Fig. 6]. Derecho de hacer clic en un nodo de vista ejemplo proporciona una mayor funcionalidad: el usuario puede una lista de todos los puntos de vista de un tipo específico que están relacionados con el nodo. Doble clic en un nodo se mostrará la opinión de ejemplo, en el panel principal. En algunas situaciones, el panel gráfico que puede convertirse, lleno de un gran número de puntos de vista. El árbol del panel ofrece una forma alternativa de navegación basados en opiniones sobre el diseño estándar de un árbol interfaz basada en componentes (similar al Explorador de Windows en un PC, no se ilustra).

(3) El fragmento

La imagen muestra ilustra la estructura de la delimitación de un fragmento (como parte de un «bibliográfica-fragmento opinión en NeuroScholar). El polígono utilizado para crear el fragmento se compone de cuatro puntos: los usuarios a seleccionar la que remite el rectángulo del texto de interés se desplazan por la parte superior derecha e inferior izquierda de color azul puntos y, a continuación, pueden guión, la parte superior izquierda e inferior derecha puntos verdes para delimitar con precisión el texto o las cifras de interés en el artículo (ver Fig. 6]. Este sencillo diseño proporciona un interfaz intuitivo para esta tarea. Si está disponible, el sistema de uso polivalente del texto-la capacidad de extracción para analizar la cruda texto del fragmento de un archivo PDF en conjunción con una simple biblioteca de indexación espacial (en la Fig. 6, comparar el texto del nodo central de la opinión de ejemplo gráfico a la del extracto). Cada fragmento se numera desde múltiples citas pueden contribuir a un fragmento (como es necesario cuando una frase o pasaje de interés se extiende a múltiples páginas). El «asterix notación" denota que el extracto contiene los datos capturados (véase más adelante).

(4) La anotación de texto

La forma más sencilla de anotación a disposición de los usuarios es introducir su propia forma de comentarios. Estos pueden ser mostrado como texto superpuesto sobre el artículo y puede ser colocado por encima, al lado de, por debajo o dentro de la demarcación. Estas notas podrán ser registrados dentro de NeuroScholar en la forma estándar.

(5) La anotación de voz

Otra forma no estructurada de anotación es la posibilidad de que los usuarios grabar un minuto de sonido y relacionarla con el fragmento (véase la figura 6].

(6) atributo / valor par a base de anotaciones

El botón en la Fig. 6 genera el cuadro de diálogo se muestra en la Fig. 7, que pueden ser pobladas con formato libre atributo-valor pares (con las correspondientes unidades).

Fig. 7 muestra algunos parámetros de potencial interés para los investigadores la realización de las vías de localización de trabajo que incluye detalladas parámetros cuantitativos. Como tal, la ventaja que ofrece el sistema más de forma rutinaria el estudio de la literatura es que los datos están directamente relacionadas con el texto del documento y los datos variables y los valores se almacenan en una base de datos de las que pueden ser consultados y recuperados. Estos datos-los valores son en realidad parte de la definición de «conocimiento», vista y podrán ser registrados dentro de los principales NeuroScholar sistema.

(7) El conocimiento de la captura »del subsistema

La principal contribución de este trabajo es la metodología construido para ayudar en la adquisición de conocimientos para neuroanatomical las vías de localización de datos. El objetivo es acelerar la velocidad y la facilidad de obtención de información relativa a la información mínima necesaria para un sistema de localización de experimento para ser interpretables en términos de identificar el origen y terminación de las regiones de conexiones neuronales y un ordinal cuenta de la relación de fuerza. En esta etapa, no estamos tratando de captar todos los detalles del método experimental, los matices o detalles relativos a los datos de fiabilidad.

El conocimiento sistemas de adquisición deben comportarse como buenos estudiantes, lo aclaración por parte de expertos en dominios, pero no son necesariamente expertos en la estructuración de la información adecuada en la correcta KR [29]. Inicialmente, el usuario debe seleccionar el tipo de experimento "de una lista y, después, el conjunto de datos experimentales un nombre único (que se utiliza para recopilar información capturada de diferentes fragmentos). Después de haber identificado el tipo experimental, el sub-sistema guía al usuario a través del proceso de entrada de datos mediante la presentación de una serie de preguntas, que corresponden a cada uno un aspecto específico de la completa KR (con una base de datos-formulario de inscripción). Cada pregunta (y sus correspondientes datos-formulario de inscripción) está diseñado para ser responsable de una típica único fragmento encontrado en el documento, es decir., La cuestión «describir el lugar de la inyección 'tiene tres componentes, el nombre de las regiones inyectada, el grado de que la inyección cubierto esas zonas, y el lado de la inyección se hizo. Típicamente, una descripción de un sitio de la inyección en un documento incluirá esta información.

Por las vías de localización de los experimentos, se plantean cuatro preguntas:

1. ¿Qué atlas está usando?

2. Por favor, describe el lugar de inyección.

3. Por favor, describe el patrón de etiquetado.

4. ¿Qué trazador químico está usando?

El formulario de entrada de datos para la descripción del patrón de etiquetado (pregunta 3) es el más complejo y se muestra en la Fig. 8.

Esto ilustra la forma en que el fragmento se muestra en la Fig. 6 se recopilarán en el sistema. El fragmento describe muy poco el etiquetado de un Fluro-Gold inyección en las células de diversas regiones de la cama núcleo de la stria Terminalis. La mayoría de los campos de entrada de datos simplemente contener los valores por defecto. Tenga en cuenta que este formulario de entrada de datos también incluye un botón para activar el plugin NeuARt II. Esta herramienta se describe en detalle en otra parte [36] y permite al usuario cargar un detallado en tres dimensiones mapa de la pauta de etiquetado en el sistema si está disponible. Esta función no contribuye directamente al KR generados en el sistema NeuroScholar y para que no se describen con más detalle aquí.

Por último, tras la finalización de este proceso de captura de conocimientos a partir de fragmentos, el usuario puede insertar una nueva "-la localización del tracto-experimento" en el sistema. Esto se logra mediante la introducción de la "inserción" para el estado "-la localización del tracto-experimento opinión (ver Fig. 5]. Normalmente, el usuario se presenta una forma vacía para ser rellenado, pero con puntos de vista apoyado por el conocimiento del sistema de captura, el usuario se le pide que seleccione un nombre de una lista desplegable de experimentos capturados. Cuando el usuario selecciona uno, el sistema de encuestas de todo el sistema para cuantas datos capturados que están asociadas con el nombre seleccionado experimento. El sistema recopila estos datos en una vista única instancia y, a continuación, añade que en el sistema. Además, el sistema de inserciones' apoya 'las relaciones entre este punto de vista y todos los fragmentos que contienen los datos de captura (ver Fig. 6]. Para garantizar la concurrencia, todo este proceso debe repetirse cada vez que alguno de los fragmentos que contribuyan al experimento son editadas o eliminadas. La estructura final del formulario para nuestro ejemplo en este documento se muestra en la Fig. 9. Este diseño refleja las características más importantes de los datos relativos a cada aspecto de la vista, así como los detalles que no siempre se presentan en la descripción textual se encuentra en la literatura (como la topografía del etiquetado), pero, sin embargo, son importantes para incluir en la final KR.

Discusión

Un paso clave para la construcción de bases de conocimiento para los sistemas a nivel de datos biomédicas es la adquisición de información de la literatura. En la actualidad hay tres enfoques que son soluciones viables para este problema: (1) curación de un pequeño equipo de especialistas; (2) con base en la comunidad de curación, o (3) extracción de información utilizando Procesamiento del Lenguaje Natural (NLP). La elección de estos enfoques radica entre la exactitud, fiabilidad y escalabilidad, en última instancia, buscamos un enfoque que ofrece una información exacta, completa y relevante conjunto de hechos para buscar un determinado dominio de la ciencia. Un compromiso que omite uno de estos tres factores podrían comprometer gravemente la utilidad y el impacto científico del sistema. En el presente trabajo se describe el software que proporciona apoyo para los tres criterios antes mencionados. El conocimiento de captura componente apoya directamente tanto curación de especialistas y la comunidad (desde la herramienta es de libre distribución y descarga). Es importante destacar que el enfoque de los vínculos de los datos capturados en el texto que las define y el contexto de ese texto en un artículo de revista. Esto es ideal la formación de los datos' para la extracción de información estadística usando PNL, ya que proporcionan ejemplos de corregir los datos asociados con fragmentos específicos (ver [44] para una revisión reciente de la minería de texto en Biología y Biomedicina).

En última instancia, la adquisición de conocimientos en biomedicina debe contribuir a gran escala, soluciones globales que podrán ser utilizados por toda la comunidad. Hay varias estrategias que podrían lograrlo. (A) En el proyecto del genoma humano, adquisición de datos está vinculada directamente con el proceso de publicación. Con el fin de publicar documentos, los autores están obligados a cargar los datos genéticos a los bancos de datos compartidos. Los editores podrían exigir que los datos normalizados ser subidos a servidores centralizados, siempre que sea posible, como condición para su publicación; (B) Weblogs ( 'blogs') y compartida con base en la comunidad comunidades en línea (' wikis') proporcionar un medio para que los usuarios publican sus interpretaciones en línea. Es posible que los científicos podrían utilizar esta metodología para enviar comentarios e interpretaciones de la obra publicada. (C) Centro de bases de datos para el conocimiento de un tipo específico (como las vías de localización de datos), lo que los usuarios pueden subir su información. (D) Por último, la estrategia que sugiero es que los usuarios realizar tareas de adquisición de conocimientos en una pequeña escala como parte de su vida cotidiana estudio de la literatura.

Todos en gran escala centralizada enfoques para este campo son confundidos por la complejidad y la heterogeneidad de las necesidades de los usuarios y de las representaciones elegidas para servir a ellos. El proceso de elaboración de un "estándar" para la representación de cualquier persona de dominio de la biología es una gran empresa. El concepto de «mínimo de información requerida» es utilizado por la Microarray Gene Expression sociedad de Datos (MGED, [45, 46]] en sus representaciones computacionales de microarrays ( 'MIAME') e in situ hibridación ( 'MISFISHIE') de datos. Se trata de representaciones oficiales que MGED está promoviendo como estándar de plantillas para permitir y fomentar el uso compartido de datos entre los sistemas [47]. El concepto de "información mínima requerida 'depende en gran medida de la tarea que la información sería utilizada para. El proceso de definición estándar para las clases de representaciones de los resultados experimentales deberían incluir también una cuenta de la finalidad de la representación. El esquema que describimos podría considerarse la información mínima de un tramo de localización de experimento para describir el inicio y final de puntos de conexiones neuronales correctamente. Cabe señalar sin embargo, que esta representación no se describen explícitamente los detalles del método experimental.

El potencial de nuestro enfoque es que el acto de comprender los datos en la literatura suficientemente bien para poder colocarla en una representación computacional es realizado en repetidas ocasiones por los científicos todo el tiempo en el curso de su trabajo. Si alguna ventaja puede ser proporcionada a ellos por entrar en su comprensión de los datos en una base de datos computacional, la tasa de paso de determinar el proceso de curación sería resuelto. Este documento proporciona una herramienta que toma un paso hacia este objetivo.

Sin duda, esta perspectiva plantea importantes cuestiones: si nuestro enfoque se basa en muchos expertos describir el texto encontrado en la literatura, ¿cómo podemos asegurar la interoperabilidad anotador acuerdo? Esto es abordado en el ámbito de la biomedicina Procesamiento del Lenguaje Natural ya que la mayoría de máquina-enfoques de aprendizaje de uso manual de texto anotado como su estándar de oro (ver [48]]. La mejora de acuerdo a la investigación PNL se basa en la prestación de atención por escrito para annotators directrices a seguir. Fuera de este enfoque estructurado, si el uso del sistema se convierte en generalizada con un gran número de diferentes annotators trabajando en el mismo texto, tendríamos acceso a los datos estadísticos que podría abordar esta cuestión.

Herramienta de desarrollo de unidades de pequeña escala, basados en la comunidad las soluciones y el desarrollo de la ontología Protégé herramienta de construcción [49, 50] en el transcurso de los últimos diecinueve años es una historia de éxito [51]. Protégé tiene un gran grupo de usuarios que ahora contribuye a la tecnología central del Centro Nacional de Ontología Biomédicas (NCBO) bajo el Profesor Mark Musen. Curiosamente, Protégé actualmente no aplicar métodos para vincular la literatura de investigación directamente al concepto y definiciones casos. Teniendo en cuenta que uno de la actual debilidad de NeuroScholar es la falta de integración con formatos estándar, tales como OWL, sería una evolución natural para uso NeuroScholar conocimiento del mecanismo de captura para generar Protégé basada en ontologías. Teniendo en cuenta que ambos son paquetes de software de código abierto y ponerse en práctica en el lenguaje de programación Java, por ejemplo, un esfuerzo de desarrollo sería relativamente sencillo y de utilidad inmediata.

Otros proyectos de interés para nuestros actuales esfuerzos incluyen la Neurocommons proyecto [52], que aboga por un "contenido abierto" agenda para el neuroscientific conocimientos en un enfoque basado en la comunidad. La Informática Biomédica Research Network (BIRN), ha sido muy activa en el desarrollo de la tecnología de mediador para que la integración y el intercambio de datos de la investigación [53, 54], junto con la ontología enfoques basados en mapas a las enfermedades [55].

En lugar de actuar como fácilmente modificables KR-marco que apoya y otros inferencia lógica basada en funciones, este sistema sirve principalmente como una instancia repositorio. La encapsulación mecanismo utilizado para definir los puntos de vista en VPDMf difiere de KRS basado en la lógica ya que cada opinión contiene muchas clases y atributos (incluidos los datos orientado a las estructuras como objetos binarios) para una sola entidad. Esto forma la base de un «híbrido KR", donde los conceptos que normalmente se representa en KR sistemas de un solo término (por ejemplo, una región del cerebro), puede ser enriquecida con datos contextuales (como las regiones trazado en un atlas del cerebro). KA planteamientos han sido estudiados en el contexto de la lógica basada en los sistemas de KR, utilizando sistemas como el telar para sus representaciones internas [56]. Estos sistemas se han vuelto muy sofisticados para tareas como la planificación de itinerario y puede servir como base para el predicado de la lógica basada en la adquisición de conocimientos en la biología [57].

El marco CommonKADS es un ejemplo de un enfoque de conocimiento de ingeniería que ofrece un práctico conjunto de directrices como una estructura útil para el desarrollo de conocimientos para soluciones de ingeniería específicas basadas en el conocimiento tareas [58]. Al igual que nuestro sistema, CommonKADS usa el UML como lenguaje fundacional. El propósito de este trabajo es contribuir a la comunidad tanto el software como un producto terminado sino también las bibliotecas, código fuente, especificaciones, dibujos y modelos que podrían permitir a los programadores de otros proyectos para llevar a cabo un trabajo similar. A nuestro juicio, de código abierto de programación como un componente esencial de este tipo de investigación aplicada informática y exhortamos a nuestros colegas no sólo publicar sus algoritmos, sino también su código fuente, documentación, diseño y datos también.

Conclusión

Dentro de este sistema, que proporcionan una interfaz de adquisición de conocimientos para la curación de datos basada en la anotación de la principal bibliografía de investigación. Se proporciona un ejemplo de la interfaz de uso cura a una base de conocimientos de los datos relativos a la localización del tracto-neuroanatomical experimentos. Esperamos que este software permitirá a científicos biomédicos para la construcción en pequeña escala las bases de conocimientos de los datos pertinentes a su propio personal de investigación cuestiones que podrían ser perfectamente accesible por la comunidad en su conjunto.

Disponibilidad y requisitos

Nombre del proyecto: NeuroScholar

Sistema operativo (s): Windows, Mac OS X, Linux

Lenguaje de programación: Java

Otros requisitos: Java 1,4

Licencia: versión ligeramente modificada de la GNU GPL (de la Universidad del Sur de California)

Todas las restricciones al uso de no-académicos: No hay restricciones

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

GAPCB CMI y escribió el documento. GAPCB CMI y diseñado, construido y probado el sistema NeuroScholar. El Fragmenter y el conocimiento del subsistema de captura fueron totalmente diseñado y programado por el CMI. Los datos preliminares presentados en este documento se inscribió en el sistema de GAPCB.

Agradecimientos

Damos las gracias a los miembros de la Watts y Swanson laboratorio para su entusiasmo, ideas y comentarios valiosos, sobre todo Arshad Khan que ha contribuido en gran medida a los científicos el diseño y la visión de la NeuroScholar proyecto en su conjunto. Estamos, además, en deuda con desarrolladores de Código Abierto que han aportado su código fuente y las bibliotecas de nuestro software. En particular, damos las gracias a Tom Phelps multivalentes para el sistema, a Informatiq.com espacial para la indexación de sus bibliotecas, y Alex Shapiro TouchGraph para la interfaz. Estamos continuamente gracias al personal de SourceForge por su incansable apoyo a open-source de programación en general y para el apoyo específico que nos han proporcionado en los últimos años.