PLoS Computational Biology, 2005; 1(1): (más artículos en esta revista)

Extracción de transcripción diversidad de la literatura científica

Biblioteca Pública de la Ciencia
Parantu Shah K [1], Lars Jensen J [1], Stéphanie Boué [1], Peer Bork [1]
[1] Estructurales y el Programa de Biología Computacional, Laboratorio Europeo de Biología Molecular, Heidelberg, Alemania
[2] Centro Max Delbrück de Medicina Molecular de Berlín-Buch, Alemania
Resumen

Transcripción diversidad generada por splicing alternativo y de los correspondientes mecanismos contribuye en gran medida a la complejidad funcional de los sistemas biológicos. Los numerosos ejemplos de los mecanismos y las consecuencias funcionales de estos eventos se encuentran dispersas en la literatura científica. Por lo tanto, es fundamental disponer de una herramienta que puede extraer automáticamente los hechos pertinentes y su recopilación en una base de conocimientos que pueden ayudar a la interpretación de los datos de alto rendimiento métodos. Hemos desarrollado y aplicado un texto de minas método para extraer información sobre la diversidad transcripción de la totalidad de la base de datos MEDLINE, a fin de crear una base de datos de los genes con otras transcripciones. Contiene información sobre la especificidad tisular, número de isoformas, mecanismos causales, consecuencias funcionales, y los métodos experimentales utilizados para la detección. Hemos extraído este recurso para identificar 959 casos de tejido-específico de empalme. Nuestros resultados en combinación con los de los métodos basados EST sugieren que splicing alternativo es el mecanismo preferido para la generación de diversidad transcripción en el sistema nervioso. Ofrecemos nuevas anotaciones para 1860 genes con potencial para la generación de transcripción diversidad. Asignamos el término MeSH "splicing alternativo" 1536 adicionales a los resúmenes en la base de datos MEDLINE y sugerir nuevos términos MeSH para otros eventos. Hemos extraído información acerca de la diversidad y la transcripción semiautomatically generó una base de datos, LAST, que pueden proporcionar una comprensión cuantitativa de los mecanismos detrás de los tejidos específicos de la expresión génica. ÚLTIMA (Literatura Apoyo a la Variante de transcripciones) esté disponible al público en Http://www.bork.embl.de/LSAT/ .

Introducción

Aunque muchos organismos modelo ya han sido secuenciados completamente, todavía estamos muy lejos de la comprensión de la función celular secuencia del genoma. Un factor que complica la situación es la expresión de múltiples alternativas mRNA transcripciones de un solo gen utilizando diferentes mecanismos. Alternativas promotores que trabajan en diferentes tejidos o en distintas etapas de desarrollo a menudo la expresión de las distintas isoformas del mRNA, ya sea directamente a través de diferentes sitios de inicio de transcripción o indirectamente-dirigido por el promotor exón inclusión en concierto con splicing alternativo (AS) [1]. Diversos mecanismos son conocidos como: alternativa 5 'o 3' sitios puede resultar en exones de diferente tamaño, exones pueden ser incluidos o salta, o todo un intrón se podrá mantener [2 - 5]. Polyadenylation Alternativo (PA), ya sea solo o junto con AS de 3 'terminal exones, también puede generar transcripción que se isoformas tejido-o etapas de desarrollo específicas [6].

Generación de alternativas múltiples transcripciones es importante para la complejidad y la evolución de los organismos eucarióticos [5, 7 - 9]. Además, su expresión espacial y temporal de los patrones se cree que uno de los factores importantes detrás de la especificidad funcional de los diferentes tejidos y órganos. Además, los defectos en estos procesos están asociados a diversas enfermedades [2]. Así, la elaboración de un catálogo exhaustivo de las alternativas transcripciones es una tarea crucial para comprender la complejidad de eucariotas [7].

En la actualidad, los experimentos de alto rendimiento y análisis computacional dominar el trazado de mapas de la alternativa transcripción universo [10, 11]. Sin embargo, la calidad y el significado biológico de estas asignaciones deben ser evaluadas en contra de un punto de referencia muy fiable conjunto, que puede ser extraído de un único gen estudios publicados en la literatura científica [3, 12, 13]. Además, herramientas computacionales para explorar la conservación evolutiva de los mecanismos que generan la diversidad transcripción (TD) están en desarrollo [14], que también requieren un imperio digno de confianza fijado para el aprendizaje.

Manual de la preservación del material biológico determinado experimentalmente eventos (interacciones físicas, AS, fenotipos de la enfermedad, etc) para generar las bases de conocimientos dignos de confianza es lenta en comparación con el rápido aumento en el cuerpo de conocimiento representado en la literatura. Herramientas de procesamiento de lenguaje natural por lo tanto, desempeñan un papel cada vez más importante en la transferencia de información del libre-forma biomédicas a texto estructurado las bases de datos (ver comentarios [15 - 18]]. Esta tarea puede dividirse en dos pasos: (1) un subconjunto de los documentos que describen los eventos o escenarios de interés se identifica (recuperación de la información [IR]), y (2) los hechos se extraen de estos documentos depositados y estructurado en ámbitos (información Extracción [IE]).

IR se puede realizar a nivel de artículos completos, párrafos pertinentes, o de las sentencias. Como actual IE métodos funcionan a nivel de la frase, puede ser adecuado realizar IR en el mismo nivel. Apoyo de las máquinas de vectores se han convertido en el método de elección para las tareas de infrarrojos debido a su capacidad de aprender y generalizar así los patrones mientras la manipulación de grandes conjuntos de características de entrada, un atributo común de los datos de texto [19 - 21]. La mayoría de los sistemas de uso de IE normas escritas por el dominio de los expertos para extraer datos sobre eventos o escenarios de interés. El desempeño de la mayoría de los sistemas basados en el artículo sufre por el hecho de que cualquier evento o situación puede ser escrito en una de las muchas maneras sintácticamente correctos. Así, un sistema de extracción basado sólo en los patrones sintácticos sería necesario hacer una recopilación exhaustiva de las normas con el fin de cubrir todas las posibles pautas. El problema que plantean las múltiples patrones sintácticos se pueden resolver mediante la fusión de múltiples patrones sintácticos a un único patrón semántico por predicado-argumento de las estructuras [22 - 24]. Predicado-argumento de estructuras y máquinas de vectores de soporte (SVMs) se están volviendo frecuentes en el procesamiento del lenguaje natural y se cree que lograr un buen recuerdo y precisión, sino que se pusieron a prueba aquí para su aplicabilidad a la literatura biomédica.

Aquí presentamos el punto de referencia y de los resultados de un nuevo procedimiento de extracción que combina un clasificador SVM con la regla basada en la extracción de los patrones semánticos. Obtuvieron los conocimientos sobre la TD fue almacenada en una base de datos y, posteriormente, utilizado para cuantificar la cantidad de TD en los distintos tejidos. Se discuten las aplicaciones de nuestro trabajo para la asignación de términos MeSH (de la Biblioteca Nacional de Medicina del tesauro Medical Subject Headings), que prevé funcional anotaciones a los genes y en la transcripción variantes generadas por métodos computacionales.

Resultados y Discusión
Estrategia global y generación de la base de datos

Para obtener información acerca de TD y la información asociada spatiotemporal dispersos por MEDLINE, realizamos un procedimiento de dos etapas (Figura 1]. En el primer paso, las sentencias que contienen información TD se identificaron dentro de los documentos de los resúmenes. Para ello, y con el fin de superar el problema de los patrones sintácticos, que tan clasificador SVM para la tarea de clasificación de oración por la máquina de aprendizaje inductivo [25] sobre una anotada corpus [19 - 21]. A continuación, el procesado toda la base de datos MEDLINE y frases que describen TD identificado dentro de esos resúmenes. En el segundo paso, las sentencias fueron analizadas y las frases de la palabra se les asignó diferentes significativa (semántica) categorías (véase Materiales y Métodos].

Por último, estudiamos cada resumen con información sobre otro tipo de transcripciones (recuperado por el clasificador SVM) para las entradas de Swiss-Prot [26], RefSeq [27], [28] GenBank, y Ensembl [29] bases de datos, siempre que sea posible. Esto no sólo proporciona información de la secuencia del genoma, transcripción, y el nivel de proteína de los genes descritos en los resúmenes, pero también nos permitió el acceso estructurales y funcionales de información acerca de estos genes almacenados en diversas bases de datos de secuencias. Toda esta información obtenida de cada MEDLINE entrada constituye una entrada en ÚLTIMO (Figura S1].

Se identificaron ocho diferentes categorías semánticas que describe biológicamente datos pertinentes en la descripción de las penas TD, entre los que se caso mecanismo, de las especies, la especificidad tisular, y los métodos experimentales (Tabla 1; ver Materiales y Métodos]. En total se extrajeron los 9503 casos de evento ya que muchos de los mecanismos de resúmenes (Tabla S1] y 5028 casos de los tejidos (cuadro S2] de genes asociados con nombres. En general, la base de datos contiene 3063, 874, y 207 casos de nonredundant AS, promotor del uso diferencial (DP), y AP asociados a los genes y tejidos extraídos por entidad taggers.

La ejecución de la sentencia para el clasificador SVM Recuperación

Nuestro clasificador SVM recuperados putativo TD-31123 que contiene frases de la base de datos MEDLINE (12948515 resúmenes). Después de los falsos positivos fueron retirados por manual de conservación, 20549 TD-13892 que contiene las sentencias en los resúmenes fueron izquierda, que corresponde a una precisión de 66%. Los detalles sobre el conjunto de formación y capacitación SVM procedimiento se describen en Materiales y Métodos y Protocolo S1.

Se determinó la revocación de la clasificación utilizando manualmente comisariada AS anotaciones de MEDLINE y Swiss-Prot para anotaciones en humanos, de ratón, rata, y Drosophila. Todas las entradas MEDLINE de 2004 anotado con el término MeSH "splicing alternativo" y la descripción de la generación natural de transcripción (véase Materiales y Métodos] fueron comparados con nuestros resultados. Para cada una de estas cuatro especies, también se analizaron los resultados en MEDLINE entradas a que se refiere el Swiss-Prot entradas anotado con la palabra clave "splicing alternativo" [26]. La sensibilidad media de la clasificación fue de 61% (Cuadro 2; ver Materiales y Métodos]. La SVM clasificadores de este modo lograr un buen recuerdo y precisión y puede ser utilizado para la extracción de los eventos biológicos.

Rendimiento de la IE Paso

De las sentencias recuperado por el clasificador SVM, hemos extraído los casos de ocho categorías semánticas (véase Materiales y Métodos] y evaluó la precisión y recordar manualmente seleccionado de forma aleatoria la inspección de 300 frases para cada categoría (véase el cuadro 1]. Ambos precisión y recordar son muy satisfactorios, sin embargo, cabe señalar que la precisión en la búsqueda de fronteras etiqueta no se consideró. También, el recordar es bueno para todas las categorías, pero no en todos los ocho grupos están representados por igual en las penas (ver Tabla 1].

Proponer nuevas anotaciones en comisariada bases de datos

Annotators en la Biblioteca Nacional de Medicina han asignado manualmente el término MeSH "splicing alternativo" a los resúmenes 8133. Durante el IE paso, identificamos 1536 resúmenes adicionales que mencionar AS, pero falta el término MeSH "splicing alternativo", que corresponde a un 19% de aumento en la anotación. También se identificaron AD y AP en 874 y 219 resúmenes, respectivamente, para los que proponemos los nuevos términos MeSH "alternativa promotores" y "alternativa polyadenylation" (Cuadros S3 - S6].

También cuantifica el número de genes Ensembl para que podamos proponer nuevas anotaciones, AS (ver Materiales y Métodos]. La anotación aumento observado fue de 20%, 52%, y 105% para los humanos, de ratón, rata y genomas, respectivamente (Figura S2]. Estas asignaciones provisionales pueden complementar la labor de los conservadores, y los números pueden reflejar la extensión actual de manual para la curación de estos genomas diferentes. La anotación para el aumento de los genes humanos es relativamente poco en comparación a la de los genes de la rata, ya un total de 3438 genes son ya anotada en Swiss-Prot y RefSeq para AS en humanos, mientras que sólo 342 genes son anotado para AS, en la rata. Aún más anotaciones se pueden obtener por la curaduría extrajeron manualmente acontecimientos que no pueden ser asignadas automáticamente a una base de datos de secuencia de entrada; hemos mapeado manualmente 190 genes que exhiben tejidos específicos de empalme. El aumento observado en la anotación se hace hincapié en la necesidad de métodos automatizados para acelerar el proceso de curación de la base de datos.

La cuantificación de los diferentes mecanismos Esto conducirá a la TD

La mayoría de los vertebrados de múltiples genes exón someterse AS [10]. Además, puede controlar los diferentes promotores de la transcripción de ARNm diferentes isoformas, que puede dar lugar a dirigirse 5 'exón inclusión / exclusión, y las señales de AP puede controlar el tejido especificidad de la opción 3 de los exones. Aunque los ejemplos de sinergia entre estos mecanismos son conocidos, en la medida de que en la actualidad se están estudiando. Encontramos DP co-mencionó con AS en el 14% de los resúmenes que describen diferencial de los genes con los promotores. Un total de 19% de los resúmenes el suministro de información sobre el uso alternativo primera exón también mencionó el uso de los diferentes promotores. Un total de 17% de los resúmenes que describen AP mencionó también AS.

La medida en que se utilizan diversos mecanismos para aumentar la DT puede variar a través de los diferentes sistemas anatómicos. Para este estudio, estudiamos todos los tejidos vertebrados información anatómica a los sistemas que utilizan términos MeSH anatomía y contó el número de eventos nonredundant extrajeron de cada uno de los mecanismos en cada uno de los sistemas (Figura 2, panel superior). AS se utiliza por igual en la mayoría de los órganos, excepto en el sistema nervioso, donde AS es excesivamente significativa (Figura 2, panel inferior). Del mismo modo, existe un importante exceso de representación de la AD de los tejidos conectivos y, en menor medida, en el sistema digestivo y en los órganos genitales.

La información sobre el uso alternativo promotor vinculado con nombres específicos de genes y tejidos extraídos en este estudio es la mayor colección de este tipo disponible, a nuestro conocimiento. Esperamos que presentará un conjunto de datos fiable para el desarrollo de métodos computacionales para predecir promotor tejido-específico de uso.

Las diferencias específicas de tejido-en el Grado de AS

AS se ha demostrado que desempeñan un papel importante en la creación de la especialización funcional de los tejidos y las etapas de desarrollo [30, 31], pero sólo un pequeño número de casos de tejidos específicos se enumeran en el empalme de la actual AS bases de datos [32, 33]. Con una gran colección de alta calidad, como los acontecimientos en la mano, en tejidos específicos de las diferencias en AS debería ser visible. Se verificaron las entradas en nuestra base de datos que contiene el campo "especificidad". Se identificaron 959 eventos que describe la especificidad tisular en AS. Esta partida representa los eventos para AS 675 pares de tejidos y 284 eventos de los que sólo se informó de un tejido. Los resultados que figuran 400 nonredundant eventos para 183 genes humanos. También un nuevo mapeado 190 genes (no incluido) de diversas especies de Swiss-Prot identificadores durante el manual de curación.

Para estudiar el alcance de tejido-específico AS, estudiamos tejidos y órganos a los respectivos sistemas, tal como se describe en la sección anterior y planearon los resultados (Figura 3, panel izquierdo). El sistema nervioso, los genitales, y inmunológico, digestivo, y los sistemas musculoesquelético mostró especificidad en el tejido inter e intra-sistémico AS. Estos sistemas también mostró como única expresión de las transcripciones, con el sistema nervioso que muestra el mayor número de transcripciones única. Estos tejidos específicos de los patrones de expresión extraídos de la literatura firmemente la superposición con el 667 de tejidos específicos como los acontecimientos derivados de análisis de los datos de EST [33] de 454 genes humanos a través de 46 tejidos (Figura 3, panel derecho).

El conocimiento extraído de la literatura confirma EST basada en estudios [31, 33] y anteriores estudios experimentales [34] que mostró AS como el mecanismo preferido para la generación de TD en todo el sistema nervioso. EST estudios basados en [31] también han sugerido que los genes en el hígado (sistema digestivo) y testiculares (genitales) muestran distintos patrones de empalme de los exones alternativos. Nuestros resultados indican que estas transcripciones pueden mostrar estas diferentes modalidades de empalme en combinación con diferentes regiones promotoras. Esta conclusión parece plausible desde el AS de la primera es la influencia de los exones alternativos promotor regiones en al menos el 19% de los casos (véase más arriba, [35]], y se debe estudiar más a fondo.

Asignación de funciones a las transcripciones de creación de Análisis Computacional

A veces, los biólogos experimentales especular sobre el mecanismo responsable de las múltiples transcripciones observó con un número limitado de experimentos, pero las correspondientes transcripciones no son depositados en GenBank. Por ejemplo, los trabajos de Pisarra et al. [36] en humanos Dopachrome tautomerase describe dos transcripciones en melanocitos y los melanomas con un "diferentes carboxilo-terminal" generada, concluyendo que "dopachrome tautomerase pueden dar alternativas diferentes isoformas de poli (A), el uso del sitio o por splicing alternativo" (Figura 4] .

Por otra parte, diversos métodos, entre ellos los que se basan en la armonización de EST y otros datos de la secuencia genómica de las regiones, se encuentran actualmente en uso para la detección de AS en gran escala. La función de las isoformas de este modo es en gran medida desconocido [37], y estas transcripciones están mal anotado en la secuencia de bases de datos.

El uso de la mayor agrupación algoritmo [37] con datos de la secuencia genómica de Ensembl [38], y la transcripción de los datos UniGene [39] para los grupos de genes, hemos sido capaces de generar dos isoformas de transcripción Dopachrome tautomerase (Figura 4, abajo) se asemejan a los que Descrito por Pisarra et al. [36] y fueron capaces de detectar un caso como en el 3 'región. Por lo tanto, el uso de gran escala de métodos pueden proporcionar información detallada sobre los acontecimientos subyacentes, y la minería de texto proporcionaría anotaciones funcionales a la transcripción isoformas observó.

Conclusiones

Hemos extraído información acerca de los genes que expresan múltiples transcripciones y asociados spatiotemporal información utilizando el estado de la técnica en los métodos de procesamiento del lenguaje natural, y se utilizan para la función anotaciones. La información extraída, con mucho, superior a los esfuerzos actuales de curación manual y genera resultados fiables. Nuestros resultados indican que mecanismos como AS, AD, AP y trabajar en concierto para la generación y la regulación de la DT. También sugieren que el sistema nervioso se basa preferentemente en AS sobre otros mecanismos para expresar el mayor conjunto de tejidos específicos de las transcripciones. En contraste, los genitales y el aparato digestivo con mayor frecuencia hacen uso de otras regiones promotoras. Los conocimientos almacenados en la base de datos acerca de la sinergia y la preferencia por los sistemas de generación de TD a través de los tejidos se integrarán a los datos de alto rendimiento en el futuro. Más en general, IE de complejos procesos biológicos parece factible y también puede complementar de datos a gran escala en la generación de otras áreas para asignar la función.

Materiales y Métodos
Apoyo a la Información
Un ejemplo de base de datos de entrada
(1,7 MB TIF).
Distribución de los resultados de la IE Paso
(4,6 MB TIF).
Descripción de la Formación Set
(60 KB PDF).
Texto suplementario
(112 KB PDF).
Genes asociados y mecanismo de generación TD -
(423 KB TXT).
Los genes y tejidos
(120 KB TXT).
Los resúmenes que describen como
(445 KB XLS).
Resúmenes en la descripción de los promotores de la Variante
(76 KB XLS).
Resúmenes en la descripción de inicio alternativa
(20 KB XLS).
Resúmenes describir AP
(29 KB XLS).

Los autores desean agradecer a Xing Yi y el doctor Christopher Lee de proporcionar el código de SPLICE-POA y la isoforma algoritmo de generación.