BMC Bioinformatics, 2005; 6: 103-103 (más artículos en esta revista)

El uso de co-ocurrencia estructura de la red para extraer sinónimo de genes y proteínas nombres de los resúmenes de MEDLINE

BioMed Central
Cohen AM (cohenaa@ohsu.edu) [1], WR Hersh (hersh@ohsu.edu) [1], C Dubay (dubayc@ohsu.edu) [1], K Spackman (spackman@ohsu.edu) [1 ]
[1] Departamento de Informática Médica y Epidemiología Clínica Facultad de Medicina de la Oregon Health & Science University 3181 SW Sam Jackson Park Road, Mail Code: BICC Portland, Oregon, 97239-3098, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Texto de la minería pueden ayudar a los investigadores biomédicos en la reducción de la sobrecarga de información mediante la extracción de conocimiento útil de las grandes colecciones de texto. Hemos desarrollado un novedoso método de minería de texto basado en el análisis de la estructura de la red creada por el símbolo co-ocurrencias como una forma de extender la capacidad de extracción de conocimientos. El método se aplicó a la tarea de automática de genes y proteínas nombre sinónimo de extracción.

Resultados

Se midió el rendimiento en una prueba que consta de cerca de 50000 resúmenes de un año a partir de MEDLINE. Sinónimos comisariada recuperados de las bases de datos genómica se utiliza como estándar de oro. El sistema obtuvo una máxima F-Resultado de 22,21% (23,18% y 21,36% de precisión recordar), con una alta eficiencia en la utilización de semillas de pares.

Conclusión

El método realiza estudiado comparativamente con otros métodos, no se basa en una sofisticada nombre de la entidad el reconocimiento, y requiere poco conocimiento inicial de las semillas.

Antecedentes

El volumen de la investigación biomédica publicado, y, por tanto, la base de conocimientos biomédicos subyacentes, sigue creciendo. La base de datos MEDLINE 2004 crece actualmente a una tasa de alrededor de 500000 nuevas citas cada año [1]. Con ese crecimiento, el desafío es mantenerse al día con todos los nuevos descubrimientos y teorías, incluso dentro del propio campo de la investigación. Los métodos deben ser establecidos para ayudar a los investigadores biomédicos en hacer un mejor uso de la investigación existente y ayudarles a poner en práctica los nuevos descubrimientos uso [2].

Texto minería y la extracción de conocimiento son los medios de ayuda en la identificación de los investigadores biomédicos importantes conexiones dentro de la información en la base de conocimientos biomédicos. Un subconjunto de procesamiento del lenguaje natural (NLP), el texto de la minería y la extracción del conocimiento concentrarse en la solución de un problema concreto en un determinado dominio identificados a priori. Por ejemplo, la literatura puede ser la búsqueda por la mejora de la identificación de todos los nombres y símbolos utilizados en la literatura para identificar un gen [3], o potencial de los nuevos tratamientos para la migraña puede ser determinada por buscando sustancias farmacológicas que regulan los procesos biológicos asociados a la migraña [4, 5].

Similar a la extracción de siglas y abreviaturas, que ha sido estudiado por varios grupos [6 - 8], el problema de genes y proteínas nombre sinonimia es la que se pueden abordar con la ayuda de la minería de texto. Muchos de los genes y las proteínas tienen múltiples nombres con varias variantes ortográficas y léxicas. Gene nombres a menudo no se utilizan de forma sistemática, y los nuevos nombres seguirán creando [9, 10]. Muchos de los atributos de un gen, como sus fenotipos y polimorfismos, puede dar lugar a que sea dado varios nombres a través del tiempo. Además, los genes pueden tener nombres que más tarde se retractó cuando se dispone de nueva información [11].

Si bien las bases de datos de nombres de genes existentes, que tienen varias limitaciones. Gene nombre de las bases de datos como FlyBase [12] y Genew [13] se limitan a una sola especie (moscas de la fruta y los seres humanos, respectivamente). LocusLink incluye los nombres de los genes y de varias especies, pero no pretende incluir todos los nombres, los símbolos, y las variaciones léxicas que se refieren a un gen. Genew La base de datos fue creada por la Organización del Genoma Humano a los fines de establecer un conjunto de singular aprobado gen nombres y los símbolos de cada gen en el genoma humano [14]. Sin embargo, Genew se centra en la creación de la serie de genes recomienda el uso de nombres en la escritura biomédica. No es la intención de ser una colección completa de los genes en realidad los nombres y los símbolos utilizados en la literatura biomédica [15].

Dado que el gen nombres y los símbolos utilizados en un artículo de revista se fijan una vez publicado, después de la corrección inadecuada nombres no afecta a la literatura publicada con anterioridad. Por lo tanto, el espacio de nombres que representan a un gen pueden llegar a ser bastante grande entre el momento en que un gen es la primera sospecha, y cuando es bien estudiado y tiene un nombre universalmente acordado. Además, los nombres de genes y proteínas se superponen. A menudo son utilizados en lugar de unos a otros dentro de la literatura, con la intención de genes o proteínas depende de contexto. Al realizar una revisión de la literatura, es útil tanto para buscar nombres de genes y proteínas simultáneamente [9]. Por lo tanto, en este trabajo no se hace distinción entre nombres de los genes y los nombres de las proteínas para las que codifican.

Genera automáticamente una lista de sinónimos que sería una útil ayuda en la búsqueda de la literatura biomédica. Estos podrían ser utilizados para mejorar la recuperación de la genómica de los investigadores tratan de encontrar todos conocida la información sobre un gen o una proteína, independientemente del nombre o nombres utilizados en un artículo específico, a pesar de una disminución de la precisión puede resultar en el caso de que algunos de los símbolos Son compartidos por múltiples genes. Genera automáticamente una lista de sinónimos nombre también sería útil para la futura labor sobre la extracción de la información genómica de otras fuentes textuales [16]. Para hacer un uso eficiente de los datos disponibles, cuando la minería de la literatura biomédica de las relaciones, es importante reconocer nombres diferentes para los mismos conceptos y el tratamiento de estos como un solo concepto [17].

La idea básica de nombre es sinónimo de extracción para extraer automáticamente sinónimo nombres para un determinado concepto de texto en lenguaje natural. En este caso, el objetivo es extraer los nombres y símbolos referentes a un individuo gen de MEDLINE resúmenes. Hay un importante trabajo previo en este campo, hecho en los últimos cinco años por Yu y Agichtein. Yu [18] primero trabajó en la extracción de genes nombre sinónimo con un sistema que extrae el nombre de genes sinónimos manualmente sobre la base de las pautas señaladas en el que el nombre de genes sinónimos comúnmente ocurren. Dominio de expertos para identificar patrones comunes. Yu et al. Calcula la precisión de su sistema a ser aproximadamente el 71%. Recordatorio de las mediciones no fueron publicados.

Yu y Agichtein [3] entonces trabajaron juntos para combinar varios genes y proteínas nombre sinónimo texto de minas enfoques. Su mejor sistema único, un patrón basado en el sistema llamado Raul_Barranquilla, Brin se basó en el Plan de Expansión de doble iterativa (DIPRE) para el sistema de la web [19], que previamente había sido adaptado para la extracción de las relaciones de las grandes colecciones de textos [20]. Un pequeño conjunto de los hechos conocidos inicialmente se usa para encontrar las pautas en la que estos hechos se producen dentro de un gran corpus. A continuación, estos patrones se utilizaron para extraer más hechos, que a su vez fueron utilizados para encontrar más patrones.

Yu y Agichtein combinado cuatro enfoques, incluyendo Raul_Barranquilla, y GPE, un sistema basado en la explotación intensiva del trabajo manual creado las pautas y reglas heurísticas, en un único sistema, por el sistema general de informática de confianza en cada par de sinónimos. La medida de la confianza general de la combinada de los sistemas se define como uno menos la probabilidad de que todos los otros sistemas son incorrectos, que es el producto de uno menos cada uno de confidencias. Descubrieron que el enfoque combinado funcionó mejor de lo que cualquier individuo, produciendo una retirada de alrededor del 80% con una precisión de alrededor del 9%.

Automática de genes y proteínas sinónimo de extracción de los sistemas no han sido puestas en uso general, tal vez porque el actual nivel de rendimiento no es suficiente para muchos propósitos. Por lo tanto, es importante investigar enfoques alternativos y complementarios. Además, desde la principal labor en este ámbito se ha llevado a cabo por un único grupo de investigadores, es esencial que otros investigadores investigar este problema para verificar la reproducibilidad de los resultados.

Resultados

Atletismo nuestro sistema de recogida de la prueba para el 9 de iteraciones tomó aproximadamente 14,5 horas en un 1,7 GHz Pentium 4 con 512 M de RAM. Rápida de prototipos para el sistema fue implementado en Python, un lenguaje interpretado. Se espera que la recodificación en un lenguaje compilado podría reducir considerablemente el tiempo de ejecución.

El experimento produce dos tipos de resultados: medidas de la ejecución y análisis de errores. Las medidas de la ejecución resumir la calidad de la información extraída. Error de análisis da una idea de los puntos fuertes y débiles del enfoque.

Medidas de la ejecución

El rendimiento del sistema se midió con la precisión, la memoria, y en F-Resultado de la extrajeron conjunto de pares de sinónimos, así como el número absoluto y relativo de los pares correctos extraídos, acumulativos para cada iteración. La precisión se define como el número de pares correctos, dividido por el número de pares extraídos. Recall se define como el número de parejas que se extrajeron también presente en la regla de oro de recordar, dividido por el número de pares en la regla de oro de recordar. F-El resultado es la media armónica de precisión y recordar, que se define como la precisión * 2 * recordar / (precisión + recordar) [9].

La figura 1 muestra la precisión frente a recordar extraídos de la sinónimo pares, a partir de la primera iteración de la izquierda-la mayoría de punto y continuar a la 25 iteración a la derecha-el punto más. En el gráfico que incluye parcelas de los dos pares FOUND (sinónimo pares explícitamente en el texto encontrado por los patrones), así como de deducirse ENCONTRADO más sinónimos (pares inferirse algoritmo de recorrido de la gráfica). La primera iteración logrado una precisión de alrededor de 25,0%, en una retirada de alrededor de 6,2%. Precisión disminuye y aumenta recordar monotonically prácticamente durante los 24 siguientes iteraciones a una excelente recuperación de alrededor de 27,3%, y una precisión baja de 5,9%.

Figura 2 se presenta el F-puntos en cada iteración, y de nuevo el gráfico incluye dos parcelas de ENCONTRADO sinónimos, así como ENCONTRADO + deducirse. El máximo F-Resultado de 18,35% para ENCONTRADO + deducirse ocurre a iteración 9 (precisión de 16,18%, 21,33% recordar), gradualmente disminuyen durante posteriores iteraciones. El uso de la inferencia no perjudicar enormemente el algoritmo general de la precisión (medida por el F-score) iteración hasta aproximadamente las 15.

El número absoluto de corregir pares extraído se presenta en la figura 3. La inclusión de pares identificados con la inferencia de la red la capacidad de consumo de más pares que no usar la capacidad de inferencia. En la F-máxima puntuación el sistema utilizando ENCONTRADO + deducirse sinónimos extrajeron 539 correcto sinónimo pares, incluyendo sólo los pares dado ENCONTRADO 479 pares de sinónimos. Aproximadamente el 10% (12,5% en la iteración 9) extrajeron diferencia de pares es bastante uniforme en todas las iteraciones después de la primera iteración.

Figura 4 se comparan los resultados de nuestro sistema con los de Yu y la Agichtein Raul_Barranquilla (su mejor modelo automatizado enfoque basado) y combinada (su mejor enfoque global) sistemas, interpolados de los gráficos publicados. La máxima puntuación de F-hemos obtenido es comparable con la de Raul_Barranquilla (16,77%, el 52% de precisión, recordar el 10%), pero inferior a la del sistema combinado (30,24%, el 62% de precisión, recordar el 20%). El sistema combinado de Yu y Agichtein había un rendimiento superior a cualquier otro método.

Otra medida útil del rendimiento del sistema es la cantidad de conocimientos extraídos por unidad de ejemplo, el conocimiento de entrada al sistema. Esto puede ser interpretado como una medida de la eficiencia con el algoritmo utiliza la semilla de datos. Figura 5 compara el número de pares a corregir extrajeron el número de semillas utilizadas por nuestro sistema y los de Yu y Agichtein. Los resultados se muestran en el punto de máxima F-score con el fin de proporcionar una comparación coherente. Nuestro sistema utiliza 8 pares de semillas, y 539 pares de sinónimos correcta se extrajeron. El Raul_Barranquilla combinada y sistemas utilizados 650 pares de semillas y obtuvieron 700 y 950 pares respectivamente sinónimo correcto. El número de pares correcta dividido entre el número de semillas utilizadas da una proporción de 67,38 por nuestro método, con los otros sistemas que tienen mucho menor ratio de 1,08 y 1,46 respectivamente. El Raul_Barranquilla y sistemas combinados pueden no tener realmente necesarios todos los 650 pares de semillas dado como entrada. Sin embargo, el máximo rendimiento de estos sistemas se ha logrado después de sólo dos repeticiones, lo que significa que el gran número de semillas tuvo una considerable influencia en los resultados informados. La profundización del estudio de la Raul_Barranquilla y sistemas combinados que se necesita es determinar cuántos pares de semillas se necesitan realmente.

Error de análisis

Dos tipos de errores se estudiaron los errores de precisión y errores de memoria. Errores en la precisión cuando el algoritmo extraído símbolo pares, que más adelante se no verificado como sinónimos por la precisión conjunto de datos estándar de oro. Estos son los falsos positivos. Recordatorio de los errores se produjo cuando el algoritmo no extracto símbolo pares presentes en el recuerdo conjunto de datos estándar de oro. Estos son falsos negativos. Los errores fueron estudiados en el punto de máxima F-Resultado, iteración 9.

Discusión

Nuestros resultados demuestran que este método de comparación a otros métodos automatizados de extracción y de sinónimos es un enfoque útil para el conocimiento general de extracción. El método es muy eficiente en su uso de las semillas pares. Esto puede ser una ventaja en situaciones en las que un gran número de pares de semillas son caros o difíciles de cobrar.

Durante la capacitación, se determinó que con ocho pares de semillas inicial era adecuado. Se observó que el rendimiento fue bastante estable para diferentes números inicial de las semillas pares entre el 8 y el 32. Esto sugiere que una primera "masa crítica" de las semillas pares era necesario para que el proceso iniciado. Más allá de la crítica número, el algoritmo más común encontrar automáticamente las semillas. La inclusión de nuevos pares como sinónimo común de las semillas simplemente dio confianza alta como entrada pares que el algoritmo puede encontrar por sus propios medios.

Optimización de la estructura de red basada en la calidad métrica de la red general de MCC / MNCC (véase la sección Métodos) ratio era una forma eficaz de recoger los mejores patrones de texto para la extracción de genes sinónimo par. El uso de la simbólica red de apoyo a la inferencia de pares sinónimo mejorado tanto el recuerdo, así como el número absoluto sinónimo de pares descubierto, de manera constante la búsqueda de aproximadamente un 10% más verificado pares. Si bien existe una cierta pérdida en la precisión de estas nuevas parejas, el costo fue modesto hasta bien pasado el pico de F-Resultado iteración. La capacidad de inferencia añadido a su utilidad como herramienta de descubrimiento de conocimientos, y ayudó a extraer sinónimo pares adicionales más allá de las que se encuentran estrictamente en el texto.

Una forma de mejorar el rendimiento del sistema sería reducir la muy común Biochemically por errores relacionados con el filtrado de los resultados para eliminar los pares de genes conocidos asociados. Existen varias bases de datos en línea de la relación de las redes de genes [24, 25], y la información de estas bases de datos podrían ser utilizados como evidencia de que los genes distintos y no sinónimos. Si bien es poco probable que este filtrado podría eliminar a todos los falsos positivos de esta gran fuente de error, la mejora es probable que sea importante.

Las frecuencias relativas de los dos tipos de errores de memoria presente pruebas de que una observación general sobre la base de patrones de texto relación de los sistemas de explotación minera. Dos tercios de los errores de memoria se deben a que el sistema no haber descubierto un patrón que concuerda no recuerda la pareja, y sólo una tercera parte de los errores se debieron a que el sistema de concordancia de haber encontrado un patrón, el rechazo se basa en la red métricas Criterios. El sistema actual utiliza un gran número de patrones muy específicos basados en el texto que rodea confianza alta símbolo pares de genes. El sistema utilizado Raul_Barranquilla pautas más flexibles, lo que permite "fuzzy" equiparación sobre la base de la importancia relativa de la palabra en un patrón. Los dos sistemas diferentes realizados de manera similar, que puede ser debido a alguna limitación inherente de la estructura enfoque basado en el descubrimiento de genes sinónimo relaciones. El contexto textual de interesantes relaciones biológicas pueden no ser lo suficientemente concreto para mejorar significativamente el rendimiento. Ciertamente, se necesita más trabajo en esta área antes de sacar conclusiones definitivas.

Dado que no existe una prueba estándar para la colección de genes símbolo sinónimo de extracción de la investigación y no absoluta estándar de oro para recordar, recordar la norma utilizada fue una aproximación. El método de recordar la construcción de un estándar utilizado en el presente trabajo facilitado la comparación con anteriores trabajos en el campo. Sin embargo, es por naturaleza un método de muestreo sesgado, y no caracterizar completamente la capacidad de recordar los conocimientos actuales de los sistemas de extracción en comparación con el manual de expertos.

El texto completo de recogida de pruebas utilizadas anteriormente por Yu y Agichtein no a disposición del público. Las principales limitaciones de nuestro estudio son la falta de una amplia difusión texto completo de prueba de recogida de tamaño adecuado y la imposibilidad de utilizar la misma prueba anterior colección como investigadores. MEDLINE resúmenes se utilizaron debido a que son abundantes y de fácil acceso. Aunque antes los investigadores han afirmado que los artículos completos son mejores fuentes de datos para la extracción de genes nombre sinónimos [18], es alentador encontrar que la aplicación de nuestro método sólo a los resúmenes artículo producido resultados comparables.

El desempeño del sistema actual es un tanto limitada por el simple ortográficas enfoque utilizado para el nombre de la entidad el reconocimiento (NER). Gene nombres y símbolos deben ser una cadena delimitada por espacios de puntuacion y otros caracteres. No todos los nombres de genes encajan en esta descripción, aunque el nombre de pares de genes extraídos de recordar la norma de oro de SWISSPROT cumplido este requisito. Error de precisión de análisis puso de manifiesto que aproximadamente el 28% de los errores de precisión se debe a la no-gen o proteína símbolo siendo tratado como un gen o proteína. Otro 9% de los errores de precisión se debe a una porción incompleta de un gen identificado como símbolo de un gen símbolo. Estas dos categorías representan en conjunto el fracaso de la llamada entidad de reconocimiento (TNE), y representan el 37% de los errores de precisión. - Estado actual de la técnica F-Resultado desempeño de las entidades biológicas llamado reconocimiento es aproximadamente un 80% [26]. El uso de este número como la medida del rendimiento, puede estimarse que la mayor mejora que se podría conseguir mediante la incorporación de un estado de la técnica de genes y proteínas llamado reconocedor de las entidades en el sistema supone una disminución del 20% de estos errores, y el aumento La precisión en la cima F-Resultado al 27%. La mejora real es probable que sea inferior a la máxima de si el sistema TNM hace uso de la misma información contextual sinónimo utilizado por el sistema de extracción.

Existen muchas otras posibles aplicaciones de nuestro enfoque general de la minería de la literatura biomédica. Muchas relaciones entre las entidades, tales como aumentar o inhibir las relaciones entre las drogas, sustancias biológicas, y de las enfermedades profesionales, y el promotor / supresor de las relaciones entre los genes podría ser como el modelo gráfico de las estructuras adecuadas y métrica creado para medir las propiedades de red. Múltiples redes separadas se pueden crear al mismo tiempo y, a continuación, se utiliza junto durante el paso de inferencia lógica de ampliar el enfoque a múltiples tipos de entidades y múltiples tipos de relaciones entre esas entidades. Se requieren nuevos trabajos para determinar si la extracción de mejorar / inhibir y otras relaciones funcionales de la biomedicina texto se presta a nuestro enfoque. Extracción automática de las complejas relaciones funcionales es probable que sea más compleja que la extracción de sinónimos.

Tal vez la aplicación más emocionante de la red enfoque basado en la minería es la literatura biomédica para la generación de hipótesis, como la que hace a mano por Swanson [27], y automáticamente por otros [28, 29]. Swanson Si bien el enfoque se limita a las relaciones entre las tres entidades, el enfoque de red puede apoyar prácticamente ilimitadas intermedio inferencias, limitada en gran parte por la confianza en las relaciones individuales. Futuras mejoras tendrá que ir más allá de un simple método utilizado en la labor en curso para determinar qué relaciones son lo suficientemente fuertes como para apoyar la inferencia. La cadena de inferencia puede ser modelado como un camino de confianza con cada uno de los vínculos reducción de la confianza en la totalidad del camino por una fracción sobre la base de la incertidumbre de la relación.

Tener la capacidad de deducir hipótesis útil a través de varias relaciones intermedio tiene el excitante potencial de acelerar el ritmo de los avances de la medicina y de centrar los esfuerzos en las perspectivas más prometedoras. Con el conocimiento biomédico y la correspondiente bibliome creciendo a un ritmo exponencial, existe la materia prima para la generación de hipótesis asistida por ordenador. Trabajar más en la minería de texto y el conocimiento de extracción será necesario a fin de comprender mejor los problemas a los que se puede ser más útil aplicar, así como los medios para evaluar estos sistemas en el texto para que la minería y la extracción de conocimientos a realizar todo su potencial.

Conclusión

Estos resultados apoyan la conclusión de que nuestro método es útil en la extracción de genes y proteínas nombre sinónimo relaciones resúmenes de la literatura biomédica. El sistema actual podría mejorarse mediante la incorporación de estado de la técnica TNE, y por la inclusión de nuevos conocimientos de dominio de otras naciones más ricas fuentes de datos tales como texto completo de artículos, bases de datos y la red de genes que podrían proporcionar los datos de ejemplos negativos. El uso de ejemplos negativos podrían incorporarse en nuestro enfoque mediante la adición de una pena para extraer ejemplos negativos a la función de evaluación genética optimizador.

Si bien el rendimiento no es tan bueno como el mejor enfoque combinado de otros investigadores, es tan buena como las mejores de cada uno de los métodos. Con más precisa TNE, así como la utilización de filtrado después de los conocimientos que figuran en bases de datos en línea, el sistema puede llevar a cabo aún mejor. Y los conjuntos de datos estándar de oro de los archivos utilizados en este trabajo están disponibles para descargar en [30].

Métodos

En esta sección presentamos nuestros genes y proteínas sinónimo algoritmo de extracción, y nuestros métodos de evaluación.

Algoritmo

Hemos abordado el problema de genes y proteínas nombre sinónimo de extracción como un problema matemático en el análisis de redes. En la red, los nodos de genes y proteínas son los nombres y los símbolos, y los bordes están etiquetados con el número de veces que los nombres relacionados se han producido en un texto fuente juntos (es decir, la co-ocurrencia contar). Un primer conjunto de sinónimos par de "semillas" se utiliza para buscar en el texto corpus de los patrones de texto en el que se producen los pares de sinónimos. Los casos de nombres de genes y proteínas se sustituye por una expresión regular que coincide con una gran variedad de posibles nombres de genes y proteínas. Esta expresión regular está diseñado para conseguir alto para recordar sola palabra de genes y proteínas nombres y los símbolos, a expensas de baja precisión. A continuación, estos patrones se comparará con el cuerpo, la extracción de patrones de texto que incluyen co-ocurrencias entre pares de nombres que son sinónimos posibles. El nombre co-ocurrencias extraídos por los patrones son utilizados para la construcción de un gen nombre sinónimo de red, y esta red es matemáticamente se analizan para determinar la combinación de los patrones que produce el conjunto de sinónimos más fuertes. El nuevo sinónimos con la más alta confianza luego son utilizados como semillas en la próxima iteración del algoritmo. Este proceso se puede repetir durante un número determinado de iteraciones, o hasta ninguna nueva confianza alta sinónimo de pares se encuentran.

La expresión regular utilizada para identificar los nombres de genes y proteínas no es muy específica: ([^ \ s ,/%<>;+&()= \ [\] \? \ $ \ '\ "] (3 , 14)). El patrón excluye algunos puntuacion y otros caracteres especiales, pero permite que las letras, los números, así como el período de colon y caracteres. Nombres de genes y proteínas deben ser entre 3 y 14 caracteres de longitud. A continuación, el sistema se aplica un conjunto de reglas heurísticas para seguir en pantalla los nombres de genes no. El nombre no se debe detener en una lista de palabras y patrones encontrados durante el desarrollo del sistema se debe confundir con los nombres de genes y proteínas (por ejemplo, "ARN", "ADN", ". Com"). El nombre puede que no comiencen con un dígito, guión, colon, período, o asterisco, y no pueden terminar con un guión, el período, o de colon. Además, el nombre no puede contener sólo minúsculas. Todas las mayúsculas, una mezcla de mayúsculas y minúsculas, o una combinación de letras y números es obligatorio. Estas normas favor recordar más de precisión.

Los patrones son sinónimo texto extraído del texto en torno a un par identificados sinónimos. El sistema requiere la sinónimo de ser pares dentro de las 4 palabras de los demás, e incluye palabras cero o uno a cada lado de la pareja de sinónimos. Por ejemplo, si (CIP1, WAF1) es un primer par de semillas, y el texto corpus incluye la frase:

Dos por ciento o mayor tinción nuclear con WAF1/CIP1 anticuerpo monoclonal fue determinada por razón de riesgo para el análisis de expresión constituyen positivo p21. [31]

Entonces, el sistema que va a extraer las siguientes pautas, cuando GENE $ $ está a favor de los genes y proteínas nombre concordancia expresión regular:

GENE $ $ / $ $ GENE

GENE con $ $ / $ $ GENE

GENE $ $ / $ $ monoclonal GENE

GENE con $ $ / $ $ monoclonal GENE

Estos patrones se pueden aplicar al texto corpus para encontrar el nombre co-ocurrencias. Por ejemplo, usando el patrón con GENE $ $ / $ $ GENE, el sistema que va a extraer la co-ocurrencia de pares (CARD15, NOD2) y (MMAC, PTEN) de la siguiente frase fragmentos encontrados en el corpus, respectivamente:

De los niños con NOD2/CARD15 variantes ... [32]

Glioma humano xenoinjertos tratados con PTEN / MMAC la transferencia de genes expuesto ... [33]

Dado un conjunto de patrones y el conjunto de co-ocurrencias de cada patrón encontrado, el algoritmo selecciona la mejor combinación de los patrones de evaluación de la estructura de la red creada por el co-ocurrencias. El indicador utilizado para comparar las estructuras de la red se basa en la agrupación coeficiente de medidas [34]. Un patrón está obligado a producirse en el texto de un mínimo de cuatro veces. El supuesto de hecho que es sinónimo de buena co-ocurrencia tendrá muchas redes separadas, grupos internos estrechamente vinculados, ya que los sinónimos de sinónimos también deben tener co-ocurrencias en la red. Figura 7 muestra gráficamente alta versus baja agrupación co-ocurrencia redes.

La calidad de una red de co-ocurrencia se considera la ratio media de la agrupación coeficiente (MCC) respecto de la media del coeficiente de la agrupación no (MNCC), y se calcula como:

MCC = calidad / MNCC (3)

Donde C es el número de nodos de la red, n (c) es la lista de los vecinos para el nodo c, w (a, b) es el número de co-ocurrencias visto entre a y b, y cmb (m, n) Es la combinación estándar de la función que da el número de combinaciones de m elementos tomando n a la vez. El mínimo nivel de calidad es cero, el máximo es de composición abierta y depende del número de nodos en la red y la manera en que están interconectados. Es posible que una simple medida también podría trabajar, sin embargo el uso de MCC, pero por sí solo se considera rechazado porque favorece ligeramente más grandes conectados por redes muy pequeñas redes conectadas. El MNCC tiene en cuenta el tamaño de la red y el número de nodos no conectados a un determinado nodo. Tenga en cuenta que MCC es sólo para los nodos definidos con dos o más vecinos. Una medida más simple de resumir los pesos de todos los vecinos se consideraba compartida, pero que no se han aplicado. Analíticamente, parece dar demasiada importancia a una sola pareja muy común que es sinónimo falsamente conectado al nodo que se mide. Computación de la MCC / MNCC el nodo par de medias entre la conectividad a través de todos los nodos conectados a un par de nodos, y, por tanto, debería ser más precisa para que los grupos de pares de sinónimos entre sí.

Encontrar el conjunto de los patrones que producen la red con la más alta calidad de medida es un problema de optimización combinatorial, la co-ocurrencias encontradas por cada patrón puede ser incluido en la red o no. Uno de los mejores métodos para resolver este tipo de problemas utiliza un algoritmo genético para optimizar la combinación de los patrones elegidos. Hemos elegido una variante del algoritmo genético canónico que utiliza rango de orden basada en la presión de selección [35, 36]. Se utiliza simplemente como una combinatoria optimizador. Esta variación se ha elegido porque funciona bien y es fácil de aplicar. Otras variantes algoritmo genético probable que realizar igual de bien.

Una vez que el conjunto de los patrones y sus co-ocurrencias son elegidos, el algoritmo extractos sinónimo pares de la red de co-ocurrencia. Esto se hace usando el algoritmo de recorrido de un gráfico muy similar a Dijkstra del camino más corto hacia algoritmo [37], y los extractos sinónimo pares explícitamente en el texto, así como los que se puede inferir a partir de las siguientes relaciones sinónimo representada por los bordes de la red. Por ejemplo, si A es un sinónimo de B, yB es un sinónimo de C, entonces A es probablemente un sinónimo de C. Durante la formación del sistema en que se situaba mejor para restringir inferencia a la red bordes que había co-ocurrencia de los cargos 2 o mayor.

Con el fin de proceder con otra iteración del algoritmo, el mejor sinónimo de pares debe ser optado por utilizar como semillas en la próxima iteración. La confianza en los distintos pares de sinónimos se determina utilizando dos parámetros basados en la red. En primer lugar, la confianza general en un sinónimo con un par de co-ocurrencia contar n se estima calculando la probabilidad de encontrar menos de ocurrencia que contar en un gráfico de azar con el mismo número de nodos y bordes. Esta se calcula como:

Donde M es el número total de co-ocurrencias, N es el número de nodos en la red, y μ = N / M. Durante la capacitación se constató que el umbral de la confianza de 0,999 dio los mejores resultados.

Sinónimo pares con mayor confianza entonces el umbral se ordenó por otra red basada en medidas métricas que la agrupación local para el par de nodos que representan a la par de sinónimos. El individuo nodo de la agrupación (CC) no clustering (NCC) se calculan los coeficientes, por lo que en un local de la agrupación métricas (LCM) para cada par de sinónimos:

Los patrones se extraen de entonces el texto utilizando la alta confianza sinónimo pares como semillas, la elección de la más alta locales clusterings primero. El número de patrones para evaluar en cada iteración se limitó a 150, que fue encontrado para equilibrar la calidad de los resultados con la necesidad de hacer el paso de optimización combinatoria solucionables en un tiempo razonable.

Figura 8 ilustra el algoritmo general. El iterativo patrones parte del algoritmo es, al igual que Raul_Barranquilla, basado en el enfoque de DIPRE Brin. La novela partes del algoritmo se presenta aquí incluyen el uso de la red basada en métricas para evaluar la calidad de los patrones y sinónimo pares, el uso de un algoritmo de optimización genética para determinar el conjunto óptimo de los patrones a utilizar en la extracción de genes nombre sinónimos, y la Uso de la gráfica basada en la inferencia para deducir sinónimo de pares no se encuentra explícitamente en el texto corpus.

Diseño experimental

El experimento se realizó en tres pasos. El primer paso fue elaborar y refinar el algoritmo detallado en la sección anterior sobre la formación y la validación de datos. A continuación, el algoritmo se ejecuta en el MEDLINE registros en la prueba. Por último, la calidad de la lista de sinónimos extraídos fue evaluado mediante la validación de la sinonimia de cada par extrajeron en contra de un estándar de oro y, a continuación, la computación de rendimiento.

Abreviaturas

Coeficiente de clustering (CC)

Métricas de agrupaciones locales (LCM)

Significa agrupación coeficiente (MCC)

Significa no coeficiente de clustering (MNCC)

No agrupamiento coeficiente (NCC)

Nombrada entidad reconocimiento (TNE)

Contribuciones de los autores

El software de CA escribió, dirigió los experimentos, realizó el análisis de datos, y redactó el manuscrito. WH ayudó a diseñar el estudio, participaron en su coordinación, y ayudó en la redacción del manuscrito. CS prestó apoyo sobre la nomenclatura y las bases de datos de genes. KS participado en el diseño de los algoritmos y de la metodología de evaluación. Todos los autores leído y aprobado el manuscrito final.

Agradecimientos

Este trabajo fue apoyado por el NIH Grant número 2 T15 LM07088-11 de la Biblioteca Nacional de Medicina.