Genome Biology, 2007; 8(3): R33-R33 (más artículos en esta revista)

GOTax: investigar los procesos biológicos y bioquímicos actividades a lo largo del árbol taxonómico

BioMed Central
Andreas Schlicker (schlandi@mpi-inf.mpg.de) [1], Jörg Rahnenführer (rahnenfj@mpi-inf.mpg.de) [1], Mario Albrecht (mario.albrecht @ inf.mpg.de-MPI) [ 1], Thomas Lengauer (lengauer@mpi-inf.mpg.de) [1], Francisco S Domingues (doming@mpi-sb.mpg.de) [1]
[1] Departamento de Biología Computacional y Aplicada Algorithmics, Instituto Max-Planck de Informática, Stuhlsatzenhausweg, 66123 Saarbrücken, Alemania

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen

GOTax, una novela basada en la web que integra la plataforma de proteínas anotación con la familia de proteínas de clasificación y taxonomía, permite una amplia evaluación de similitud funcional entre las proteínas y para comparar y analizar la distribución de las familias de proteínas y funciones de proteínas en diferentes grupos taxonómicos.

Justificación

Nuevas oportunidades para la comprensión de la biología a nivel molecular se han creado como consecuencia de la secuenciación completa y amplia anotación de genomas diferentes. La comunidad científica está empezando a descubrir los mecanismos y agentes que participan en la biología molecular de diferentes organismos como identificar sus genes y productos genéticos y la correspondiente biológicas y moleculares de estas funciones. La comparación de dos diferentes genomas permite identificar los comunes y características singulares de cada uno de los genomas y proporciona un camino para la transferencia de anotación de bien caracterizado a menos caracterizado genomas. A medida que más y más genomas de organismos de diferentes especies en todo el árbol taxonómico se caracterizan, es posible comparar no sólo dos genomas, sino también series de genomas. Por lo tanto, las diferencias y similitudes en la biología molecular entre los diferentes grupos taxonómicos pueden ser investigados en forma sistemática y objetiva. Por ejemplo, es posible identificar la distribución particular de las familias o proteína particular, los procesos biológicos y moleculares actividades a lo largo de la taxonomía o árbol filogenético.

La comparación de diferentes tipos de genomas permite identificar los procesos, actividades, y las familias exclusivo de ciertos grupos taxonómicos o compartidos entre grupos taxonómicos. Una aplicación concreta es la comparación entre los patógenos y no patógenos-bacterias, que permite conocer con mayor detalle los mecanismos de patogenicidad. Otra aplicación es la comparación entre los humanos y los diferentes agentes patógenos con el fin de identificar las características exclusivas de los agentes patógenos, un primer paso en el descubrimiento de nuevas dianas de medicamentos. Comparado métodos se basan a menudo en relaciones de homología, que se identifican sobre la base de similitud de secuencias. Más recientemente, se convirtieron en los nuevos métodos disponibles para la comparación de los genes y productos genéticos en función de su anotación funcional. En particular, las medidas de similitud funcional de los productos génicos se han propuesto [1, 2] que dependen de la Ontología de Genes (GO) [3] anotación. Varias herramientas que permiten este tipo de similitud funcional de las búsquedas se han desarrollado [1, 4, 5].

Se describen GOTax, una plataforma para la investigación y comparación de proteínas, proteínas de las familias, sus actividades y funciones biológicas durante el árbol taxonómico. La plataforma incluye GOTaxDB, la integración de una base de datos de proteínas anotación [6], el punto de vista funcional [3], la familia de proteínas clasificación [7, 8], y la clasificación taxonómica [9]. La base de datos se accede a través de la GOTaxExplorer herramienta, que proporciona un simple lenguaje de consultas para hacer consultas SQL a la base de datos y permite la selección arbitraria de conjuntos de datos. También permite la comparación de conjuntos de proteínas, las familias de proteínas, y punto de vista funcional. En particular, apoya las medidas orgánicas para la comparación de estos conjuntos. Una similitud funcional herramienta de búsqueda (FSST) Se propone asimismo, que proporciona una comparación funcional de los definidos por el usuario establece.

La plataforma GOTax

GOTax La plataforma consta de cuatro componentes básicos (Figura 1]. GOTaxDB integra las diferentes fuentes de datos y se preguntó ya sea a través de la versión independiente de GOTaxExplorer oa través de la Web Start versión. La versión independiente compuesto por una interfaz gráfica de usuario (GUI) y una interfaz de línea de comandos (CLI). El cuarto componente de GOTax es FSST, que consiste en un motor de consulta para la búsqueda de similitud funcional y una base de datos embebido.

GOTaxDB

Hemos desarrollado un esquema de base de datos integrada que se llevó a cabo utilizando un MySQL [10] servidor de base de datos. Incluye diferentes fuentes de datos: UniProt, Pfam, SMART, GO, NCBI sobre Taxonomía. Todos ellos son enlaces cruzados, lo que permite la recuperación de las entradas de todas las fuentes sobre la base de consultas SQL. La versión en línea de GOTaxDB se actualiza cada tres meses y de nuevo completamente secuenciado los genomas se añadirá una vez al año. Puesto que todas las referencias cruzadas entre las fuentes de datos son proporcionados por UniProt, el asíncrono liberación de la fuente bases de datos no afecta a las actualizaciones de GOTaxDB. La base de datos contiene sólo datos de especies completamente secuenciado, en la actualidad unas 260 especies. La lista completa de especies se encuentra disponible en el sitio Web en todo el mundo [11]. En el siguiente, solo las entradas de cualquier fuente de datos (proteínas, las familias Pfam, SMART familias, GO, taxones) se denominan entidades. Un conjunto de 1,5 de Java [12] se puso en práctica programas de importación de datos de descargar archivos planos. La base de datos que contiene los genomas completados es de unos 3 GB de tamaño. La creación de la base de datos, incluido el cálculo de similitud semántica valores para todos los GO, toma menos de una semana a un AMD Opteron 852 CPU de 2,5 Ghz. La similitud semántica de datos constituye las dos terceras partes de la base de datos, y está limitado por el número total de GO y no por el número de genomas incluidos en la base de datos. Por lo tanto, esperamos que la base de datos a escala así, mientras que la adición de nuevos genomas secuenciados completamente.

GOTaxExplorer

GOTaxExplorer, la principal herramienta para la consulta GOTaxDB, se ha aplicado en 1,5 de Java, que proporciona una plataforma de software independientes. La versión independiente de GOTaxExplorer fue probado con éxito en Debian Linux, Red Hat Linux, Solaris 9, Windows 2000 y Windows XP. Se compone de dos interfaces de usuario, un CLI y GUI. El GUI está disponible ya sea como una aplicación independiente o como Java Web Start aplicación. Además, un SOAP [13] servidor está disponible. Con el fin de aprovechar las ventajas de sistemas multiprocesador, la comparación semántica de los términos de GO y el funcional comparación de productos genéticos se apliquen varios subprocesos.

Similitud funcional herramienta de búsqueda (FSST)

El FSST se llevó a cabo para comparar definida por el usuario conjuntos de genes o productos anotaciones. Apoya todas las medidas de similitud y los diferentes formatos de salida y su multi-roscado aplicación se aprovecha de multi-proceso simétrico ordenadores, disminuyendo considerablemente en tiempo de ejecución. FSST es configurable mediante argumentos de línea de comandos y un archivo de configuración. Como aportación a FSST, el usuario puede proporcionar un archivo de base de datos en texto sin formato que el de referencia y sus entidades GO anotación, consulta y un archivo con el mismo formato de la definición de la consulta con entidades de su anotación. Es posible llevar a cabo ya sea por el todo contra todos-o un uno-a-uno consulta la comparación de entidades contra las entidades de base de datos. Los resultados están escritos en un archivo de texto que contiene BPscore, MFscore, funsim puntuación, y rfunSim Resultado. Además, es posible obtener una matriz de similitud de uno de los resultados de un contra-todos-todos comparación. Diferentes aplicaciones pueden exigir distancias más que similitudes. Por lo tanto, FSST es capaz de transformar los resultados en las distancias de acuerdo con la fórmula

dist X (A, B) = 1 - X (A, B) (1)

donde X es el bien BPscore, la MFscore, funsim la partitura, o los rfunSim Resultado de los dos productos de genes A y B. FSST se distribuye con una incorporados Apache Derby [15] base de datos que contiene todos los valores de similitud semántica de los términos de GO. Por lo tanto, FSST no necesita GOTaxDB a ser instalado. La versión incorporada de Apache Derby tiene la ventaja de que la administración es completamente gratis, y su despliegue es completamente ocultas al usuario.

Al presentar el rfunSim Resultado

Hemos desarrollado un método para evaluar la similitud funcional de dos productos génicos, la funSim Resultado [2]. Esta calificación se basa en el concepto del contenido de la información y utiliza las GO anotación de productos genéticos [1, 16, 17]. El contenido informativo de un plazo IR se define como el logaritmo negativo de la expresión de la probabilidad. Esta probabilidad se calcula como la frecuencia relativa de un término en un gran corpus de anotación. Las probabilidades para el GO términos se calcularon sobre la base de la anotación en GO UniProt. Nuestra similitud semántica medida por dos términos GO (sim Rel) toma en cuenta la proximidad entre los dos términos son a su ancestro común más bajo, así como la manera detallada este ancestro común más bajo. Se oscila entre el 0 para no relacionados con los términos de GO a 1 para muy similares términos. Un sim Rel score por debajo de 0,5 indica que los dos términos son GO sólo alejadas [2]. La similitud genética entre dos productos A y B con anotación GO GO GO A y B, respectivamente, se calcula de la siguiente manera. Para cada término en IR A, encontrar el término más similar en el conjunto GO B, y calcular la media de sus similitudes como rowScore (A, B). Luego, para cada término en GO B encontrar el término con la mayor similitud de conjunto IR A, y calcular la media como columnScore (A, B). El GOscore (A, B) se define como:

GOscore (A, B) = max (rowScore (A, B), columnScore (A, B)) (2)

A GOscore (A, B) se calcula para BP (BPscore), así como para MF (MFscore), respectivamente. Por último, el funSim puntuación se calcula como:

f u n S i m = 1 2 × [ ( B P s c o r e m un x ( B P s c o r e ) ) 2 + ( M F s c o r e m un x ( M F s c o r e ) ) 2 ] , ( 3 ) MathType MTEF @ @ @ 5 + 5 = @ feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2Caerbhv2BYDwAHbqedmvETj2BSbqee0evGueE0jxyaibaiKI8 = vI8tuQ8FMI8Gi = hEeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciGacaGaaeqabaqadeqadaaakeaacaWGMbGaamyDaiaad6gacaWGtbGaamyAaiaad2gacqGH9aqpdaWcaaqaaiaaigdaaeaacaaIYaaaaiabgEna0kaacUfacaGGOaWaaSaaaeaacaWGcbGaamiuaiaadohacaWGJbGaam4BaiaadkhacaWGLbaabaacbiGaa8xBaiaa = fgacaWF4bGaaiikaiaadkeacaWGqbGaam4CaiaadogacaWGVbGaamOCaiaadwgacaGGPaaaaiaacMcadaahaaWcbeqaaiaaikdaaaGccqGHRaWkcaGGOaWaaSaaaeaacaWGnbGaamOraiaadohacaWGJbGaam4BaiaadkhacaWGLbaabaGaa8xBaiaa = fgacaWF4bGaaiikaiaad2eacaWGgbGaam4CaiaadogacaWGVbGaamOCaiaadwgacaGGPaaaaiaacMcadaahaaWcbeqaaiaaikdaaaGccaGGDbGaaiilaiaaxMaacaWLjaWaaeWaaeaacaaIZaaacaGLOaGaayzkaaaaaa @ @ 6A8A

donde max (BPscore) y max (MFscore) indican la puntuación máxima posible para los procesos biológicos y moleculares función, respectivamente. El Resultado funSim oscila entre el 0 para completamente ajenos productos genéticos y 1 para los productos de genes con funciones idénticas. Debido a su definición, la funSim puntuación es inferior a la media de BPscore y MFscore en la mayoría de los casos. Con el fin de obtener una puntuación más intuitivo, definimos el rfunSim Resultado de dos productos génicos como

r f u n S i m = f u n s i m = 1 2 × [ ( B P s c o r e m un x ( B P s c o r e ) ) 2 + ( M F s c o r e m un x ( M F s c o r e ) ) 2 ] . ( 4 ) MathType MTEF @ @ @ 5 + 5 = @ feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2Caerbhv2BYDwAHbqedmvETj2BSbqee0evGueE0jxyaibaiKI8 = vI8tuQ8FMI8Gi = hEeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciGacaGaaeqabaqadeqadaaakeaacaWGYbGaamOzaiaadwhacaWGUbGaam4uaiaadMgacaWGTbGaeyypa0ZaaOaaaeaacaWGMbGaamyDaiaad6gacaWGZbGaamyAaiaad2gaaSqabaGccqGH9aqpdaGcaaqaamaalaaabaGaaGymaaqaaiaaikdaaaGaey41aqRaai4waiaacIcadaWcaaqaaiaadkeacaWGqbGaam4CaiaadogacaWGVbGaamOCaiaadwgaaeaaieGacaWFTbGaa8xyaiaa = HhacaGGOaGaamOqaiaadcfacaWGZbGaam4yaiaad + gacaWGYbGaamyzaiaacMcaaaGaaiykamaaCaaaleqabaGaaGOmaaaakiabgUcaRiaacIcadaWcaaqaaiaad2eacaWGgbGaam4CaiaadogacaWGVbGaamOCaiaadwgaaeaacaWFTbGaa8xyaiaa = HhacaGGOaGaamytaiaadAeacaWGZbGaam4yaiaad + gacaWGYbGaamyzaiaacMcaaaGaaiykamaaCaaaleqabaGaaGOmaaaakiaac2facaGGUaaaleqaaOGaaCzcaiaaxMaadaqadaqaaiaaisdaaiaawIcacaGLPaaaaaa @ @ 7284

rfunSim oscila entre 0 y 1 como funSim, pero los valores son hasta un 25% más grande. Aunque la raíz cuadrada es una simple transformación, cambia el rendimiento de la partitura. Pusimos a prueba qué tan bien los resultados diferenciar entre pares de proteínas sin similitud de secuencias de proteínas y orthologous pares. El ROCR [18] paquete para el entorno informático estadístico R [19] fue utilizado para el cálculo de características de funcionamiento del receptor (ROC) y las curvas de calibración de error [20] para la tarea de clasificación. El análisis muestra que el rfunSim Resultado logra una mejor calibración que el error funSim Resultado. El análisis detallado con ejemplos de pares de proteínas se pueden encontrar en archivo de datos adicional 1.

El uso de GOTaxExplorer y FSST

En esta sección, nos demuestran la selección y comparación de GOTax funcionalidad. En primer lugar, la relación entre la familia PHP dominio y los demás tipos de datos se investiga. Las comparaciones se realizan en tres niveles con diferentes ejemplos: la comparación de Pfam familias, la comparación semántica de los términos funcionales, orgánicas y la comparación de las proteínas. Para este análisis, las siguientes bases de datos donde se utilizan: UniProt versión 8.4, Pfam versión 20, SMART extraídos de InterPro [21], versión 13, GO de agosto de 2006, y la NCBI sobre taxonomía del 22 de agosto de 2006.

Investigar el dominio PHP

El dominio PHP (PF02811) es un dominio putativo phosphoesterase y pertenece al clan Pfam 'Amidohydrolase superfamilia ». Esta familia incluye la polimerasa de ADN bacteriano III proteínas, así como histidinol fosfatasas y proteínas uncharacterized. El único miembro de esta familia con conocida estructura tridimensional es la hipotética proteína Ycdx de Escherichia coli. Se ha demostrado que el sitio activo de esta proteína contiene tres iones de zinc [22]. La supuesta función de este dominio es la hidrólisis de pirofosfato durante la síntesis de ADN.

En primer lugar, hemos analizado la distribución del dominio sobre el árbol taxonómico. La Figura 3 muestra el árbol de vista de la taxonomía en GOTaxExplorer. Como puede verse en esta cifra, este campo está muy extendido, sobre todas las superkingdoms, arqueas, bacterias y eukaryota. Sin embargo, el dominio no se produce en metazoa. Eucarióticas proteínas con este dominio pertenece a la clase de fosfatasas, y algunos están implicados en la replicación del ADN. Se procedió mediante la identificación de todos los procesos biológicos en los que las proteínas con el dominio PHP participar. Hemos encontrado 11 procesos diferentes, que se enumeran en el archivo de datos adicional 2. Los resultados transmitir la idea de que este dominio está involucrado principalmente en los procesos vitales: «la replicación del ADN '(GO: 0006260)," la reparación del ADN' (GO: 0006281) y «recombinación de ADN '(GO: 0006310). Se tomó una mirada más cercana a la categoría de 'la replicación del ADN' (GO: 0006260) y GOTaxExplorer utilizados para obtener la lista de las proteínas que están anotadas con este proceso y contener el dominio de PHP. Los resultados se resumen en el archivo de datos adicional 3. Un ejemplo de ello es la ADN-polimerasa dependiente de ADN cadena beta (Q99UW2) de Staphylococcus aureus. La lista de resultados incluye esencial de las proteínas de otros organismos patógenos, indicando que el dominio PHP es un fármaco prometedor objetivo.

Comparación de las familias Pfam

Se utilizó GOTaxExplorer para la comparación de Pfam familias se encuentran en Pfam humanos con familias se encuentran en S. cerevisiae. La tabla completa con los resultados se pueden encontrar en archivo de datos adicional 4. La búsqueda llevó menos de 2 segundos, y los resultados muestran que la levadura y los humanos comparten las familias 1580, 1478 y Pfam que las familias son únicas para humanos y 252 son exclusivas de la levadura. El mapa de los espacios funcionales de Pfam familias que muestran las familias comunes y únicas familias a una de las especies se presenta en la Figura 5. Como puede verse en esta cifra, muchas familias con anotada «vinculante» (GO: 0005488) y "transductor de señales de actividad" (GO: 0004871) son exclusivas de humanos, por ejemplo, los pequeños citocinas interleucina-8 como familia (PF00048) . Pocas familias de proteínas anotado con una de estas categorías son exclusivas de la levadura, como la levadura de apareamiento factor alfa de hormona de dominio (PF04648), o son comunes a ambas levaduras y humanos, al igual que la proteína G subunidad alfa (PF00503) familia.

Otro ejemplo es la comparación de Pfam familias se encuentran en las proteínas humanas y de diferentes virus humanos. GOTaxDB contiene proteínas y anotación a partir del 18 de los virus humanos, incluido el virus de la hepatitis C (VHC), VIH y virus de la gripe. La comparación muestra que el 24 Pfam familias se reparten entre los virus humanos y las proteínas, 132 familias son únicos a los virus, y 3170 familias son únicas para humanos. Un mapa de los espacios funcionales con la comparación de resultados se incluye en el archivo de datos adicional 1 (como la figura S4). El FtsJ-como dominio metiltransferasa (PF01728) se produce en humanos y en las proteínas virales, por ejemplo. Este dominio se produce en el amino terminal de flaviviral NS5 proteínas y es la hipótesis de participar en ARN del virus de la limitación [23]. Todos los compartida y única Pfam familias se enumeran en el archivo de datos adicional 5.

También es posible comparar la Pfam familias de dos diferentes grupos taxonómicos. Un ejemplo de ello es la comparación de Pfam familias se encuentran en las proteínas de Viridiplantae y hongos. Hongos y compartir Viridiplantae 1898 Pfam familias, mientras que 487 familias son únicos a los hongos y 700 son exclusivos de Viridiplantae. Los resultados de esta comparación se puede encontrar en el archivo de datos adicional 6.

Semántica comparación de punto de vista funcional

Se realizó una comparación entre semántica procesos biológicos asociados con S. cerevisiae las proteínas y los procesos biológicos anotado a humano. En primer lugar, hemos identificado 382 procesos biológicos se encuentran en la levadura y no en humanos. Luego, una semántica comparación se realiza entre los procesos singulares a las levaduras y los procesos se encuentran en humanos. Se encontraron 100 procesos de levadura con un simulador Rel puntuación superior a 0,9 a un proceso humano, lo que indica que hay un proceso muy similar en humanos para cada uno de estos procesos de levadura. El proceso biológico con la menor similitud semántica es de 0,14 'plásmido particionado "(GO: 0030541). Hay 38 procesos en la levadura con una similitud semántica por debajo de 0,6 a cualquier proceso que ocurre en humanos. Esa baja similitud valores sugieren que el mejor proceso de correspondencia en humanos es sólo alejadas a la levadura. Estos 38 procesos se agruparon en el marco más general GO categorías "celular proceso fisiológico '(GO: 0050875),' localización '(GO: 0051179),' metabolismo '(GO: 0008152), y' la regulación de proceso fisiológico '(GO: 0050791) (Figura 4]. La lista completa con los resultados de la comparación semántica puede encontrarse en archivo de datos adicional 7.

Una comparación similar de todos los procesos biológicos anotado a las proteínas de hongos con los procesos de Viridiplantae se realizó. Hay 219 procesos de hongos con un simulador Rel puntuación superior a 0,9. Además, hay 24 procesos con un simulador Rel score por debajo de 0,5, lo que indica que no hay procesos similares en humanos y, por consiguiente, los respectivos procesos son susceptibles de ser único para los hongos. Los resultados completos se pueden encontrar en archivo de datos adicionales 8.

Funcional comparación de las proteínas

Se utilizó FSST para una comparación funcional de todas las proteínas de Arabidopsis thaliana (NCBI Taxonomía id: 3702) y S. cerevisiae (NCBI Taxonomía id: 4932). UniProt contiene proteínas de 47.498 A. thaliana; de estos, 20261 y 15470 son anotado con MF y BP, respectivamente. De los 7.498 S. cerevisiae las proteínas en UniProt, 4070 y 4467 son anotado con MF y BP, respectivamente. La producción completa se puede encontrar en el archivo de datos adicionales 9. Figura 6 muestra la distribución de puntuaciones de los mejores hits de A. thaliana proteínas. NA La columna contiene proteínas para que la puntuación correspondiente no pudo ser calculada debido a la falta de función molecular o proceso biológico anotación. Más de la mitad de A. thaliana proteínas o bien no han molecular función o proceso biológico anotación. La mayoría de los anotada proteínas tienen una alta similitud funcional a un S. cerevisiae las proteínas. Sin embargo, hay algunas proteínas rfunSim con una puntuación de entre 0,4 y 0,6, indicando sólo distante similitud funcional. Un ejemplo de ello es la citocinina 6 precursor deshidrogenasa (Q9LY71) de A. thaliana. Es anotado con el proceso "complejo estomático morfogénesis" (GO: 0010103) y la función 'citocinina deshidrogenasa actividad "(GO: 0019139). La proteína más similar de la levadura es el dihydrofolate reductasa, que es anotado con el proceso de "ácido fólico y derivados del metabolismo" (GO: 0006760) y con las funciones' dihydrofolate actividad de la reductasa "(GO: 0004146) y« unión a proteínas' (GO : 0005515). Estas dos proteínas tienen un rfunSim puntuación de 0,47. Ambas proteínas tienen actividad oxidoreductase, que se traduce en una MFscore de 0,664. Sin embargo, los procesos que forman parte del no están relacionados en absoluto (BPscore = 0,0).

Comparación con otras herramientas

Existen otras bases de datos y programas que permitan seleccionar y comparar conjuntos de entidades y para la realización de comparaciones de similitud funcional. Sin embargo, ninguna de estas herramientas ofrece el mismo grado de funcionalidad que el GOTax plataforma. Por un lado, la secuencia en el sistema de recuperación de EBI [24], a NCBI Entrez [9], la base de datos Pfam [7], la base de datos SMART [8], y la base de datos PANTHER [25] combinar proteínas, proteínas de las familias, y la taxonomía y permitir la selección y comparaciones de series de entradas de base de datos. Sin embargo, no proporcionan similitud funcional comparaciones. La integrado bio-almacén de datos BioDW en la Universidad Fudan integra proteínas, la familia de proteínas funcionales y anotación de bases de datos [4] y permite básicos similitud semántica búsquedas. Sin embargo, esta similitud semántica de búsqueda está restringido a un GO plazo y no evaluar la similitud funcional global de dos proteínas. Por otro lado, las herramientas existentes para realizar comparaciones funcionales entre las proteínas que no ofrecen una base de datos integrada para las consultas y comparaciones. GO Gráfico es un programa descargable para el cálculo de similitud semántica entre los términos de GO y similitud funcional entre las proteínas [1]. GO gráfico permite comparar conjuntos definidos por el usuario de proteínas pero no ofrece las proteínas y anotación de bases de datos para la búsqueda. DynGO es una aplicación descargable para realizar búsquedas semánticas para productos genéticos anotado con términos similares GO [26]. El software debe ser instalado a nivel local y también requiere una base de datos local de anotación que tiene que ser creado por el usuario. La similitud genética funcional herramienta de búsqueda (GFSST) es un recurso en línea que proporciona búsquedas de similitud funcional dentro de los medios humanos y de ratón proteomas UniProt [5]. Esto permite la búsqueda de proteínas funcionalmente similares, pero sólo en un subconjunto limitado de conocer y anotada proteínas. Una comparación de la capacidad de consulta de los diferentes instrumentos se presenta en la Tabla 1.

Conclusión

La plataforma integra GOTax proteínas, las familias de proteínas, Gene Ontología, y la taxonomía en una base de datos. Ofrece varias interfaces para la selección y comparación de diferentes conjuntos de entidades, y para realizar comparaciones funcionales de las proteínas y las familias de proteínas. La principal limitación de nuestro enfoque es la falta de anotación para completar muchos genomas y especialmente de las proteínas exclusivas de determinados taxones. Aunque varios completamente secuenciado los genomas son anotado, esta anotación no está completa y todavía está cambiando. La restricción a GOTaxDB completamente secuenciado los genomas es una manera de intentar evitar estos problemas, pero el usuario debe tener en cuenta también que más fiables son los resultados obtenidos para los genomas que son ampliamente anotada. La medida en que los genomas son siempre está anotado en el sitio web GOTax [11]. La utilidad de la plataforma GOTax aumentará a medida que más y más se convierte en anotación. Un mayor desarrollo de la plataforma GOTax pueden incluir mejoras a las interfaces de usuario y el lenguaje de consultas que simplifican su uso. Un ejemplo de ello es la visualización de los GO como un dirigidos acíclicos gráfico en lugar de un árbol. Por otra parte, añade otras fuentes de datos, al igual que no codificante del RNA, a la base de datos puede ampliar los escenarios de aplicación de la plataforma GOTax.

Datos adicionales archivos

Los siguientes datos adicionales están disponibles con la versión online de este documento. Datos adicionales archivo 1 contiene una descripción de la consulta lenguaje utilizado por la plataforma GOTax y un análisis de la rfunSim Resultado. Datos adicionales archivo 2 enumera todos los procesos biológicos anotado a las proteínas con el dominio PHP (PF02811). Datos adicionales archivo 3 contiene una lista anotada de las proteínas con 'la replicación del ADN' (GO: 0006260) y que contiene el dominio PHP (PF02811). Datos adicionales archivo 4 se indican los resultados de la comparación de los dominios Pfam de levadura y humanas. Datos adicionales archivo 5 contiene los resultados de la comparación de los dominios Pfam de virus y humanos. Archivo de datos adicional 6 contiene los resultados de la comparación de los dominios Pfam de Viridiplantae y hongos. Datos adicionales archivo 7 se enumeran los resultados de la comparación semántica de los procesos biológicos de levadura y humanas. Datos adicionales de archivo 8 contiene los resultados de la comparación semántica de los procesos biológicos de Viridiplantae y hongos. Datos adicionales archivo 9 contiene los FSST de salida para la comparación de las proteínas de Arabidopsis thaliana y S. cerevisiae.

Material complementario
Adicional 1 archivo de datos
Figura S1: Descripción de la consulta lenguaje utilizado por la plataforma GOTax y un análisis de la
rfunSim
Resultado
Datos adicionales de archivo 2
Columnas de la tabla son, en el siguiente orden: numeración, GO plazo número, nombre plazo GO, GO plazo tipo.
Datos adicionales archivo 3
Columnas de la tabla son, en el siguiente orden: numeración, número UniProt, UniProt nombre, base de datos.
Datos adicionales de archivo 4
Columnas de la tabla son, en el siguiente orden: numeración, Pfam número, nombre de dominio. Set 1 corresponde a la levadura Pfams y 2 al conjunto Pfams humanos.
Datos adicionales de archivo 5
Columnas de la tabla son, en el siguiente orden: numeración, Pfam número, nombre de dominio. Set 1 corresponde al virus Pfams y 2 al conjunto Pfams humanos.
Archivo de datos adicional 6
Columnas de la tabla son, en el siguiente orden: numeración, Pfam número, nombre de dominio. Set 1 corresponde al de Pfams
Viridiplantae
y 2 al conjunto de hongos Pfams.
Datos adicionales archivo 7
Columnas de la tabla son, en el siguiente orden: numeración, GO plazo número, nombre plazo GO, GO plazo tipo,
Sim
Rel
, Acompañado GO plazo número, acompañado GO plazo nombre, la similitud semántica de acuerdo con Lin, acompañado GO plazo número, acompañado GO plazo nombre.
Datos adicionales de archivo 8
Columnas de la tabla son, en el siguiente orden: numeración, GO plazo número, nombre plazo GO, GO plazo tipo,
Sim
Rel
, Acompañado GO plazo número, acompañado GO plazo nombre, la similitud semántica de acuerdo con Lin, acompañado GO plazo número, acompañado GO plazo nombre.
Datos adicionales de archivo 9
Complete FSST de salida para la comparación de las proteínas de
Arabidopsis thaliana
(NCBI Taxonomía id: 3702) y
S. cerevisiae
(NCBI Taxonomía id: 4932)
Agradecimientos

Parte de este estudio fue apoyado por el alemán Nacional de la Red de Investigación del Genoma (NGFN), BMBF concesión N º 016R0453, y por la Fundación Alemana para la Investigación (DFG), número de contrato KFO 129/1-1. Este trabajo también forma parte del proyecto de BioSapiens, que es financiado por la Comisión Europea en el marco de su Programa del 6 º PM en el marco del área temática "Ciencias de la vida, genómica y biotecnología para la salud», número de contrato LSHG-CT-2003-503265.