Immunome Research, 2007; 3: 4-4 (más artículos en esta revista)

ImmTree: Base de datos de relaciones evolutivas de los genes y las proteínas en el sistema inmunológico humano

BioMed Central
Csaba Ortutay (csaba.ortutay @ uta.fi) [1], Markku Siermala (markku.siermala @ luukku.com) [1], Mauno Vihinen (mauno.vihinen @ uta.fi) [1]
[1] Instituto de Tecnología Médica, FI-33014 Universidad de Tampere, Finlandia
[2] Unidad de Investigación, Hospital de la Universidad de Tampere, FI-33520 Tampere, Finlandia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

El sistema inmunológico, que es un complejo mecanismo, se basa en la expresión altamente coordinada de una amplia gama de genes y proteínas. La historia evolutiva del sistema inmunitario humano no está bien caracterizado. Aunque varios estudios relacionados con el desarrollo y la evolución de los procesos inmunológicos han sido publicados, a gran escala del genoma basado en el análisis es aún desaparecidos. Una base de datos se centró en las relaciones evolutivas de los genes relacionados con la inmunidad contribuiría a facilitar la investigación y en inmunología y biología evolutiva.

Resultados

Un recurso de Internet llamado ImmTree http://bioinf.uta.fi/ImmTree fue construido para estudiar la evolución y la evolución de los árboles el sistema inmunológico humano. ImmTree contiene información sobre orthologs en 80 especies recolectadas de la HomoloGene, OrthoMCL y encontré las bases de datos. Además de los árboles filogenéticos, el servicio proporciona datos para la comparación de los humanos-ratón ortholog pares, incluyendo sinónimos y no sinónimos tasas de mutación, los valores Z, y un K / K s cocientes. Un versátil motor de búsqueda permite consultas complejas a partir de la base de datos. Actualmente, se dispone de datos para 847 humanos relacionados con el sistema inmune genes y proteínas.

Conclusión

ImmTree proporciona un único conjunto de datos de genes y proteínas de el sistema inmunitario humano, su filogenia, y la información para las comparaciones de humanos-mouse ortholog pares, sinónimos y no sinónimos tasas de mutación, así como otros datos estadísticos.

Fondo

El sistema inmunológico es un mecanismo muy complejo thet ha evolucionado y diversificado con el tiempo. Numerosos procesos son necesarios para el montaje de su capacidad de adaptación y la respuesta inmune innata para proteger a un individuo de invadir los organismos y moléculas. Congénita y adquirida problemas en casi cualquier parte del sistema inmune puede dar lugar a enfermedades, muchas de las cuales son muy graves o incluso mortales. Los diferentes procesos y vías del sistema inmunológico han evolucionado gradualmente y cada vez más complejo. Más antiguo innato o intrínseco de inmunidad se ha visto complementada por procesos adaptativos, que dar una respuesta específica cuando sea necesario.

Aunque intensamente estudiado, la historia evolutiva de este sistema no es bien conocida. La evolución de ciertos grupos de proteínas inmunológicas del ser humano immunome ya han sido estudiados. Por ejemplo, cinco grupos de genes de la NF-κ B vía de señalización en los vertebrados e insectos [1], o la evolución de la interleucina-1 familia de proteínas en los vertebrados [2] son ampliamente estudiados. Para estudiar la evolución molecular del sistema inmunitario humano, una referencia conjunto de genes y proteínas debe ser definido [3]. Hemos identificado y recogido los genes y las proteínas esenciales para la inmunidad humana y una amplia investigación del genoma de la evolución de estos genes se ha llevado a cabo [4]. A continuación, describimos una base de datos para los árboles evolutivos de las proteínas en el sistema inmunológico humano (ImmTree) [5]. ImmTree contiene información para orthologs de los genes humanos en 80 especies, incluyendo todos los principales organismos modelo de Eukaryota. Las relaciones evolutivas de la orthologs se presentan como los árboles filogenéticos. Además, ImmTree proporciona un único conjunto de datos para la comparación de los humanos-mouse ortholog pares presentado por el sinónimo y no sinónimo tasas de mutación de los genes.

Construcción y contenido
Coleccionismo sistema inmunitario humano relacionados con los genes y las proteínas y sus orthologs

Hemos recogido de artículos, libros de texto y fuentes electrónicas en total 847 genes humanos que están involucrados en procesos relacionados con la inmunología, o que son esenciales para la vida de las células inmunológicas y los órganos [4]. La variable de las cadenas de inmunoglobulinas (Igs), B y los receptores de células T (BCRs y TCRs) y los principales complejos de histocompatibilidad (MHCs) no se incluyeron ya que estas proteínas no son codificadas por los genes convencionalmente estructurado, sino fragmentos de genes. Fargments Estos genes y sus productos ya se encuentran exclusivamente recogidos y que figuran en IMGT, la inmunogenética internacional sistema de información en el Centro Nacional de Computación de la Enseñanza Superior [6] y el Instituto Europeo de Bioinformática [7]. ImmTree contiene los genes y las proteínas que se requieren para la transformación de estos fragmentos de genes. En la base de datos ImmTree Entrez Gene [8] identificadores se utiliza para referirse a los genes. Secuencias de proteínas se descargaron de NCBI GenBank [9]. Ortholog secuencias son de la Eucarióticas Gene Orthologs (EGO) [10], HomoloGene [11] y OrthoMCL [12] bases de datos. HomoloGene contiene grupos de homólogos para completamente secuenciado los genomas eucariotas, mientras que ha EGO (provisional) ortholog grupos de eucariotas secuencias en el TIGR secuencia de bases de datos. OrthoMCL contiene secuencias exclusivamente a partir de 55 genomas completos y, por tanto, el número de secuencias de las diferentes ramas es limitado. Las liberaciones fueron utilizados Pienso que la versión 9.0, liberada 15 de febrero de 2005; HomoloGene construir 50.1, puesto en libertad 25 de julio de 2006; Ortho MCL versión 1.0, liberada 19 de octubre de 2005.

Las secuencias de nucleótidos de ortholog grupos se tomaron de ego y secuencias de la proteína de HomoloGene y OrthoMCL. Las secuencias fueron alineadas usando ClustalW [13] con los parámetros por defecto. Árboles filogenéticos fueron reconstruidas para los tres tipo de ortholog los grupos que utilizan el programa PAUP * paquete [14], cuando el grupo figuran al menos tres secuencias. Por lo tanto, creó tres árboles para la mayoría de los grupos ortholog para los datos de las tres bases de datos independientes. Un simple vecino a participar en método se aplica si el ortholog grupo figuran sólo tres taxones, de otro modo de arranque análisis se aplicó el método con parsimonia, árbol de búsqueda heurística, y 1000 repeticiones. El número de repeticiones de arranque se redujo a 100 en el caso de OrthoMCL ortholog grupos donde más de 50 secuencias fueron en el grupo. Del mismo modo, el número de repeticiones se redujo aún más, al 50, donde el número de secuencias superó el 100. Esto era necesario debido a requisitos de tiempo computacional, ya que algunos grupos OrthoMCL contienen numerosas paralogs. En estos casos, el árbol de la construcción se hace muy intensivos en la CPU sin más ventaja filogenética.

Para un panorama general de los grupos ortholog, generamos un cuarto árbol. Este árbol representa secuencias de proteínas de todas las especies en cualquiera de los tres conjuntos de datos. Por otra parte, cada especie está representada por una sola secuencia, la prevención de la acumulación de secuencias idénticas de múltiples fuentes de datos. De esta manera el gran paralog grupos de la base de datos OrthoMCL están representados por una sola secuencia.

Las secuencias de nucleótidos de la base de datos Estoy fueron traducidos a aminoácidos para alinear las secuencias de proteínas representativas de las tres bases de datos. La traducción se hizo en los seis cuadros, y los seis transcripciones fueron alineados con la proteína humana utilizando bl2seq secuencia de la explosión de paquetes [15]. Sólo la transcripción con el tramo más largo idénticos con los humanos ortholog fue retenido para su posterior análisis. La proteína secuencias recogidas de esta manera se suman y árboles filogenéticos se construyeron como se ha descrito anteriormente.

Comparación de los humanos-mouse ortholog pares

En 603 casos orthologs estuvieron presentes tanto en el ratón y el genoma humano en la HomoloGene base de datos. Estos pares volvieron a ser analizadas en detalle. Las secuencias de cDNA de la persona humana y los genes del ratón se han traducido a secuencias de proteínas y, a continuación, alineados blast2seq utilizando el programa. El cDNA correspondiente secuencias fueron alineados sobre la base de la secuencia de aminoácidos con la alineación de propiedad scripts de Perl, algunos de los cuales utilizan los módulos de Bioperl Proyecto [16]. Las estimaciones sinónimo de mutaciones por sitios sinónimos (K s o DS) y de la no-sinónimo mutaciones por los sitios no sinónimos (K una o DN) se calcularon los valores [17]. Z valores y la K a / s cocientes K describir la conservación de determinados genes humanos desde la divergencia de ratón.

Utilidad y Debate
Acceso a bases de datos y búsqueda

El ImmTree base de datos se puede acceder en línea [5]. El servicio ofrece dos modos de búsqueda. La primera página de búsqueda es una interfaz para encontrar los genes humanos de GenBank gi números, GenBank números de la adhesión, o UniProt [18] adhesión números. El otro es el motor de búsqueda ortholog grupos mediante el uso de criterios más complejos (fig. 1A]. Las primeras opciones se concentran en las características de los genes humanos y proteínas. Permite realizar búsquedas por dominios de proteínas, ya sea por InterPro [19] id o nombre del dominio. Ontología las preguntas se basan ya sea en GeneOntology [20] ID ontología o palabras clave. Además, las búsquedas de palabras clave son posibles para la identificación de genes. Además, algunas categorías predefinidas como 'CD moléculas "," sistema del complemento "o" inflamación "se puede buscar.

El segundo grupo de opciones de búsqueda ayuda a identificar las características comunes de grupos ortholog. La opción más básica es la búsqueda de organismos dentro de un grupo ortholog ya sea por la NCBI Taxonomy [21] id o por el nombre del taxón. Ortholog grupos puede buscarse también por su antepasado taxa. Estas complejas búsquedas se pueden realizar, por ejemplo, sólo para los genes que apareció antes de lo Coelomata de acuerdo con el ego base de datos' (94 grupos de resultado) o «genes que surgió en el grupo Bilateria de acuerdo con la base de datos HomoloGene '(41 grupos de resultado) .

El tercer tipo de opción de búsqueda se basa en la información estadística de humanos-ratón ortholog par de comparaciones. Pares de genes se puede encontrar por la K a / s K cociente de valor o el valor Z. Estos dos parámetros se refieren a la conservación de secuencias [22, 23]. ¿También es posible combinar las opciones de búsqueda, por ejemplo, para buscar la 'genes relacionados con el sistema del complemento que tienen una K a / s K valor inferior a 0,15' (5 grupos de resultado) o "genes con la palabra clave que han lectina K a / s K valor superior a 0,6 "(4 grupos de resultado).

Informes de resultados

Todos los resultados de las búsquedas se muestran en una lista interactiva a partir de la cual se puede investigar los detalles de cada uno de los grupos identificados ortholog (fig. 1B]. Al igual que el grupo de genes página de búsqueda, los resultados de un solo ortholog grupo se dividen en tres partes principales (fig. 1C]. La cabecera de la página presenta los detalles de los genes humanos. Las secuencias están disponibles a través de enlaces a GenBank y UniProt. Evolutiva niveles denota la aparición del gen se muestran basada en el ego, HomoloGene y OrthoMCL bases de datos y los datos combinados. A continuación, los resultados del ser humano-ratón ortholog comparación, incluidos los valores para el número de sinónimos y nonsynonymous sustituciones por sitio (s K, K), su cociente de valor (K a / s K) y el valor de Z, se presentan. Los árboles evolutivos para el combinado, EGO, HomoloGene y OrthoMCL de datos se encuentran en la tercera sección. Enlaces para los árboles de los cuatro conjuntos de datos también se proporcionan. La secuencia múltiples alineaciones y los árboles evolutivos están disponibles en formato nexo [24] para la descarga y pueden ser visualizadas con el ATV (un árbol Viewer) applet de Java [25].

Figura 2 se presentan los cuatro árboles filogenéticos para la orthologs humanos de la membrana alanina aminopeptidasa precursores. Las diferencias de la ortholog definiciones en las distintas bases de datos son claramente visibles. La más estricta definición de un grupo ortholog está en la base de datos HomoloGene (Fig. 2A]. Hay secuencias de sólo unas pocas especies, y sólo unos pocos paralogs en el conjunto de datos. Contrastingly, el árbol para el ego de datos (Figura 2B] contiene secuencias de más especies. Pienso que la definición de un ortholog grupo es menos estricto y, por tanto, los grupos se denominan grupos ortholog provisional. En consecuencia las secuencias son generalmente más distantes. Muchos grupos OrthoMCL (Fig. 2C] contienen gran cantidad de paralogs. OrthoMCL incluye proteínas de sólo el 55 seleccionados genomas. Paralogs se presentan en caso de que apareció después de la más reciente divergencia de los genomas incluido. Pienso que han HomoloGene y secuencias de un amplio espectro de especies, y, además, tratan de evitar la inclusión de paralogs. En ImmTree los tres conjuntos de datos con los correspondientes árboles se prestan, y el usuario puede usar cualquiera de ellos en función de sus necesidades. Para un panorama más general, ImmTree proporciona un cuarto de árboles (Fig. 2D] para combinar los datos de las tres bases de datos. En este árbol, sólo una secuencia de ADN de cada especie se incluye. ImmTree por lo tanto, permite a investigar cómo difundir ampliamente los genes se encuentran entre los taxones.

Conclusión

ImmTree es una nueva y única de datos de recursos para explorar la evolución molecular del sistema inmune. A pesar de excelentes bases de datos, tales como la base de datos Adaptive Evolution (TAED) [26] o la base de datos de Evolutiva Distancias (DED) [27] están disponibles para el estudio de evolución molecular, son sistemas generales para todos los genes. Sería difícil reunir evolución molecular de los datos relacionados con el sistema inmunológico de ellos. ImmTree es un recurso dedicado teniendo en cuenta las necesidades especiales de los investigadores de la evolución del sistema inmunológico. ImmTree facilita las consultas de acuerdo con el clásico de agrupaciones de funciones inmunitarias, como la inmunidad humoral, inmunidad celular, sistema del complemento. La base de datos se actualiza continuamente.

Disponibilidad y requisitos

El ImmTree base de datos está disponible gratuitamente para uso académico de la URL: http://bioinf.uta.fi/ImmTree

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

CO y MS recogidos de las secuencias de los genes immunome. CO llevó a cabo el análisis filogenético y MS recogidos los números de identificación vinculados a la immunome genes. MV diseñado y coordinado el proyecto y compilado la lista de genes y proteínas. Todos los autores el manuscrito redactado y aprobado su contenido.

Agradecimientos

Damos las gracias al Fondo de Investigación Médica de la Universidad de Tampere y el Hospital CAMKIN Red de Investigación de la Comisión Europea para apoyo financiero.