Immunome Research, 2006; 2: 4-4 (más artículos en esta revista)

En silico identificación de genes de citoquinas zarigüeya sugiere la complejidad del sistema inmunológico marsupial que los rivales de los mamíferos euterios

BioMed Central
SW Emily Wong (emilyw@vetsci.usyd.edu.au) [1], Lauren J Young (l.young @ cqu.edu.au) [2], Anthony T Papenfuss (papenfuss@wehi.edu.au) [3 ], Katherine Belov (kbelov@vetsci.usyd.edu.au) [1]
[1] Facultad de Ciencias Veterinarias, Universidad de Sydney, Sydney, New South Wales, Australia
[2] Escuela de Química y Ciencias Biomédicas, Universidad Central de Queensland, Rockhampton, Queensland, Australia
[3] División de Bioinformática, Walter y Eliza Hall Institute of Medical Research, Melbourne, Victoria, Australia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Citoquinas son pequeñas proteínas que regulan la inmunidad en especies de vertebrados. Marsupiales y mamíferos euterios últimos compartieron un ancestro común más de 180 millones de años atrás, por lo que no es de extrañar que los intentos de aislar a muchos marsupial citoquinas clave utilizando técnicas de laboratorio tradicionales no han tenido éxito. Esta escasez de datos moleculares ha llevado a algunos autores a sugerir que el sistema inmunológico marsupial es' primitivo 'y no a la par con el sofisticado sistema inmunológico de los euterios (placenta), los mamíferos.

Resultados

La secuenciación del primer genoma de marsupial nos ha permitido identificar muy divergentes inmune genes. Hemos utilizado métodos de predicción de genes que incorporan la identificación de la ubicación de genes utilizando BLAST, SYNTENY + BLAST HMMER y 23 para identificar los principales genes marsupial inmune, incluyendo IFN-γ, IL-2, IL-4, IL-6, IL-12 e IL -13, En el genoma de la gris de cola corta zarigüeya (Monodelphis domestica). Muchos de estos genes, no previstos en la disposición del público automatizado anotaciones.

Conclusión

La potencia de este enfoque quedó demostrado por la identificación de orthologous citoquinas entre los marsupiales y los euterios que comparten sólo el 30% de identidad en el nivel de aminoácidos. Por otra parte, la presencia de genes clave inmunológica sugiere que los marsupiales de hecho poseen un sofisticado sistema inmunológico, cuya función puede paralelo al de los mamíferos euterios.

Fondo

El marsupial y euterios (placenta) linajes divergieron aproximadamente 180 millones de años atrás. Marsupiales son principalmente distinguirse de otros mamíferos de su único estrategias reproductivas, con jóvenes nacidos en un estado inmaduro, con sólo el más elemental neurológicos e inmunológicos sistemas [1]. Al nacer, los animales maniobras el camino hacia un pezón de espera, donde se concede hasta que llegue a un estado de madurez que le permite funcionar de manera independiente. Marsupiales poseer tejido linfoide y los componentes celulares que son estructuralmente similares a las de otros mamíferos. Key antígeno del receptor y el reconocimiento de moléculas incluyendo Mayor de Histocompatibilidad (MHC) de Clase I, II y III [2], T Cell receptores alfa, beta, gamma y delta [3, 4], Toll-like receptor [5] y las inmunoglobulinas [6] se han caracterizado.

Sin embargo, las estrategias convencionales experimental utilizando cebadores degenerados de la transcriptasa inversa-reacción en cadena de polimerasa (RT-PCR) y sondas heterólogas para el cribado genético bibliotecas sólo han identificado la mayoría de filogenéticamente conservada inmune moléculas, con citocinas resultando especialmente difícil aislar [7]. Hasta la fecha, sólo once citoquinas uno de los cuales los receptores se han clonado a partir de los marsupiales. Estos incluyen el factor de necrosis tumoral alfa (TNF-α) [8, 9], lymphotoxin (LT) - y α - β [10, 11], interleucina IL-1 β [12], IL-1R2 [7], IL-5 [13], IL-10 [14], leucemia factor inhibitorio LIF, un miembro de la IL-6 la familia [15] y tres de interferón de tipo I (IFN) genes [16]. Estas citoquinas muestran relativamente altos niveles de identidad en comparación con sus homólogos euterios. Los anteriores intentos de aislar a los más divergentes de células T derivadas citoquinas que organizan la inmunidad adaptativa, como la IL-2, IL-4 e interferón-γ han fracasado [7, 17].

Identificación de diferentes marsupial inmune genes es importante por dos razones. En primer lugar, intentos fallidos para aislar las células T derivadas citocinas en el laboratorio ha llevado a algunos autores a sugerir que el sistema inmunológico marsupial es' primitivo 'y no posee el nivel de complejidad demostrada por los euterios, como seres humanos y ratones. El hecho de que algunas células T impulsadas por las respuestas también son aberrantes añade a este argumento. Marsupiales parece que han retrasado el rechazo del injerto de piel [18] y de anticuerpos clase de conmutación [19], junto con una aparente falta de una in vitro Respuesta mixta de linfocitos [20]. Elucidación de los genes implicados en la inmunidad específica nos ayudará a determinar si los aparentemente «simple» la respuesta inmune generada por marsupiales son genéticamente hardwired.

La segunda razón para la identificación de genes divergentes inmune en el genoma de marsupial es desarrollar marsupial reactivos inmunológicos específicos. Hasta la fecha, la mayoría de los sistemas de ensayo empleado para caracterizar las células y sus funciones se basan en euterios reactivos o técnicas de cultivo desarrolladas en euterios especies. En caso de que los bajos niveles de reactividad cruzada existen entre estos marsupiales y especies modelo, la utilidad de los datos generados a partir de estas determinaciones es limitado. Identificación de los principales marcadores de células, como CD4 y CD8 nos permitirá generar marsupial reactivos específicos, que luego se utiliza para obtener una mejor comprensión de la respuesta inmune marsupial.

Las dificultades asociadas con la identificación rápida evolución de las citoquinas no se limitan a los marsupiales. El pollo IL-2 genes tomó siete años de esfuerzo se centró en identificar [21], y finalmente fue encontrado utilizando estrategias de expresión y no heteróloga las técnicas de clonación. La reciente secuenciación del genoma completo de un gran número de no-euterios vertebrados se acelere el aislamiento y caracterización de estos genes inmunes a las especies alejadas. Sin embargo, actualmente automatizado anotación técnicas no son lo suficientemente sensibles como para identificar muchas de estas moléculas fuera de los euterios linaje.

El primer marsupial genoma fue secuenciado recientemente por el Instituto Broad. El objeto de este proyecto, Monodelphis domestica, es una zarigüeya sudamericana. Es bien reconocido modelo biomédico en el estudio comparativo de la fisiología, la inmunogenética, el desarrollo del cáncer y la susceptibilidad a la enfermedad. Dos anotaciones a disposición del público de este genoma se han generado. Ensembl han producido un gen construir con sus automático oleoducto [22], que se basa principalmente en GeneWise [23], mientras que el genoma UCSC navegador proporciona varias pistas anotación similitud con las características y los modelos de genes, por ejemplo encadenados TBLASTN alineaciones de proteínas humanas, Blat alineaciones RefSeq de mRNAs, y Genscan [24] y N-SCAN [25] predicciones. Con la excepción de la Genscan predicciones, que son ab initio gen predicciones basadas en secuencia genómica sólo, el gen se basa confiar en cruzar especies de homología, ya que no en gran escala zarigüeya EST proyectos han finalizado todavía y sólo hay 425 zarigüeya conocido secuencias de proteínas en GenBank. En la mayoría de los casos, Ensembl y la UCSC genoma navegador no pudieron identificar muy divergentes genes de citoquinas como la IL-2, 4 y 13.

Para superar esta deficiencia en el tratamiento automatizado de anotación de la zarigüeya genoma y comenzar a hacer frente a las incertidumbres acerca de la función inmune en los marsupiales, hemos adoptado un manual, curada de expertos para describir genes muy divergentes. La primera y fundamental de esta etapa es la identificación cuidadosa de la región genómica que contiene el gen. Esto se realiza mediante una búsqueda TBLASTN sensibles. HMMER [26] también pueden ser útiles en esta etapa. Con frecuencia, es necesario en primer lugar reducir la búsqueda a las syntenic región mediante la identificación de genes conservados de acompañamiento.

Una vez identificados similitud características, la predicción de genes se realiza en secuencia genómica extraídos de la región. La precisión de la predicción de genes depende del método de predicción. Al igual que con el tratamiento automatizado de anotaciones, estamos a favor de genes predictores que incorporen información de orthologous secuencias en el proceso de predicción. Además de GeneWise y N-Scan, en la actualidad hay varios de estos métodos disponibles incluyendo Procusto [27], HMMgene, [28] GenomeScan [29], y Augusto + [30]. Procusto y el algoritmo por defecto GeneWise realizar longitudinalmente alineación. Augusto + utiliza un enfoque interesante, lo que limita previsto para incorporar genes de usuario suministrado por pistas. Sin embargo, no es especialmente conveniente para el uso manual o el uso de los biólogos carecen de habilidades de scripting. Si bien no es la única elección posible, hemos encontrado GenomeScan ser a la vez conveniente y razonablemente precisa (sobre la base de comparación con las secuencias conocidas euterios). Cabe señalar que existe otra clase de métodos de predicción de genes que obtener información de homología syntenic regiones de otros genomas. Estos incluyen TwinScan [31], que es asimétrica y predice los genes en un genoma único y SLAM [32], al mismo tiempo que alinea dos genomas y genes predice en ambos. Estos métodos fueron poco probable que sea útil en nuestro estudio como estábamos buscando genes que son muy divergentes y difíciles de adaptar a la genómica. Por último, una comparación de predecir resultados con secuencias conocidas euterios y curación de los resultados se llevó a cabo, si es necesario. Nuestro éxito con esta estrategia sugiere que este método será aplicable a la determinación de la rápida evolución de las familias de genes en otras especies de vertebrados lejano.

Resultados
Descripción general

En la búsqueda silico reveló un total de 23 secuencias de citoquinas, todos los cuales se describen en la zarigüeya por primera vez y 5 de los cuales son nuevos para cualquier especie marsupial (véase el cuadro 1]. Una serie de críticas de receptores de citoquinas son también identificados, como son las secuencias para el sello distintivo de células T grupo de marcadores de diferenciación, CD4 y CD8.

La mayoría de los genes indicados en el presente estudio se identificaron utilizando sensibles péptido búsquedas BLAST (Cuadro 2]. La mayoría de los genes divergentes, las interleucinas 2, 4 y 13, fueron identificados mediante las búsquedas synteny. Propiedades de la putativo proteínas identificadas en este estudio, predice las estructuras y la comparación con las secuencias de humano se resumen en los cuadros 1 y 2. Secuencia de los datos previsto proteínas están disponibles en línea [33].

Aislamiento de las interleucinas usando BLAST y synteny búsquedas

Interleucinas 2, 4 y 21 y su cadena gamma común del receptor se identificaron utilizando tanto BLAST syntenic y estrategias. IL-21 fue identificado por una búsqueda TBLASTN sensibles (e-valor = 2e-18) en el cromosoma 5:7034081-7057815. La proteína es predicho de similar tamaño y contiene el mismo número de exones como humanos IL-21 [véase el archivo adicional 1]. El péptido señal se predijo a ser codificados dentro de los primeros 21 aminoácidos (Resultado = 7,6, p = 0,06), con N-glicosilación sitios vinculados previsto en las posiciones 46 y 106 y O-glicosilación ligados de treonina previsto en la posición 55. La inestabilidad motivos (ATTTA) no se encuentra en el 3 'UTR de la secuencia antes de la poli (A) + señal.

Zarigüeya IL-2 se encontró la búsqueda de secuencia genómica de acompañamiento IL-21, que es adyacente a, y tiene un peso significativo en homología estructural con IL-2 en los seres humanos [véase adicional del archivo 2]. Esta estrategia fue adoptada desde la alineación de la IL-2 contra la zarigüeya genoma utilizando TBLASTN no dio lugar a éxitos. A 395 kb región adyacente a IL-21 fue extraído y el 15 de genes dentro de esta región se predijo con GENSCAN. El gen predice más parecida a la IL-2 fue identificado mediante BLASTP. La secuencia fue extraído y GenomeScan se utilizó con un IL-2 orthologue para obtener una predicción más exacta. Zarigüeya IL-2 se localiza en el cromosoma 5:7191593-7196834 (Fig 1] y contiene varios residuos conservados esencial para actividades biológicas, entre ellas dos residuos de cisteína que proporcionan estabilidad estructural [34] y los aminoácidos leucina y ácido aspártico en una hélice, que son cruciales para la unión de ligando a IL-2R β en los seres humanos [35]. También buen estado de conservación es un residuo de glutamina en la hélice D, que participa directamente en la unión de la IL-2R γ cadena [36]. Al igual que la secuencia humana, el péptido se putativo 142 aminoácidos de longitud y consta de 4 exones. Una señal péptido que contiene un potencial de O-glicosilación ligados sitio (posición 13 - Thr) se predice a partir de posiciones 1-22 (Resultado = 9,9, p = 0,03). Un potencial de N-glicosilación ligados sitio, no se encuentra en los seres humanos o los ratones, pero presente en varios euterios incluido el gato y perro, se encuentra en la posición 101. Cuatro mRNA inestabilidad motivos (ATTTA) están presentes antes de la poli (A) + señal.

Zarigüeya IL-2R γ se identificó utilizando TBLASTN (e-valor = 8 E-119) (Cuadro 1]. Comparte el 61% de aminoácidos similitud con la secuencia humana [ver ficheros adicionales 3].

IL-5 fue identificado en el cromosoma 1:307529660-307531352. Comparte 53,0% de identidad para la IL-5, y el 86,7% de identidad a la tammar WALLABY IL-5 [13] [véase el archivo adicional 4].

Synteny búsquedas encuentra la secuencia de IL-4 [ver ficheros adicionales 5]. RAD50 (GenBank no adhesión: AAB07119 ) Y kinesin-como la proteína KIF3A (GenBank no adhesión: NP_008985 ) Están situados junto a IL-4 e IL-13 en los seres humanos. La zona comprendida entre estas proteínas en zarigüeya se extrajo y GENSCAN predicciones se hicieron búsquedas con BLASTP y FASTP adecuado para los partidos. IL-4 fue identificada utilizando FASTP y se localiza en el cromosoma 1 (307752915-307754456). El péptido previsto es de 138 aminoácidos de longitud (Fig 2]. Tiene bajos niveles de identidad para la IL-4 (30,8%). Dos putativo N-glicosilación ligados sitios fueron identificados. SPScan no pudo predecir una supuesta secuencia de señales de inestabilidad, aunque dos motivos (ATTTA) fueron reconocidos en el 3 'UTR región. A pesar de la variación de la secuencia entre la zarigüeya y predijo humanos IL-4 secuencias de proteínas, disulfuro de bonos que se unan hélice B del CD bucle y que son importantes para la actividad biológica se conservan [37].

IL-4 e IL-13 se identificaron simultáneamente usando un enfoque syntenic ya que se sientan adyacentes en el genoma humano [véase el archivo adicional 5]. Zarigüeya IL-13 (cromosomas 1:307682382-307686155) se encuentra 74,30 kb upstream de zarigüeya IL-4 y no contiene ninguna glicosilación sitios. Alineación con los mamíferos y las secuencias de proteínas de pollo (Fig 3] reveló un truncamiento de 32 aminoácidos de los 5 'finales del péptido en zarigüeya IL-13. Esto se debe probablemente a la predicción de genes incorrectos, un hecho apoyado por la ausencia de péptido señal y toda la inestabilidad motivos.

Zarigüeya IL-6 fue identificado mediante una búsqueda TBLASTN sensibles (e-valor = 0,08). Zarigüeya IL-6 se localiza en el cromosoma 8:296810942-296824133 y la PROSITE IL-6 motivos familiares (Cx (9)-Cx (6)-GLX (2) - [M, Y]-x (3)-L) se conserva [ver ficheros adicionales 6]. El péptido señal se predice a partir de posiciones 1-28 (Resultado = 8,1, p = 0,20) y no la inestabilidad motivos (ATTTA) se encuentran en el 3 'UTR. Zarigüeya IL-6 ha mantenido estructurales significativas similitudes con humanos y otros mamíferos IL-6 genes a pesar de su relativamente bajo la identidad de secuencia. El número y posición de residuos de cisteína en zarigüeya IL-6 son idénticas a las que se encuentran en euterios y secuencias de pollo. Una molécula de arginina en hélice D que se dedica a IL-6 β vinculante [38] también se conserva.

Zarigüeya IL-12 cadena alfa (chr7 :260616009-260626803) fue identificado mediante una búsqueda TBLASTN y se prevé que ser el 58% similar a su orthologue humanos [véase el archivo adicional 7]. Residuos de cisteína se conservan entre los marsupiales, los euterios y secuencias de pollo.

IL-10 miembros de la familia fueron identificados en dos grupos. El cromosoma 2 que figura IL-10 (113139397-113144942; [ver ficheros adicionales 8]], IL-19 (113283404-113294773; [ver ficheros adicionales 9]], IL-20 (113319666-113324608; [véase la Ficha 10]] , IL-24 (113362216-113377467; [ver archivo adicional 11]] con idénticos de cabeza a cola transcripcional orientación y organización para su orthologues humanos. El cromosoma 8 que figura IL-26 (23485674-23494985; [ver archivo adicional 12]] e IL-22 (23457582-23460076; [ver archivo adicional 13]]. La completa IL-22 abierta marco de lectura no se identificó desde el extremo 3 '(aproximadamente 33 aminoácidos y 2 exones) se redujo en un unsequenced brecha. Sin embargo, la conservación de unas previsiones de N-glicosilación sitio vinculado a N54 entre putativo zarigüeya IL-22 y IL humanos-22 (un sitio crucial para IL-22 durante la modulación de la respuesta inflamatoria) sugiere que esta es la secuencia parcial zarigüeya IL-22. Tanto el pollo y los anfibios contienen IL-10 miembros de la familia, aunque sólo un IL-19-gen ancestral como sustituye a IL-19, IL-20 e IL-24 en el pollo [39]. Orthology de la IL-10 citoquinas familia con sus homólogos euterios fue confirmado por análisis filogenético [ver archivo adicional 14]. Todos los putativo IL-10 miembros de la familia agrupados en estrecha colaboración con sus euterios orthologs.

El aislamiento del grupo de marcadores de diferenciación utilizando TBLASTN

CD4 [ver archivo adicional 15] y CD8 [ver archivo adicional 16] fueron identificados por TBLASTN búsqueda y encontró en el cromosoma 8 (104157682-104183462) y el cromosoma 1 (716671734-716675645), respectivamente. Su número de aminoácidos y los posibles sitios de glicosilación se observan en la Tabla 2. Ni nosotros, ni Ensembl, fueron capaces de predecir con éxito la terminal de los exones de estos dos genes.

Aislamiento de interferones utilizando BLAST, synteny y modelos ocultos de Markov
Nivel de confianza en nuestros genes predicciones

Siempre que sea posible, las predicciones de genes fueron verificadas por la adaptación a conocer las secuencias de cDNA marsupial, y en comparación con las predicciones Ensembl gen y semejanza UCSC características. Por ejemplo, una conocida secuencia de cDNA está disponible para Trichosurus Vulpecula (possum) IL-10 cDNA (GenBank ref: AF026277 ). Nuestro predijo zarigüeya IL-10 comparte la proteína 76% de aminoácidos con identidad possum IL-10, y el exón-intrón límites partido. Sin embargo, a pesar de nuestro uso de metodologías sólidas, que aún no se confía con la predicción de los más divergentes inmune secuencias de genes. Algunos duda existe con nuestros previsiones para IL-4 e IL-13 y la terminal de exones de IL-22, CD4 y CD8. Caracterización de su cDNA, junto con el laboratorio de ensayos basados en última instancia, confirmar la fiabilidad de las predicciones informó aquí.

Discusión

Sin EST y bases de datos de proteínas, anotación alejadas de las especies de mamíferos como marsupiales y los monotremes es un reto. Ni tampoco Ensembl UCSC fueron capaces de identificar la IL-2, 4, 13, 22 e IFN-γ. En general, la predicción de genes automatizado perdido genes clave inmune debido a sus bajos niveles de similitud de secuencias con sus euterios orthologs. Sugerimos que los futuros estudios centrados en la minería in silico de los genes divergentes deben tener en cuenta la localización de genes y características. La aplicación de esta estrategia nos permitió identificar con éxito clave inmune genes en el genoma zarigüeya, que los métodos de laboratorio tradicionales no aislar.

Descubrimiento de las principales citoquinas en la zarigüeya genoma sugiere que un nuevo examen de la respuesta inmune (sobre todo las respuestas de células T) se justifica en marsupiales. Las peculiaridades de la clase de conmutación e in vitro la proliferación de las células T, los cuales han sido previamente observado en marsupiales son en gran medida controlada por las células T y sus productos. La capacidad de discriminar entre el clásico 'ayudante' y las células T "citotóxicos" las familias de células T será ahora posible gracias a la identificación de CD4 y CD8 en las secuencias del genoma zarigüeya. Además, la identificación de citoquinas producidas normalmente por estos subgrupos en los mamíferos euterios nos permitirá investigar Th1 y Th2 que los perfiles de orquestar la inmunidad a intracelular y extracelular patógenos, respectivamente.

Hay una multitud de interacciones entre citocinas a nivel celular, pero la presencia de una serie de citoquinas orquestar la respuesta inmune global. Por ejemplo, cuando los macrófagos derivados de IL-12 es dominante, predominan las respuestas Th1 resultante en inmunidad celular. Cuando las células B del factor de crecimiento IL-4 es el que predomina, dominan las respuestas Th2 y una respuesta inmune humoral se activa [40]. Secuencias para los dos de estos genes están presentes en el genoma zarigüeya, junto con otros clásicos-Th1 (IL-2, IFN-γ) y Th2-(IL-4, IL-5, IL-6, IL-10 e IL - 13) moléculas asociadas.

La presencia de las principales citoquinas en un marsupial genoma sugiere firmemente que los marsupiales son capaces de compleja respuesta inmune comparable a las observadas en los mamíferos euterios. El conocimiento de estas secuencias de genes proporciona un trampolín para futuros estudios. Por ejemplo, marsupiales parecen ser susceptibles a la infección por patógenos intracelulares como virus herpes y micobacterias spp [41], indicativo de alteración de las respuestas de citocinas Th1. La disponibilidad de Th1 y Th2 de citoquinas secuencias nos permitirá estudiar IL-10 perfiles, lo que se sabe que juegan un papel fundamental en la supervivencia de patógenos intracelulares mediante la inhibición de la expresión de citoquinas inflamatorias tales como el IFN-γ y TNF. Mientras tanto, los estudios de citocinas Th2 pueden centrarse en la protección contra los parásitos. Los dos americanos y australianos marsupiales coexisten con una serie de éxito de los parásitos; opossums, según se informa, han naturales tripanosoma las tasas de infección de hasta el 100% [42] y llevar cargas de nematodos en el medio natural [43], mientras que una variedad de infecciones por helmintos son común a través de una serie de marsupiales de Australia [44].

Aloinjerto respuestas ahora pueden ser estudiadas debido a la disponibilidad de la información secuencial de las interleucinas 2, 4, 21 y IL-2R γ [45]. La zarigüeya es un importante modelo para la inmunología tumoral, ya que pueden ser inducidos a aceptar las células del melanoma, tanto en juveniles y adultos etapas de la vida [46]. Tanto la IL-2 e IL-24 están asociados con melanoma supresión tumoral [47] en los seres humanos y ahora es posible estudiar la función de estos genes en el modelo de zarigüeya, así como en el mantenimiento de transmisibles aloinjerto en tumores faciales diablo de Tasmania enfermedad tumoral [48].

Conclusión

En este sentido, describir y aplicar un método para identificar genes divergentes inmune de la genoma de un marsupial modelo, Monodelphis domestica. Estamos ahora ampliar este análisis para caracterizar toda la zarigüeya immunome. Presentamos aquí que la zarigüeya genoma contiene representantes de los principales vertebrados inmune familias de genes. Estos genes parecen ser estructuralmente similares, y, por tanto, más probable es que resulte ser el equivalente funcional, a sus homólogos euterios. Se ha allanado el camino a seguir sonda los genes que orquestar la respuesta inmune marsupial y para investigar el papel que estas moléculas tienen en el mantenimiento de la salud e influir en la susceptibilidad a la enfermedad en este singular grupo de animales.

Métodos
Fuente de datos

El proyecto de secuenciación del genoma de una mujer zarigüeya (Monodelphis domestica), ha sido recientemente completado por el Broad Institute [49]. El análisis se realizó en asamblea MonDom4 (enero de 2006).

Secuencia de identificación

Para optimizar las posibilidades de identificar las secuencias previamente desconocidos, nuestra estrategia de búsqueda se basó en un anteproyecto de base de datos de pantalla para la secuencia de conservación, junto con la posición del análisis de secuencias de genes en relación con otros genes en el genoma (synteny). Por último, la supuesta secuencia se analizó la presencia de los sitios biológicamente importantes asociadas con ambos la estructura y la función a sus homólogos euterios.

Similitud búsqueda con BLAST

Secuencia similitud búsqueda (TBLASTN) se ha realizado con las secuencias conocidas euterios. Positivos éxitos de la explosión de búsqueda con un buen potencial fueron extraídos para su ulterior análisis estructural. Cuando existen ambigüedades entre las alineaciones de BLAST resultados, cada uno de los múltiples éxitos fueron extraídos y de inspección. Los métodos de evaluación para ambigua éxitos incluyen las pruebas de detección de reciprocidad-mejor-que golpeó la secuencia fue alineado en contra de blasted SWISS-PROT y TrEMBL proteína bases de datos para confirmar los resultados preliminares. Las proteínas descubiertas en BLAST búsquedas se utilizan para las minas adicionales homólogos. Para ello, se han optimizado los parámetros sensibles para la búsqueda. Con el fin de aumentar nuestra capacidad para detectar secuencias muy divergentes, la similitud BLOSUM 45 matriz [50] fue utilizado. Además, la aplicación de soft-enmascaramiento y la reducción del barrio palabra umbral Resultado al 9 de aumento de la probabilidad de detectar secuencias homólogas que de otro modo podrían haberse pasado por alto usando parámetros por defecto.

Synteny análisis

Si la proteína de interés no fue detectada por la búsqueda inicial de BLAST, otros métodos fueron utilizados. Similitud búsquedas se realizaron con los genes encontrados en estrecha syntenic regiones en el genoma humano. Syntenic regiones fueron extraídos de la base de datos zarigüeya, y pasó a GENSCAN [24]. El péptido predijo secuencias fueron analizadas por la realización de búsquedas de similitud en contra de la SWISS-PROT y TrEMBL bases de datos utilizando BLASTP y FASTP [51]. Con el fin de mejorar la exactitud de citoquinas identificado las secuencias, la secuencia se volvió a extraídos de la zarigüeya y la base de datos de proteínas putativo fue re-evaluado utilizando GenomeScan [29]. Resultados combinados de GenomeScan y GENSCAN fueron documentados en comparación con características estructurales de las citoquinas.

Se establecerán métodos para la identificación de genes

Para secuencias que no fueron detectados utilizando los métodos anteriores, un modelo ocultos de Markov (Hmm) fue construido y calibrado utilizando el paquete HMMER 2.3.2 [52]. El modelo fue construido como un múltiplo local alineación con el perfil Krogh / Mitchison sustitución de peso matriz [53] y se utilizan para la búsqueda de seis traducción marco de la zarigüeya genoma.

Secuencias ancestrales se incluyeron en la Hmm. Estas fueron calculadas por programas en el paquete Phylip [54]. PRODIST se utilizó para calcular una distancia matriz en virtud de la configuración predeterminada. Después de esto, el vecino programa utilizado para crear un vecino unirse (NJ) árbol de la matriz. El árbol tiene sus raíces con un teleósteo especies. A raíz de esto, ProML se fijó para producir secuencias ancestrales en cada uno de los nodos del árbol NJ.

Características estructurales

Una vez que el gen de interés se encuentra, el exón / intrón límites fueron identificados con los programas de predicción de genes GENSCAN [24] y GenomeScan [29]. Nuestra experiencia sugiere que algunos se aconseja precaución en la interpretación de los datos existentes de software de predicción de genes; excesivamente largo predijo genes ( 'thready' gen predicciones), debido a errores de identificación de la primera y la fusión de los exones de los genes adyacentes, y las predicciones poco probable de los sitios de empalme (basado en comparación con las secuencias de orthologous) fueron los problemas más comunes que hemos detectado. Consciente de estas limitaciones, nuestros genes predicciones se compararon con las estructuras de genes conocidos. La presencia de péptidos señal se predijo por SPScan (Accelrys GCM) y la estimación de glicosilación sitios se hicieron con NetOGlyc 3,1 [55] y NetNGlyc 1,0 [56]. Por último, las secuencias se presentaron a la base de datos PROSITE [57] para la detección de proteínas familia motivos que confirme identificar genes.

Secuencia de alineaciones

Secuencias de la zarigüeya y otras especies fueron alineados utilizando ClustalW [58]. Adhesión de secuencias de números utilizados en los análisis se muestran en las leyendas de las figuras. Secuencia de etiquetas en las alineaciones se abrevian de la primera letra del género con las dos primeras letras de la especie nombre seguido por el nombre de genes. En cifras, los residuos con importancia funcional se destacan.

Análisis filogenético

Vecino a participar (NJ) árboles se construyeron utilizando la Jones-Taylor-Thornton modelo de sustitución [59] y 500 repeticiones de arranque en 3,1 MEGA [60]. El árbol, construido a partir de secuencias de aminoácidos, tiene sus raíces utilizando secuencias de pollo.

Secuencia de identidad

Secuencia de la identidad y la similitud cálculos se llevaron a cabo utilizando BPA (Accelrys GCG), con la Needleman-Wunsch alineación [61], con excepción de IFN-α genes que se calcularon en GenDoc [62] utilizando el BLOSUM 35 similitud matriz [50] para las comparaciones de medios humanos y zarigüeya IFN-α y genes matriz BLOSUM 80 [50] para las comparaciones entre secuencias de zarigüeya. GCG, GENSCAN, BLASTP y FASTA programas se accede a través de la Australian National Genómica Servicio de Información (ANGIS) [63].

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

EW realizado estudios de la bioinformática y ayudó a redactar el manuscrito

LJY escribió el manuscrito final y participó en el diseño del estudio

ATP revisado críticamente los datos de bioinformática y coordinado el diseño de la bioinformática enfoque

KB concibe el estudio y coordinado y ayudado con la preparación del manuscrito final

Todos los autores leído y aprobado el manuscrito final

Material complementario
Archivo Adicional 1
La adaptación de la IL-21 secuencias de aminoácidos
Plazas por encima de la alineación de glicosilación previsto mostrar sitios de la secuencia de zarigüeya. Residuos Asp33 y Gln145 son importantes para los receptores obligatorio en los seres humanos y se señalan con un diamante [71]. Triángulos invertidos indican los residuos de cisteína que se conservan en todas estas especies. Puntos representan a la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
Q9HBE4
),
Mus musculus
(
NP_068554.1
),
Gallus gallus
(
NP_001020006.1
),
Canis familiaris
(
NP_001003347.1
),
Sus scofa
(
Q76LU6
),
Bos taurus
(
Q76LU5
).
2 ficheros adicionales
Syntenic región entre el ser humano el cromosoma 4q27 y zarigüeya cromosoma 5, que ilustra la agrupación de genes de interleucina 2 y 21
Transcripcional direcciones se indican con flechas.
3 ficheros adicionales
IL-2R γ secuencias de aminoácidos
Residuos conservados de cisteína están marcados con un triángulo invertido. Puntos representan a la identidad
Monodelphis domestica
secuencia. Completamente residuos conservados que están sombreadas. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_000197.1
),
Mus musculus
(
NP_038591.1
),
Gallus gallus
(
NP_989858.1
),
Rattus norvegicus
(
NP_543165.1
),
Canis familiaris
(
NP_001003201.1
),
Sus scrofa
(
NP_999248.1
),
Bos taurus
(
NP_776784.1
).
4 de ficheros adicionales
Alineación de IL-5 secuencias de aminoácidos
Puntos representan a la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_000870.1
),
Macaca mulatta
(
NP_001040598.1
),
Bos taurus
(
NP_776347.1
),
Canis familiaris
(
NP_001006951.1
),
Mus musculus
(
NP_034688.1
),
Macropus eugenii
(
AAD37462.1
),
Gallus gallus
(
NP_001007085.1
).
5 de ficheros adicionales
Syntenic región entre el ser humano el cromosoma 5q23.3 zarigüeya y el cromosoma 1, que ilustra la agrupación de genes de interleucina 5, 4 y 13
Transcripcional direcciones se indican con flechas.
6 ficheros adicionales
Alineación de IL-6 secuencias de aminoácidos
Residuos que participan en los receptores obligatorio en humanos IL-6 están señalados con diamantes. Residuos de cisteína conservados entre todas las especies están marcados con un triángulo invertido. PROSITE familia es motivo de caja. Puntos representan a la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_000591.1
),
Mus musculus
(
NP_112445.1
),
Oryctolagus cuniculus
(
Q9MZR1
).
7 ficheros adicionales
La adaptación de la IL-12 α secuencias de aminoácidos
Residuos de cisteína conservados entre todas las especies están marcados con un triángulo invertido. Puntos representan a la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_000873.2
),
Mus musculus
(
NP_032377.1
),
Gallus gallus
(
NP_998753.1
),
Rattus norvegicus
(
NP_445842.1
),
Ovis aries
(
NP_001009736.1
)
Canis familiaris
(
NP_001003293.1
).
8 de ficheros adicionales
La adaptación de la IL-10 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_000563.1
),
Mus musculus
(
NP_034678.1
),
Gallus gallus
(
NP_001004414.1
),
Trichosurus vulpecular
(
AAD01799
),
Canis familiaris
(
NP_001003077.1
),
Sus scofa
(
Q29055
),
Cervus elaphus
(
P51746
).
9 de ficheros adicionales
La adaptación de la IL-19 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_037503.2
),
Mus musculus
(
NP_001009940.1
).
10 ficheros adicionales
La adaptación de la IL-20 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_061194.2
),
Mus musculus
(
NP_067355.1
),
Tetraodon nigroviridis
(
AAP57416.1
).
11 ficheros adicionales
La adaptación de la IL-24 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_006841.1
),
Mus musculus
(
NP_444325.1
),
Rattus norvegicus
(
NP_579845.1
),
Tetraodon nigroviridis
(
AAP57418.1
).
12 ficheros adicionales
La adaptación de la IL-26 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_060872.1
),
Danio rerio
(
NP_001018635.1
).
13 ficheros adicionales
La adaptación de la IL-22 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_065386.1
),
Mus musculus
(
NP_058667.1
),
Sus scofa
(
AAX33671.1
),
Rattus norvegicus
(
ABF82262.1
),
Danio rerio
(
NP_001018628.1
).
14 ficheros adicionales
- Participar vecino árbol de la IL-10 la familia de proteínas ligando secuencias punto medio de sus raíces
JTT sustitución de aminoácidos matriz se utilizó de arranque y 500 repeticiones realizadas. Sucursales apoyada por los valores de arranque más de 70 están en negrita. Zarigüeya secuencias están marcadas por triángulos. Secuencias utilizadas para este análisis fueron
Homo sapiens
IL-10 (
NP_000563.1
), IL-19 (
NP_715639.1
), IL-20 (
NP_061194.2
), IL-22 (
NP_065386.1
), IL-24 (
NP_006841.1
), IL-26 (
NP_060872.1
);
Mus musculus
IL-10 (
NP_034678.1
), IL-19 (
NP_001009940.1
), IL-20 (
NP_067355.1
), IL-22 (
NP_058667.1
), IL-24 (
NP_444325.1
);
Rattus norvegicus
IL-24 (
NP_579845.1
);
Sus scofa
IL-10 (
Q29055
);
Bos taurus
IL-10 (
P43480
);
Trichosurus vulpecular
IL-10 (
AAD01799
);
Gallus gallus
IL-10 (
NP_001004414.1
);
Cyprinus carpio
IL-10 (
BAC76885.1
);
Tetraodon nigroviridis
IL-10 (
CAD67786.1
);
Takifugu frote
ripes IL-10 (
CAD62446.1
)
Danio rerio
IL-26 (
NP_001018635.1
) Y
Monodelphis domestica
Secuencias de etiquetas en el árbol se abrevian de la primera letra del género con las dos primeras cartas del nombre específico seguido por el nombre de genes.
15 ficheros adicionales
Alineación de CD4 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_000607.1
),
Mus musculus
(
NP_038516.1
),
Macaca mulatta
(
BAA09671.1
)
Felis Gato
(
NP_001009250.1
),
Rattus norvegicus
(
NP_036837.1
)
Oncorhynchus mykiss
(
AAY42068.1
).
16 ficheros adicionales
Alineación de CD8 secuencias de aminoácidos
Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_001759.3
),
Mus musculus
(
Q60965
),
Gallus gallus
(
NP_990566.1
),
Canis familiaris
(
NP_001002935.1
),
Sus scofa
(
NP_001001907.1
),
Rattus norvegicus
(
AAH88126.1
).
17 ficheros adicionales
Alineación de IFNGR-2 secuencias de aminoácidos
Residuos de cisteína conservados entre todas las especies están marcados con un triángulo invertido. Puntos para indicar la identidad
Monodelphis domestica
secuencia. Secuencias utilizadas para la adaptación:
Homo sapiens
(
NP_005525.2
),
Mus musculus
(
NP_032364.1
),
Gallus gallus
(
NP_001008676.1
).
Agradecimientos

Este trabajo fue financiado por el Consejo de Investigación Australiano (KB), Universidad Central de Queensland (LJY) y la Universidad de Sidney (KB). EW de la beca de doctorado es financiado por la ARC Canguro Centro de Genómica y la Jean Walker Trust. Damos las gracias al Broad Institute (especialmente Kerstin Lindblad-Toh y abril de Cook) para que nos proporciona un acceso fácil a la zarigüeya y los datos relativos al genoma de una secuencia adicional de BAC que era importante para este estudio. También agradecen el apoyo y el aliento de Terry Velocidad, que contribuyó a los gastos de publicación de este manuscrito.