Genome Biology, 2005; 6(4): R39-R39 (más artículos en esta revista)

Piloto Anopheles gambiae cDNA de longitud completa de estudio: la secuencia inicial y caracterización de clones 35575

BioMed Central
Shawn M Gómez (sgomez@pasteur.fr) [1], Karin Eiglmeier (kei@pasteur.fr) [1], Beatrice Segurens (segurens@genoscope.cns.fr) [2], Pierre Dehoux (pdehoux@pasteur.fr ) [3], Arnaud Couloux (acouloux@genoscope.cns.fr) [2], Claude Scarpelli (claude@genoscope.cns.fr) [2], Patrick Wincker (pwincker@genoscope.cns.fr) [2], Jean Weissenbach (jsbach@genoscope.cns.fr) [2], Paul T Brey (pbrey@pasteur.fr) [1], Charles W Roth (croth@pasteur.fr) [1]
[1] Biochimie Unité de Biologie Moléculaire et des Insectes y FRE CNRS 2849, Institut Pasteur, 75724 París Cedex 15, Francia
[2] Genoscope / Centre National de Séquençage y CNRS UMR 8030, 91057 Evry Cedex, Francia
[3] Plate-forme Intégration et Analyse Génomiques, Institut Pasteur, 75724 París Cedex 15, Francia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Un análisis preliminar de más de 35000 clones de una completa biblioteca de cDNA enriquecida longitud de la malaria mosquito vector Anopheles gambiae identifica casi 3700 genes, entre ellos un gran número de genes que no se habían anotado anteriormente.

Antecedentes

La malaria es actualmente considerada como la más importante enfermedad tropical, que afligen a 300-500 millones de personas, y matando a más de 1 millón al año [1]. Es causada por la infección de los humanos con un solo huésped-parásito unicelulares pertenecientes al género Plasmodium y se basa en hembras de los mosquitos del género Anopheles para su transmisión. La reciente secuenciación de todo el genoma de Anopheles gambiae, que es el principal vector en el África subsahariana de Plasmodium falciparum - el agente de la forma más común y mortal de la malaria tipo - ahora proporciona a los investigadores un amplio conjunto de datos con los que para comprender mejor este insecto Vector y en el desarrollo de posibles soluciones a la malaria [2].

Anotación de la A. Gambiae genoma mediante la definición de los genes y otras características genómica es el primer paso en el movimiento de la esfera de una simple secuencia del genoma a una función de la comprensión de genes. Sumamente importante para este esfuerzo es la acumulación de secuencias de alta calidad de datos capaz de refinación, las características estructurales de los genes conocidos y revelar los genes hasta ahora desconocidos. Lamentablemente, antes de la finalización de la secuencia del genoma, muy pocos genes de Anopheles fueron bien caracterizados experimentalmente, con las excepciones principalmente genes están implicados ya sea en olfacción o en la interacción huésped-parásito (por ejemplo, genes de inmunidad innata).

Si bien la cantidad y la calidad de la secuencia de datos a disposición del público está mejorando, un segundo gen completo Anopheles construir en octubre de 2003 por Ensembl se pueden utilizar sólo 40.000 etiquetas de secuencias expresadas (EST) secuencias en el gen EST construir, dejando de genes depende en gran medida de las predicciones La búsqueda de regiones homólogas con Drosophila, un organismo que divergen de Anopheles más de 250 millones de años [3 - 5]. Un reciente análisis preliminar de la Anopheles anotación del genoma sugiere que esta falta de datos de la secuencia, junto con los posibles problemas de montaje y de la ausencia de un organismo estrechamente relacionado a su uso en comparaciones de homología, está resultando un reto importante para los actuales intentos de anotación del genoma [6] . Al igual que otros grupos [7, 8], hemos iniciado un programa para aumentar la cantidad total de la secuencia de datos experimentales y mejorar los actuales modelos de genes Anopheles. A diferencia de datos de EST, de larga duración cDNA bibliotecas están sesgadas hacia copias completas transcripciones de mRNA y, por tanto, proporcionar un número significativamente mayor de información, incluida la estructura exón-intrón, así como la primera y la última exones (a menudo los más difíciles de identificar in silico [9]] , Splicing alternativo, el correcto inicio codón (s), y la plena secuencia de codificación de proteína. Además, las transcripciones de larga duración puede ser utilizado en la optimización de la expresión de genes de los estudios y se puede utilizar directamente como plantillas para la síntesis de proteínas.

En este sentido, el informe de la secuencia y el análisis preliminar de 67044 lee de una completa biblioteca de cDNA de longitud enriquecido derivados de los adultos de todo el organismo femenino A. Los mosquitos gambiae. Estas secuencias fueron inicialmente agrupados unos con otros y, a continuación, se suman a la secuencia del genoma de Anopheles, y corresponden a aproximadamente 3700 genes. Casi 650 de estos genes parece ser nueva, ya que ni se superponen ni simplemente los modelos anteriores Ensembl gen. Además, las agrupaciones que coincidan con las definiciones anteriores gen mejora de esas definiciones en el 85% de los casos. Estos resultados ponen de manifiesto tanto la utilidad de ADNc de longitud completa en la anotación del genoma, así como el grado en el que además de la anotación del genoma Anopheles que se necesita.

Todas las secuencias de este proyecto se presentaron al GenBank en virtud de la adhesión números BX005485-BX072528 y la física son clones que se presenta a la malaria y el Centro de Referencia de Investigación (MR4) [10].

Resultados y discusión

Hemos construido una biblioteca no normalizado enriquecido de ADNc de longitud completa con ARN extraído del cuerpo completo de los adultos hembras de los mosquitos (ver Materiales y métodos). Secuenciación de los clones se llevó a cabo tanto desde el 5 'y 3' extremos del cDNA insertar. Después de la secuencia, la secuencia se lee limpiados, agrupados y ensamblados en el uso de secuencias de consenso Paracel Transcripción Assembler paquete. Producto de este proceso se traduce en la creación de consenso, ya sea una sola secuencia o múltiples secuencias de consenso (por splicing alternativo, por ejemplo) para cada grupo de la superposición de ADNc. Individual dice que no se puede inicialmente agrupado con cualquier otra secuencia se denominan singlets. En conjunto, el consenso y simples secuencias fueron alineados al genoma, y para cada capítulo, la superposición de secuencias de cDNA se agruparon en un único grupo que representa un gen putativo. Este proceso genera tres principales productos finales: grupos singlets y que había previsto, la superposición de modelos de genes; novela singlets o agrupaciones que no se superponen un gen modelo, y las secuencias de consenso / singlets que no se adhieren en cualquier lugar en el genoma. Un resumen de la gráfica de análisis se muestra en la Figura 1. Tenga en cuenta que utilizamos la Ensembl 'desconocido' de cromosomas, como parte de este análisis (designado asUNKN). Este cromosoma artificial contiene arbitrariamente ordenados concatenados andamios que en la actualidad no han sido asignados a una determinada localización cromosómica.

Comparación con anterioridad genes predichos

Para discernir las agrupaciones que representan a los genes conocidos de los que podría ser considerada novedosa, comparamos las coordenadas sobre el genoma de nuestros grupos de cDNA a los de Ensembl transcripción modelos. En concreto, hemos utilizado el modelo transcripción de datos tomados de Ensembl gen construir versión 16.2.1, que no tienen nuestros ADNc disponibles para la creación de sus modelos de 14653 genes. En este análisis, los grupos fueron clasificados como había previsto, si se produce cualquier superposición, incluso por una sola base, entre un grupo y un Ensembl transcripción. Si no se produce la superposición, los genes se consideran novela. Tenga en cuenta que, tal como se describe en [11], Ensembl transcripción modelos fueron generados a partir de una combinación de las anteriormente descritas Anopheles secuencias de proteínas, coincide con alto grado de homología de SwissProt + TrEMBL y Anopheles EST información. En nuestro análisis, no consideramos los modelos generados sólo transcripción de los genes in silico-algoritmos de predicción. En resumen, cuando nos encontramos con un grupo que no está superpuesta en predijo Ensembl transcripción, el grupo se considera el producto de un gen nuevo y se designa como 'novela'. Si un grupo hace una superposición Ensembl transcripción, que se clasifica como sabe aún si la prueba inicial de los genes que se basa, por ejemplo, sobre la homología solo.

El uso de este enfoque nos encontramos con que 3032 grupos (86%) corresponden a predijo Ensembl genes. De ellos, casi el 46% (1393 secuencias) ampliar tanto el 5 'y 3' extremos de Ensembl-predijo transcripciones. Además, el 9% prorrogar el 5 'final sólo (271 grupos) y un 31% únicamente en el extremo 3' (935 grupos) de la correspondiente transcripción Ensembl. Sólo 433 grupos (en torno al 14%) cayó totalmente en un gen predice y no se extiende de una extremidad, ya sea Ensembl gen modelo. Además, 536 grupos que no corresponden a ninguno de genes previamente descritos Ensembl también fueron identificados. La mediana de la duración de estos nuevos grupos se los nucleótidos 1303 versus 1615 para Ensembl-genes predichos. Como se detalla en la Tabla 1, tanto Ensembl-predijo y nuevos grupos parecen estar bien distribuidos en todo el genoma. Como era de esperar, la mayoría de los grupos están compuestos por un pequeño número de lecturas - 37% de las agrupaciones tienen dos o tres lecturas y el 80% de menos de 12. El único grupo con el mayor número de lecturas (más de 2000) está anotado como una guanina-nucleótido vinculante subunidad beta.

Aunque coherente, este método requiere unas condiciones que habrán de tenerse en cuenta. En primer lugar, es posible que un gen que identifiquemos como novela, de hecho, tienen algunas anterior transcripción de información disponible como pruebas en su apoyo (como los datos de EST). Esto sucederá, por ejemplo, si durante el proceso de anotación automática de la información existente no se han traducido en la creación de un nuevo modelo de transcripción por Ensembl. De hecho, en el análisis inicial del genoma de Anopheles, hasta 1029 se creía que los genes se han perdido de esta manera [2]. Desde la primera anotación proceso la mayor cantidad de información disponible secuencia de la cobertura ha mejorado considerablemente. A pesar de estas mejoras, sin embargo, tales clasificaciones erróneas son inevitables. Además, si un Ensembl predicción es incorrecta, una superposición de grupo se clasificarán como había previsto, a pesar de que, de hecho, a la nueva anotación. Inspección demuestra que estos casos son poco frecuentes y, en general, necesitan más evidencia experimental, así como el manual de definición de modelos de genes para completar la reconciliación de los datos. Si bien existen dificultades con cualquiera de dichos automatizado comparación, en su conjunto nuestro planteamiento es coherente, reproducible, y proporciona estimaciones realistas de los dos había previsto, y los nuevos genes.

De la serie inicial de 10961 singlets (véase la figura 1], la mayoría (alrededor del 80%) no sólo se suman a las del genoma de alta calidad, sino que también coinciden en parte con los pronósticos Ensembl, mientras que aproximadamente el 2200 singlets no están en condiciones de ser alineados. Este último grupo se analiza con más detalle en la siguiente sección. Además, 202 lee o 'singlets' que se encontraron con precisión similar a la del genoma, pero no se superponen a cualquier Ensembl transcripción predicciones. Singlets Estos son por lo general más corto en longitud que los grupos, con una media de 912 nucleótidos. De las 202 secuencias, 65 se encuentran a través del examen manual que se probables 5 'o 3' extensiones de una cerca Ensembl-predijo transcripción. De los restantes 137 singlets, 38 (o 28%) son de no superposición de 5 - y 3-prime dice que constituyen el 19 secuenciación de los genes en los que se debe hacer para obtener la secuencia genética completa. Blastx análisis contra un combinado SwissProt + TrEMBL base de datos mostró que 25 de la novela singlets (en torno al 12%) han limitado a la homología de los genes descritos previamente (E-valor <10 -7), con la novela singlets restantes que no tengan similitud significativa a la Base de datos de miembros. Así singlets presentar pruebas adicionales para 118 nuevos genes, y junto con los grupos anteriormente descritos, el apoyo a la existencia de 654 nuevos genes. Si bien los grupos el apoyo de un singlete proporcionar más oportunidades para investigar genes potencialmente novela, que no describen más a fondo aquí. El trabajo futuro se investigue esas transcripciones en mayor detalle.

Unalignable secuencias

Tomamos nota de que las secuencias de 2205 (en torno al 3% de todos los Lecturas) no puede ser alineado con el genoma. Básicamente todas estas secuencias son singlets, muchas de las cuales son de baja complejidad y / o contener las regiones repetitivas. Casi la mitad (1066) fueron eliminados durante el proceso de alineación debido a su mala calidad (de identidad y / o de cobertura). Es posible, sin embargo, que algunos unaligned secuencias de los genes representan situada en las lagunas de la secuencia del genoma de reunión. Por ejemplo, dentro del grupo unalignable hay ocho grupos con una duración media de 1250 nucleótidos, compuestos de dos a cuatro lecturas, con tres de estas agrupaciones consiste en la superposición de 5 'y 3' dice. La inspección visual indica que la mayoría de estos grupos también contienen regiones de baja complejidad. Además, en dos casos Blastx [12] búsquedas nonredundant proteína contra una base de datos ponen de manifiesto la similitud de las proteínas conocidas. Un grupo tiene una alta similitud a un receptor de la proteína kinasa C activada (RACK1; E-valor ~ 10 -62), mientras que el segundo tiene similitud con una proteína ribosómica putativo (S8; valor ~ E-10 -12). La comparación de los restantes 1139 dice que no se puede alinear inicialmente a cualquier cromosoma brazo a través de BLAST, encontramos que por lo menos 808 lecturas parecen ser contaminantes bacterianos. Aproximadamente el 19% no tienen ninguna similitud con las proteínas en SwissProt + TrEMBL. Otro 10% del grupo (118 secuencias) tienen similitud con las proteínas conocidas (E-valor <10 -7). De hecho, 32 tienen similitud con las secuencias previamente identificadas Anopheles proteínas. En este momento, no está claro si estas secuencias se dividen en unsequenced lagunas en la secuencia del genoma, son de calidad insuficiente para alinear con precisión, o son errores o algún otro artefacto. Si bien es posible que muchas de estas secuencias que podrían codificar las proteínas con similitud con las proteínas conocidas son real transcripción de genes, no consideramos más a fondo aquí, y no incluirlos en nuestro grupo de genes noveles.

Caracterización de Ensembl-predijo y nuevos grupos de cDNA

Para caracterizar cDNA grupos en función de su posible función biológica, comparamos ambos Ensembl-predijo así como nuevos grupos de genes a una Ontología de Genes (GO) anotado en la base de datos (SwissProt + TrEMBL secuencias 796016) [13, 14]. Usando Blastx y un E-valor de 10 -7, las agrupaciones podrían inscribirse en una serie de procesos biológicos y las funciones (Figura 2]. Para apoyar a los grupos de genes predichos Ensembl, 2398 de 3032 (79%) podría ser asignado a un proceso biológico o de la función, en comparación con los grupos de la novela donde sólo 123 de 536 (23%) tenían por lo menos un partido de calificación. De las proteínas deducirse de las agrupaciones correspondientes a los genes predichos, aproximadamente el 63% podría ser clasificado como un catalizador, vinculante, o de ácido nucleico-vinculante función. Del mismo modo, para deducir las proteínas de nuevos grupos de genes, estas mismas categorías fueron las más altamente pobladas, lo que representa casi el 80% de los clasificados funciones. Los procesos de crecimiento de las células y / o el mantenimiento y el metabolismo de las proteínas y la modificación fueron los más representados proceso para ambas categorías Ensembl-predijo novela cDNA y agrupaciones.

Para describir mejor la novela genes definido por el ADNc, en comparación consenso secuencias de cDNA de cada grupo en una base de datos SwissProt + TrEMBL y encontró que aproximadamente el 35% (188) de la novela había grupos importantes golpes a conocidas proteínas (E-10 -7 valor ). Una vez más, estos grupos están representados por una única secuencia de consenso integrado por entre dos y 19 dice. Por esas transcripciones sin significativa homología de los resultados, es probable que muchos representan a cada especie y / o insectos específicos de los genes, y por lo tanto son de especial interés para el estudio experimental más detallada.

Además, hemos tratado de identificar un marco de lectura satisfactoria abierta (ORF) en cada grupo. De los 536 nuevos grupos en el conjunto final, 298 contiene una ORF de por lo menos 100 aminoácidos (ver Materiales y métodos). Pruebas adicionales en apoyo de la realidad biológica de un gen o genes transcripción es la existencia de dominios de la proteína dentro de la ORF, así como de múltiples exonic estructura. Como se muestra en la Tabla 2, se encontraron 60 ORFs codificación de al menos un dominio de Pfam. La mayoría de los dominios se encuentran sólo una vez, el dedo de zinc C2H2 dominio se encuentra 18 veces, sin embargo, distribuidos en cinco diferentes proteínas. Además en la prueba de estas agrupaciones de entidades biológicas siendo real es la observación de que casi la mitad de los grupos (47%) se componen de dos o más exones.

GC contenido de las agrupaciones cDNA

Se ha sugerido que, al menos en el caso de la anotación del genoma humano, hay un sesgo en contra de la predicción GC-ricos transcripciones por los actuales métodos de predicción de genes [15]. Para investigar la posibilidad de que existen evidentes sesgos en la secuencia de propiedades de los nuevos grupos que los hacen más o menos difícil de predecir computacionalmente, se determinó el contenido de GC novela y predijo cDNA agrupaciones y frente a todos los Ensembl-genes predichos. Como se muestra en la figura 3, la transcripción Ensembl modelos son, en gran medida figura entre el 35 y el 70% GC contenido con una media de 54%. La gama de GC contenido de los dos nuevos grupos y predijo abarca una gama casi equivalente. Por grupos de la novela, sin embargo, parece que hay preferencia por las más ricas en AT transcripciones. El promedio de contenido de GC novela grupos fue de 46%, en comparación con 52% para los grupos correspondientes a los genes predichos. En su conjunto, el Anopheles genoma GC tiene un contenido de 35,2% (Drosophila melanogaster es el 41,1%) [2]. Como una simple prueba, en comparación a los nuevos grupos geneid [16] predicciones y encontró que 232 grupos (43%) con un solapamiento geneid predicción, mientras que 311 nuevos grupos (57%) no lo hacen. En cambio, sólo el 9% de los genes predichos Ensembl-no tiene un correspondiente geneid predicción. Este resultado sugiere que la mayoría de los nuevos genes no serían fácilmente personalizados gen descubierto sin métodos de investigación. Actualmente, los nuevos métodos de investigación de genes, formados específicamente en Anopheles ADNc actualidad, se están desarrollando y aplicando (véase, por ejemplo [17]] en la predicción de genes y Ensembl anotación metodología (E. Mongin, comunicación personal).

Ejemplos de Ensembl predijo-y no predice las agrupaciones

Como se señaló anteriormente, los genes representados por cDNA de longitud completa transcripciones cubren una amplia variedad de funciones celulares y moleculares. Aquí destacamos algunos ejemplos y su importancia para la investigación actual Anopheles. Tenga en cuenta que hemos comparado estas transcripciones a una versión más reciente de la base de datos Ensembl (versión 23) que incluye ahora estos ADNc como parte del proceso de construcción de genes. Como resultado de ello, nuestra cDNA transcripciones se identifican en esta sección por su actual ENSANGT, ENSANGEST, o nombre identificador cuando proceda. Si bien algunos de los genes descritos aquí había EST pruebas anteriores, la disponibilidad de larga duración enriquecido ADNc para estas transcripciones es especialmente útil en el futuro anotación.

Una transcripción de interés codifica una proteína que contiene tanto CLIP y serina proteasa dominios. Esta proteína, que hemos designado como Putative_CLIPA5B aquí, se ha incorporado en Ensembl como parte de la transcripción ENSANGT00000027174. En los insectos, estos CLIP dominio serina-proteasas están involucrados en una gran variedad de procesos, incluyendo el desarrollo embrionario y de la respuesta inmune innata. Por ejemplo, en respuesta a la infección por malaria, CLIP-proteasas dominio ayudar a iniciar la cascada prophenoloxidase que, en 'la malaria resistente a los mosquitos, los resultados en la generación de especies reactivas del oxígeno y la posible encapsulamiento del parásito dentro de una cápsula de melanina [18 , 19]. Cuatro subfamilias (AD) son conocidos dentro de Anopheles, y el análisis filogenético de las secuencias de proteínas novela deducir de nuestro grupo novela sugiere que se trata de un nuevo miembro de la subfamilia A (Figura 4a]. Diez miembros de esta familia se han descrito anteriormente y CLIPA5 parece ser el pariente más cercano de la nueva proteína. El gen de la nueva proteína se encuentra dentro de un grupo de 15 de la proteasa serina / CLIP dominio de los genes localizados en el cromosoma 3L brazo (entre 32.55-32.62 MB). Su similitud y proximidad a clipA5 hace pensar que surge de un reciente caso de la duplicación. Aunque la función exacta de esta nueva proteína es desconocida, es interesante observar que la transcripción de un miembro conexas de la misma subfamilia, clipA6, es inducida por la infección bacteriana [20].

También identificar un cDNA que codifica una proteína de reconocimiento peptidoglycan (D gen de la larga (L) subfamilia - PGRPLD). Los miembros de esta familia de proteínas juegan un papel clave en la respuesta a ambas bacterias causantes de la malaria y la infección [21]. PGRPLD Si bien no se prevé en el original Anopheles anotación y no fue parte de la Ensembl anotación 16, se predijo cDNA sin pruebas, en el análisis preliminar de inmune genes en el genoma [22] (Figura 5]. En Drosophila, PGRPLD se enriquece en hemocitos, es probablemente la membrana es obligado y expresó activamente en todo el desarrollo. Aunque su función exacta en la inmunidad innata se desconoce en la actualidad, se cree que participar en el reconocimiento de bacterias [23]. Hasta tres diferentes productos genéticos pueden ser producidos por pgprld en Drosophila, y nuestra ADNc de longitud completa sugieren dos posibles sitios para comenzar este gen en Anopheles. Curiosamente, tal como se describe en Drosophila, sin traducir su extremo 3 'con un ORF superpone a la otra vertiente de codificación retinaldehyde vinculante y alfa-tocoferol transporte dominios [23]. El ADNc de pgprld se han incorporado en las pruebas de Ensembl EST transcripción modelos ENSANGESTT00000363407 y ENSANGESTT00000363376.

Otras transcripciones de interés son dos anteriormente no predijo, putativo P450 genes, que son de particular interés con respecto a la resistencia a los insecticidas. Actualmente, el principal método de control de mosquitos en regiones endémicas de malaria es el uso de insecticidas basados en piretroides, por lo general, a través de la impregnación de los mosquiteros y la aplicación a los lugares de cría de mosquitos [24]. Si bien una importante herramienta en la lucha contra el paludismo, la continuación del desarrollo de la resistencia de mosquitos a estos insecticidas se ha convertido en un importante problema. Un mecanismo potencial de resistencia a los insecticidas es el metabolismo oxidativo de los insecticidas mediada por citocromo P450 [25, 26]. Aunque la prueba definitiva de la participación de la resistencia en el P450 es limitada [27], se ha demostrado que algunas familias se expresan P450 en niveles más altos en varias cepas resistentes a los insecticidas (ver, por ejemplo [28, 29]]. De los dos genes P450 putativo discutido aquí, una (ENSANGT00000029062) tiene una alta similitud (S = 10 -146) a CYP9L1 y el otro tiene similitud con CYP6M4 (E = 10 -149; Ensembl conocido transcripción AAP76391). Ambas familias son insectos específicos, y los miembros de la familia Cyp6 se han vinculado a la resistencia a los insecticidas por la elevación de la actividad P450 resistentes a los insecticidas en los insectos [25]. En total, que representan el 23 recuperados ADNc de la conocida 111 miembros de la familia P450 Anopheles.

También encontramos ejemplos de la interesante novela de genes que actualmente se encuentra sólo dentro de esta biblioteca de cDNA. Por ejemplo, nuestro ADNc identificar un 869-base-pair (bp) gen (ENSANGT00000025538), que es más similar a la del ratón y humanos miembros de la MAGE (melanoma antígeno-codificación), la familia de genes. Este gen fue anteriormente no reconocidas en A. Gambiae Drosophila a pesar de que un miembro de esta familia existe [30]. El gen fue encontrado anteriormente que se expresó concretamente, en los tumores de mamíferos y se regula su desarrollo en Drosophila [30]. Otro ejemplo es una transcripción de aproximadamente 1300 pb, que es homóloga a Drosophila DIP2 (Disco interacción proteína 2, CG9771), que está involucrada en el desarrollo del sistema nervioso [31].

Conclusión

Se encontró que más del 85% del predicho anteriormente A. Gambiae genes ha ampliado sus fronteras, ya sea en el 5 ', 3', o de ambos 5 'y 3' termina por nuestros inicial cDNA de longitud completa colección. Si bien el consenso de todos los modelos no son completas transcripciones de larga duración, es particularmente alentador el hecho de que un gran porcentaje de genes previamente predicho los modelos se han ampliado tanto en sus 5 'y 3' termina. El uso de este tipo de datos de larga duración es especialmente valiosa en la ausencia de bien anotado y organismos evolutivamente cercano que se puede utilizar para la comparación de secuencias. La secuenciación del genoma de Aedes aegypti es muy esperado en este sentido. Sin embargo, incluso con la disponibilidad de un genoma de un mosquito relativa, de las especies de genes específicos, junto con la variabilidad inherente a 5 'y 3' exones, probablemente requerirá el uso de datos de larga duración para una adecuada caracterización de genes.

Un importante resultado de este estudio fue la conclusión de que aproximadamente el 17% de los grupos anteriormente representan imprevistos genes. Esto es quizás más importante al considerar que se trataba de una biblioteca no normalizado construido a partir de los mosquitos en su conjunto. Más extrapolación sugiere que al menos un porcentaje similar de genes aún no se encuentra en otras partes del genoma Anopheles. Adicionales en tejidos y bibliotecas específicas de tratamiento, actualmente en construcción, debería contribuir a caracterizar más por descubrir los genes.

Nota añadido en la prueba: En un reciente informe sobre la situación del Anopheles anotación esfuerzo por Ensembl de acuerdo con nuestras estimaciones sugieren que alrededor de 600 se han descubierto nuevos genes de las secuencias presentadas en esta comunicación, y que el conjunto actual de transcripción pueden ser sub-representadas por tanto Como el 20% [11].

Materiales y métodos
Construcción de oligo-tope bibliotecas de cDNA

Total RNA (ARN citoplásmico y poli (A) + RNA) se aisló en 1366 de mujeres adultas A. 6-9 cepa de mosquitos gambiae, recogido 24 horas después de la oviposición por la homogeneización de los insectos en TriReagent (Sigma), con una Ultra-Turax homogeneizadora T25 (IKA-Werke, Alemania) según lo recomendado por los proveedores.

El ARN total aislado se resuspendió en H20 y de la poli (A) + RNA fracción se obtuvo del equivalente de 700 μ g de RNA total usando las Qiagen Oligotex mRNA lote protocolo. Oligo-tope bibliotecas fueron construidos a partir de la poli (A) + RNA fracción descrita por Sugano y colaboradores [32, 33]. Síntesis del primer capítulo de cDNA se obtuvo con la SuperScriptII RNasa H-transcriptasa reversa (Invitrogen); posteriormente, la plantilla de filamento del RNA es degradado por hidrólisis alcalina y en el primer capítulo de cDNA se amplificó utilizando el LA Taq polimerasa (Takara). Después de 20 ciclos de la PCR PCR fragmentos fueron digeridos con SfiI SfiI y tamaño fraccionada por electroforesis en gel de agarosa. Dos diferentes fracciones de tamaño (0.7-1 kilobase (kb), 1 kb-3 kb) fueron clonados en el vector pME18S-FL3 en una orientación definida manera, utilizando un kit de ligadura de ADN (Takara). Ligaduras se electroporated en Escherichia coli DH10B electrocompetent bacterias (Invitrogen). Clones aleatoriamente aislados y sometidos a alto rendimiento de la ruta de la secuencia única de sus 5 'y 3' termina. Tenga en cuenta que se trata de una mujer de bibliotecas de todo el organismo creado en virtud de las limitaciones de la selección de transcripciones de larga duración dentro de un determinado rango de tamaño, y como tal, no proporciona un estudio completo de los genes expresados o capaces de ser expresados dentro de la hembra Anopheles Mosquitos.

Disponibilidad de bibliotecas

Todas las bibliotecas / clones están siendo depositados en MR4 y estará disponible allí [10].

Secuencia de la agrupación, de reunión y de la comparación

Secuencias fueron limpiados, agrupados y ensamblados Paracel TranscriptAssembler utilizando el paquete de software (Paracel). Limpieza consistió en la comparación de secuencias de cDNA contra el vector y mitocondrial bases de datos, con sus correspondientes secuencias que se eliminan de un análisis más detallado. Además, de baja complejidad, la poli (A / T) regiones, y repetir las regiones (Ensembl repetir biblioteca cortesía de E. Mongin, Ensembl) se determinaron y enmascarados. Después de la secuencia de limpieza, el enmascaramiento y el recorte, las secuencias con menos de 200 desenmascarado fueron retirados de las bases de su transformación. Como ayuda para el proceso inicial de la agrupación, hemos utilizado 16 Ensembl liberación cDNA transcripciones como racimos de semillas. En este proceso, cada cDNA se compara a cada Ensembl transcripción, y si existe una similitud significativa entre los dos, el cDNA se coloca en una bandeja de semillas correspondiente y con todas las transcripciones agrupadas en esta bin. Secuencias que no tienen similitud con las semillas de alta secuencias fueron por separado y agrupadas en comparación con los demás. A continuación, tanto las semillas y las semillas no estaban reunidos en grupos de una o más secuencias de consenso. Si una secuencia no podía ser ensamblado en el consenso secuencias que fue designado como un singlete. Por último, el consenso y simples cada secuencia se suman a la asamblea genoma Ensembl Anopheles (versión 16.2.1), utilizando una combinación de BLAST Spidey y [12, 34] con un mínimo de identidad y la cobertura de 90% y 75%, respectivamente. Además, para evitar falsas' exones' de ser producido a partir de baja calidad secuencia de ruido común leer en las extremidades, recortado terminal exones separados por más de 10 kb y que eran menos de 50 nucleótidos de longitud.

Se comparan los grupos resultantes y singlets a Ensembl transcripciones (ENSANGT identificadores) de la versión 16.2.1 Anopheles. Tenga en cuenta que entre la base de datos de números de revisión 16.2.1 y 20 contienen sólo un nuevo gen construir (ver. 17.2a.1 que incorpora la secuencia de cDNA datos presentados en este trabajo) con el resto principalmente en representación de los cambios en el esquema de base de datos subyacente. Si un grupo no se superponían sobre el genoma con un gen Ensembl, que se clasificó como 'novela', de otro modo se clasificó como 'Ensembl predijo ". La proteína de la base de datos utilizada para efectuar búsquedas de homología fue una combinación de Swiss-Prot (Release 44,2) y TrEMBL (Release 27.2) de datos.

Internamente, hemos utilizado el Genoma Browser (Gbrowse) [35] desarrollado por el Organismo Modelo genérico de la base de datos del consorcio [36] para la visualización y el análisis de clusters, así como los recursos públicos proporcionados por Ensembl [3].

Gene Ontología términos

Se utilizó los siguientes términos y GO identificaciones en la creación de la figura 2:

Proceso biológica-proceso celular; GO: 0009987, celular comunicación; GO: 0007154, proceso fisiológico; GO: 0007582, el metabolismo; GO: 0008152, el metabolismo de los carbohidratos; GO: 0005975, de la energía vías; GO: 0006091, de transporte de electrones; GO: 0006118 , Nucleótidos y el metabolismo de los ácidos nucleicos; GO: 0006139, amino-ácidos y derivados metabolismo; GO: 0006519, y la modificación del metabolismo de proteínas; GO: 0006411, metabolismo de los lípidos; GO: 0006629, coenzymes grupo de prótesis y metabolismo; GO: 0006731, el crecimiento de las células Y / o mantenimiento; GO: 0008151, de muerte; GO: 0016265, la respuesta al estrés; GO: 0006950.

Función Biológica molécula de adhesión de células actividad; GO: 0005194, chaperón actividad; GO: 0003754, GO: 0003757, GO: 0003758, GO: 0003760, GO: 0003761, defensa o inmunidad actividad de la proteína; GO: 0003793, actividad catalítica; GO: 0003824, enzima regulador de la actividad; GO: 0030234, vinculante; GO: 0005488, ácido nucleico vinculante; GO: 0003676, la actividad motora; GO: 0003774, transductor de señales de actividad; GO: 0004871, molécula estructural actividad; GO: 0005198, transcripción regulador de la actividad ; GO: 0030528, transportador de la actividad; GO: 0005215.

CLIPA árbol filogenético

Las regiones que contiene el CLIP y serina proteasa dominios para cada secuencias fueron alineadas con ClustalX [37] (valores por defecto; versión 1.83), ajustar manualmente en Jalview, y un vecino a participar en árbol creado, con exclusión de las lagunas, con PAUP *. El CLIP y serina proteasa dominios se incluyeron en la alineación y grandes inserciones fueron eliminados antes de la alineación.

ORF determinación

Para cada uno de los grupos considerados, un representante cDNA secuencia fue tomada (la más larga en cuanto a la longitud total concatenados exón si hay múltiples secuencias de consenso en un grupo) y traducida en los seis marcos de lectura. Un ORF fue definida como aquella que representa al menos 100 codones de longitud, comenzando con un metionina y termina con un codón de parada.

Agradecimientos

Damos las gracias a Corinne Da Silva, Betina Porcel y Vicente Schachter de Genoscope útil para los debates. También damos las gracias a Emmanuel Mongin y otros en Ensembl por su apoyo y asistencia a la comunidad de investigación Anopheles. Computacional recursos fueron proporcionados en parte por el AMDeC Bioinformática Core Facilidad en el Centro de Genoma de Columbia, la Universidad de Columbia. SMG cuenta con el apoyo de una donación de la Fundación Pasteur de Nueva York. PD cuenta con el apoyo de la Plate-forme de Integración et Analyse Genomique, Génopole Institut Pasteur. CWR cuenta con el apoyo del Centre National de la Recherche Scientifique, Ciencias de la Vie. Esta labor fue apoyada por el Programa Estratégico de Anopheles horizontal, el Instituto Pasteur.