Genome Biology, 2005; 6(3): R23-R23 (más artículos en esta revista)

Serendipidad Wolbachia descubrimiento de los genomas en múltiples especies de Drosophila

BioMed Central
Steven L Salzberg (salzberg@tigr.org) [1], Julie C Hotopp Dunning (jdunning@tigr.org) [1], Arthur L Delcher (adelcher@tigr.org) [1], Mihai Pop (mpop @ tigr. Org) [1], Douglas R Smith (dsmith@agencourt.com) [2], Michael Eisen B (mbeisen@lbl.gov) [3], C William Nelson (wnelson@tigr.org) [1]
[1] El Instituto de Investigación Genómica, 9712 Medical Center Drive, Rockville, MD 20850, EE.UU.
[2] Agencourt Bioscience Corporation, 100 Cumming Center, Beverley, MA 01915, USA
[3] Center for Integrative Genomics, University of California, Berkeley, CA 94720, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Al buscar a disposición del público el repositorio de datos de secuenciación del ADN rastro, hemos descubierto tres nuevas especies de la bacteria endosymbiont Wolbachia pipientis en tres diferentes especies de la mosca de la fruta: Drosophila ananassae, D. Simulans y D. Mojavensis.

Antecedentes

Gran escala de proyectos de secuenciación seguir generando un número cada vez mayor de nuevos genomas de una cada vez mayor variedad de especies. Una rara vez observado y unappreciated efecto secundario de algunos proyectos se produce cuando el organismo está secuenciado contiene un endosymbiont intracelular. En algunos casos, la existencia de la endosymbiont se desconoce tanto a la secuencia y el centro de suministro de la fuente de laboratorio de ADN. Afortunadamente, muchos proyectos genoma depositar toda su crudo en una secuencia de datos a disposición del público, sin restricciones repositorio conocido como el Rastro Archivo [1]. Mediante la realización de búsquedas a gran escala de la Trace Archivo, se puede descubrir la presencia de estos endosimbiontes y, con la ayuda de herramientas de bioinformática el genoma de montaje incluido algoritmos, reconstruir algunos o la mayoría de los genomas endosymbiont.

El importe de endosymbiont ADN presente en un genoma depositados en el Archivo Trace depende de varios factores: el número de secuencias generado por el proyecto, el tamaño del genoma de acogida, el tamaño de la endosymbiont genoma, y el número de ejemplares de la endosymbiont Presente en cada célula del huésped. Debido a que el número de copias varía entre tipos de células, la cantidad de ADN endosymbiont también depende de la preparación método utilizado para extraer el ADN de acogida, por ejemplo, el uso de huevos o el principio de su carrera embriones producirá mucho mayores cantidades de Wolbachia de sus anfitriones, porque La bacteria se da en mucho mayor número de copias de óvulos que en otros tipos de células [2]. Si el genoma de acogida es de 200 millones de pares de base (Mbp) de longitud, y la endosymbiont es de 1 Mbp, y si hay un endosymbiont por célula huésped, y luego 0,5% de las secuencias de un proyecto de secuenciación aleatoria de la acogida se derivan de La endosymbiont. El factor crítico es el número de copias por célula: independientemente del tamaño del genoma, si es que hay una endosymbiont genoma por célula, entonces el endosymbiont será secuenciado a la misma profundidad de la cobertura como país anfitrión, y el genoma asamblea, en teoría, cubrir Ambos genomas en la misma medida.

La búsqueda de estos genomas se oculta apoyó en gran medida la disponibilidad de una completa de un genoma de las especies relacionadas. Afortunadamente, el genoma completo de la Wolbachia pipientis wMel wMel, un endosymbiont de D. Melanogaster [3], está disponible para ayudar a la búsqueda. Wolbachia especies son parásitos intracelulares obligados comunes que infectan a una gran variedad de invertebrados, incluyendo no sólo las moscas de la fruta, sino también mosquitos, nematodos y artrópodos [4, 5].

Resultados y discusión

Usando el 1267782 bp wMel wMel genoma como una sonda, se realizaron búsquedas en el Archivo de entradas Trace recientemente secuenciado de siete especies de Drosophila, cada una de las cuales es la secuencia de aproximadamente ocho cobertura. Para tres de estas especies, encontramos una prueba clara de Wolbachia infecciones en el país de acogida.

Desde el 2772509 huellas de Drosophila ananassae [6], hemos recuperado 32720 secuencias que, o bien la altura de las wMel wMel cepa o se emparejaron con secuencias que coincidan con wMel wMel (ver Materiales y métodos). Nuestra asamblea de estas secuencias dado un nuevo genoma, Wolbachia wAna wAna, que contiene en 329 bp 1440650 separado andamios, aproximadamente a las ocho de cobertura. En esta cobertura a fondo, estimamos que el 98% de la wAna wAna genoma está incluido en la asamblea. La alineación de la wAna wAna andamios a wMel wMel cubre aproximadamente 878 kbp (70%) de los 1,27 Mb wMel wMel genoma. Una cartografía de todos y cada uno de wAna wAna lee a wMel wMel da una mayor cobertura - 1,11 Mbp (87%) de la wMel wMel genoma.

Desde las huellas de 2.214.248 D. Simulans [7], hemos recuperado y montado 3727 secuencias. El genoma de los fragmentos resultantes de Wolbachia wSim wSim cubrir 896761 bp de wSim wSim en doble cobertura, que calculamos para cubrir 65-80% de wSim wSim. La comparativa de montaje (ver Materiales y métodos) resultó en 388 contigs más simples secuencias de 241, y un programa de andamios más agrupan 273 de estos contigs en 84 andamios. La alineación entre wSim wSim y wMel wMel abarca 861 kbp (65%) de la wMel wMel genoma.

Desde las huellas de 2.445.065 D. Mojavensis [6], hemos recuperado 101 secuencias coincidentes wMel wMel, más otros 13 secuencias que no coincide con wMel wMel pero se emparejaron en la coincidencia secuencias. La muestra es demasiado pequeña para el montaje, pero aún así representa aproximadamente 87 kb (6-7%) de la Wolbachia wMoj wMoj genoma.

No Wolbachia secuencias se encontraron en la Drosophila otras especies disponibles en la actualidad: D. Pseudoobscura, D. Yakuba, D. Y D. virilis Melanogaster.

Wolbachia ha sido previamente descrita para infectar múltiples cepas de D. Simulans, y un fragmento del gen 16S ribosomal RNA ha sido secuenciado (GenBank AF312372 ID) [8]. También se ha descrito en el D. Ananassae [9], pero no se ha informado anteriormente en el D. Mojavensis (secuencias y no se pueden encontrar en la base de datos Wolbachia mantenerse en [10]].

Genoma organización

Comparación de la wAna wAna y wMel wMel especies indica extensa reordenamientos entre los genomas. Esto se ilustra mejor con la más larga en wAna wAna andamio, que contiene 455845 pb, aproximadamente un tercio del genoma. La figura 1 muestra un mapa de este andamio frente a la wMel wMel genoma. El andamio se extiende por más de una docena de modificaciones que se han producido desde la divergencia de estas especies. También se encontró evidencia de reordenamientos dentro de nuestra wAna wAna secuencias (ver Materiales y métodos), que indica que el D. Ananassae cepa puede haber sido infectado con dos o más cepas de Wolbachia divergentes. Los reordenamientos muestra en la Figura 1 son típicos de las alineaciones interstrain; de interrupción ocurren incluso entre los de muy escasa densidad de la muestra wMoj wMoj secuencias. Aunque sólo 101 secuencias acompañado wMel wMel, siete de ellos abarcó tanto inserciones o reordenamientos en gran escala en el genoma wMel wMel.

Genoma comparaciones

En estas asambleas, alrededor de 464, 92 y 6 genes fueron descubiertos en la wAna wAna, wSim wSim y wMoj wMoj genomas, respectivamente (véase el archivo de datos adicional 1), que no se habían encontrado anteriormente en el W. Pipientis wMel wMel genoma. De estos nuevos genes, 343 fueron conservadas hipotético proteínas, 81 transposases, 13 fagos relacionados con las proteínas y siete ankyrin dominio de las proteínas. De los restantes 118 genes, 34 son proteínas de la wAna wAna montaje de insectos, que probablemente representan Drosophila contaminantes como resultado de quimérico insertos en la secuencia original de la biblioteca. Un grupo de 51 genes predichos son más cortos de 300 pb y es posible que no constituyen verdaderos genes. Los 33 restantes tienen similitud con los genes conocidos incluyen los genes y los genes que han sido identificados tentativamente a participar en el transporte, el ADN o el reglamento vinculante, y una variedad de otras funciones. Muchos de los genes que han único anómalo GC contenido, lo que sugiere la transferencia horizontal de genes (HGT), con 12 genes que muestra una GC contenido superior al 50%, frente al 35% de la típica GC contenido encontrado en estos genomas y wMel wMel (Tabla 1].

En consonancia con la observación de que los nuevos genes en el nuevo cepas de Wolbachia tienden a ser hipotéticas proteínas, genes presentes en wMel wMel que están ausentes en la asamblea wAna wAna también son predominantemente hipotético proteínas. De los 347 wMel wMel genes que no se encuentran en wAna wAna, 207 eran hipotéticas proteínas, junto con la más alta categoría que los elementos móviles y elementos extracromosómicos, con 37 genes. Esto sugiere que tanto como el 27% de los genes predichos en wMel wMel podría ser muy variable.

Dos grandes grupos de genes en W. Pipientis wMel wMel no fueron identificados en la wSim wSim y wAna wAna asambleas (Figura 2]. Esto podría sugerir la ausencia o la divergencia de estas regiones. La falta de la recuperación de dos de las regiones (AyB) es interesante ya que ambas regiones contienen genes que se han sugerido a afectar a la interacción huésped-endosymbiont [3].

Región A 3'-incluye la región de la WO-A fagos y de la región directamente aguas abajo. Incluye el intervalo que contiene genes WD0289-WD0296, que codifica proteínas hipotético cuatro - tres ankyrin repetir dominio de las proteínas y una hipotética proteína conservada. La ausencia de WD0289, WD0292 es interesante porque puede sugerir alguna variación en el fago 3'-región. Aunque WD0289-WD00291 es único para WO-A, una proteína homóloga a WD0292 se ha encontrado en el anteriormente descrito Wolbachia fagos [3, 11]]. Variación de la Wolbachia fagos podría facilitar la introducción de nuevos genes [12]. Como ankyrin repetir proteínas, WD0291, WD0292, WD0294 y todos son de interés, ya que se han propuesto para que participen en la interacción huésped-funciones [3]. Esto podría proporcionar un medio por el cual los fagos podría causar diferentes fenotipos de la interacción huésped-.

Región B incluye WD0509-WD0514, que codifica una proteína de reparación de ADN no coinciden MutL-2, un degenerar ribonucleasas, una hipotética proteína conservada, dos proteínas y un hipotético ankyrin repetir dominio de la proteína. Esta región es de mayor interés desde el WD0511, WD0514 se encuentra sólo en W. Pipientis wMel wMel y no relacionados con la secuencia Anaplasmataceae, Rickettsiaceae o α-Proteobacteria. En W. Pipientis wMel wMel, esta región está flanqueada en el 3'-end interrumpido por una transcriptasa inversa y un IS5 transposase, que apoya la hipótesis de que fue adquirido horizontalmente. La ausencia de MutL-2 podría no ser importante, ya que funcionalmente wMel wMel, wAna wAna, y wSim wSim todos tienen una copia de MutL-1.

Evolutiva comparaciones

Estamos alineados todos los genomas entre sí para encontrar aquellos que comparten secuencias de las cuatro cepas. Porque W. Pipientis wMoj wMoj muestra se compone de los más pequeños, hemos utilizado las 114 secuencias de la cepa que como una consulta para buscar las otras tres cepas, y encontraron 90 secuencias compartida entre todas las cepas. Luego crearon cuatro direcciones múltiples alineaciones para cada una de estas 90 secuencias (ver Materiales y métodos). Con exclusión de las grandes inserciones y supresiones se ha señalado anteriormente, las cepas son muy similares, que se resumen en la Tabla 2.

Como muestra el cuadro, la mayoría de las dos cepas estrechamente relacionadas son wAna wAna y wSim wSim, que son casi idénticos en el DNA. Ambos wMel wMel y wMoj wMoj son aproximadamente equidistante de las dos cepas, en poco más de 97% de identidad, pero son más distantes entre sí. Tenga en cuenta, sin embargo, que debido a que el wMoj wMoj secuencias son solo lee (es decir, un solo paso y la secuencia), la tasa de error en estas secuencias es sustancialmente más alto que en el ensamblado de los genomas de otras cepas, que a su vez puede hacer que aparezca que wMoj wMoj Es más divergente.

Ankyrin repetir dominio de las proteínas

Ankyrin repetir proteínas mostraron una considerable variabilidad entre las cuatro cepas de Wolbachia. Se ha propuesto que ankyrin repetir proteínas pueden influir en la acogida de acogida mediante la regulación del ciclo celular, la regulación de la división celular de acogida, y la interacción con el anfitrión citoesqueleto [3]. Estos genes y su relación con el ciclo celular y, por tanto, la reproducción, probablemente candidatos a la participación en las interacciones de acogida como incompatibilidad citoplasmática, masculino asesinato, la partenogénesis y la feminización.

Había cuatro ankyrin repetir proteínas ausentes en wAna wAna y wSim wSim en las Regiones AyB anteriormente. También hay siete nuevos ankyrin repetir las proteínas identificadas en wAna wAna, wSim wSim, y wMoj wMoj. Con el fin de deducir una relación entre la ankyrin repetir proteínas, todos los ankyrin repetir que contienen proteínas superiores a 120 aminoácidos de longitud fueron alineados y agrupados usando ClustalW. Las secuencias de aminoácidos son demasiado diversas para permitir la construcción de un árbol filogenético fiable. Pero un árbol se señaló que agrupan similares proteínas y permitió la clasificación de las familias de conserva ankyrin repetir dominio proteínas dentro de la Wolbachia linaje (Figura 3]. A partir de este árbol, varias clases de proteínas se puede determinar que son altamente conservados entre dos o más de estos linajes Wolbachia con más de 95% de similitud en el nivel de nucleótidos. Además, ankyrin repetir las proteínas de dominio exclusivo de un determinado linaje también puede ser identificado. Estas diferencias en el complemento de ankyrin repetir dominio de las proteínas pueden afectar a la interacción huésped-endosymbiont.

Comparación con otras bacterias intracelulares obligados

La variabilidad del genoma contenido y synteny identificado aquí con Wolbachia se contrapone a la observada para otras bacterias intracelulares obligados. Análisis comparativo de los Chlamydiaceae muestra que los genomas de estos organismos son muy conservadas, en términos de contenido y el orden de genes, con relativamente pequeñas diferencias en los genomas [13]. Esto es a pesar del hecho de que las clamidias genomas secuenciados hasta el momento abarcan cuatro distintas especies de diferentes anfitriones y causar diferentes tejidos y tropismo enfermedad patología.

Del mismo modo, rickettsias genomas tener un alto grado de conservación genética synteny y con la única excepción de las numerosas secuencias en el genoma de Rickettsia conorii [14]. Aunque R. Synteny mantiene con conorii Rickettsia prowazekii y Rickettsia typhi, tiene 560 genes únicos con relación a los otros dos. Por el contrario, la secuencia de R. Typhi reveló sólo 24 nuevos genes.

Wolbachia genomas parecen tener poco synteny [3] y las grandes variaciones en el tamaño del genoma y el genoma contenido. Esto puede ser el reflejo de los niveles de contacto intraspecies in vivo. Wolbachia son abundantes en la naturaleza, son capaces de infectar artrópodos co-[15, 16], y se propaga por transmisión vertical y horizontal [17]. El análisis filogenético de los fagos WO-B muestra que bajo condiciones de co-infección, Wolbachia de diferentes supergroups compartirán el mismo WO-B fagos [12]. Estos factores pueden promover el intercambio genético entre especies Wolbachia. Además, el estilo de vida de Wolbachia facilitar su transmisión por la reproducción de acogida podrá proceder a la modificación de promover el éxito en la transmisión de cepas genéticamente diversas. Otros géneros bacterianos intracelulares obligados pueden encontrar la serie de actos con éxito de la co-infección, el intercambio de información genética y, a continuación, la propagación es más difícil y, por lo tanto, menos probable.

La transferencia horizontal de genes

La presencia de endosimbiontes dentro de la célula huésped, en especial las células germinales, puede ofrecer oportunidades para el HGT, aunque en general este tipo de transferencia entre procariotas y eucariotas, es extremadamente raro [18]. Sin embargo, varios estudios han documentado claramente los casos de transferencia de ADN mitocondrial en el genoma nuclear [19], en especies tan diversas como la levadura [20], Arabidopsis thaliana [21] y otras plantas [22], y humanos [23] . El organelo mitocondrial en sí es que en general proceden de una ancestral endosymbiont [19, 24]. A pesar de que no presentó pruebas aquí para HGT de Wolbachia a Drosophila, al menos, un reciente estudio afirma que un Wolbachia endosymbiont ha transferido genes de los cromosomas X de un insecto, el escarabajo de frijol adzuki [25]. El análisis del genoma wMel wMel examinado esta cuestión, pero no halló pruebas para HGT en el D. Melanogaster acogida [3].

Conclusiones

El descubrimiento de estos tres nuevos genomas demuestra cómo la poderosa publicación de la secuencia de datos en bruto puede ser. Aunque ninguno de estos proyectos tiene como objetivo la secuencia de las bacterias endosimbiontes, ahora tenemos como resultado tres genomas parcial - un casi total - de esta importante especie biológica. Las diferencias entre estos genomas y la completó wMel wMel cepa demostrar amplia reorganización del genoma y divergencia entre estos Wolbachia endosimbiontes. Y aunque se trata de una pequeña muestra, en conjunto la presencia de estos tres nuevos genomas indica que Wolbachia endosimbiontes parecen ser bastante común en la Drosophila linaje. Múltiples futuro Drosophila proyectos de secuenciación se han previsto, varios de los cuales ya están en marcha, como son los proyectos de secuencia de otros invertebrados, muchos de los cuales pueden acoger o Wolbachia otros endosimbiontes. Nuestros resultados sugieren que los nuevos métodos de selección, como las que se describen aquí, pueden producir descubrimientos inesperados de los datos en el Archivo Trace.

Materiales y métodos

Hemos descargado del Archivo en el NCBI Trace [1 2772509 secuencias de D. Ananassae; 2.445.065 de D. Mojavensis; 2.214.248 de D. Simulans; 2.061.010 de D. Yakuba; 3.359.782 de D. Virilis; 2.590.703 de D. Pseudoobscura, y de 3.663.352 D. Melanogaster. Para cada proyecto, que lo descargamos secuencias, los valores de calidad, y los datos auxiliares (que contiene la información-mate clon, clon insertar longitudes, y, a veces, el recorte de los parámetros), que comprende aproximadamente 2-3 gigabytes (GB) de datos comprimidos por genoma.

Para cada genoma, hemos utilizado la nucmer programa de la MUMmer paquete [26 - 28] para buscar en el genoma completo de W. Pipientis wMel wMel en contra de los archivos que contienen las secuencias. Nos sacó una única secuencia ( 'leer') con al menos una de 30 pb concordancia exacta a wMel wMel, y con un largo partido que abarcó al menos 65 pb. Luego recuperó el 'clon mates' de cada secuencia: la mayoría de las lecturas en su conjunto de los proyectos de secuenciación del genoma se obtienen a través de una escopeta de doble terminado el método, lo que significa que ambos extremos de cada clon insertar son secuenciados. El Rastro Archivo contiene un enlace al clon mate para cada lectura; hemos utilizado esta información para extraer cualquier compañeros que no estaban contenidos en nuestra pantalla original. Por ejemplo, el D. Ananassae arrojado datos adicionales de cerca de 5000 cuando dice que se retiraron en los compañeros de la serie original.

Luego reunió a los Wolbachia dice de dos maneras diferentes: con la Celera Assembler [29], tratándola como una normal (de nuevo) de todo el genoma de reunión, y con el ensamblador AMOS-cmp [30], que reúne un genoma de la cartografía Que en una referencia. Por el genoma de referencia que utiliza wMel wMel. Hemos utilizado Celera Assembler en la relativamente bien cubiertas wAna wAna cepa, a pesar de que corrió en la wSim wSim dice también, la secuencia de la cobertura fue demasiado clara a dar un buen montaje. El alto grado de identidad de secuencia, en el 95-100% en la mayoría de las regiones que se reparten entre las cepas, permitió un excelente comparativo de la asamblea wSim wSim cepa con AMOS-cmp.

El AMOS-cmp asamblea de wSim wSim contiene 388 contigs más otros 241 singleton dice, que abarca 896761 pb (véase el cuadro 1]. El mayor contig contiene 16.701 bp. Tenga en cuenta que AMOS-cmp pero no produce contigs andamios. El contigs puede fácilmente ajustarse a la referencia del genoma para producir los andamios, con la advertencia de que cualquier reordenamientos invalidará esos andamios información. Para evitar esos problemas, estamos ordenados y orientados hacia la contigs separado con Bambus [31], de modo autónomo genoma andamios programa, usando solamente el clon-mate información de la escopeta de datos original. Bambus creado 84 multi-contig andamios que se unieron 273 de los 388 contigs, con el mayor andamiaje que contiene y abarca 50851 bp (incluida la estimación de las lagunas) 54207 bp.

Por wAna wAna, cuando se comparó la comparativa de novo y asambleas, se observó que había varias modificaciones en el genoma wAna wAna en comparación con wMel wMel. Nuestra conclusión es que una comparativa de reunión, que se basa en la estructura del genoma de la referencia, puede ser menos precisa que una asamblea de novo en la presencia de extensas modificaciones, de modo que este último utilizado para nuestro análisis.

La asamblea wAna wAna presenta problemas especiales debido a lo que parece ser un gran número de polimorfismos y reordenamientos dentro de las secuencias. El número de Wolbachia dice siempre muy profunda cobertura, que en principio debería haber producido un andamio que cubría casi la totalidad del genoma. Sin embargo, un gran número de clon-mate vínculos son incompatibles entre sí, lo que indica que el texto puede haber sido extraídas de una población en la que muchas de las personas habían reordenamientos del genoma con respecto a una de la otra. También se encontró que abarca cientos de lugares donde nucleótidos individuales de cuatro o cinco lecturas había un nucleótido y el mismo número de nucleótidos de forma diferente. Estos polimorfismos hecho que dificulta la creación de muchos coherente grandes andamios. Hemos creado varias asambleas en las que hemos eliminado muchos de los enlaces incompatibles, y finalmente resuelta en la asamblea que aquí se presenta como el mejor representante del genoma posible en atención a la diversidad en los datos. El wAna wAna asamblea tiene tres grandes andamios de 460 kb, 157 kb y 121 kb, respectivamente, con todos los andamios de menos de 20 kb de longitud. También incluimos una lista de todas las secuencias de la persona, incluidas las que no están incorporadas en contigs, en nuestros ficheros de datos adicionales.

Para describir los conjuntos resultantes de contigs, hemos utilizado Glimmer [32, 33] para hacer llamadas gen inicial y BLAST [34] para buscar los llamamientos en contra de una amplia base de datos de proteínas. Las regiones con los genes no se hicieron búsquedas en las llamadas así como en los seis marcos de lectura utilizando Blastx.

Todos los genes predichos en wAna wAna, wSim wSim, y wMoj wMoj Se hicieron búsquedas en contra wMel wMel utilizando Blastn. Los resultados de estas búsquedas se utiliza para determinar qué genes están ausentes en la wAna wAna, wSim wSim, y wMoj wMoj asambleas. Secuencia de ADN coincide con la identidad en el 80% para el 80% de la longitud más pequeña de los genes se determinó que se conserva y se representan gráficamente en la Figura 2. Regiones AyB en la Figura 2 se identificaron de esta manera. Para identificar los genes en el único wAna wAna, wSim wSim, y wMoj wMoj asambleas, predijo todas las proteínas se realizaron búsquedas en contra de la wMel wMel proteínas utilizando Blastp. Las proteínas en los nuevos genomas se considera único (o muy divergentes) cuando el mejor partido en wMel wMel E tenía un valor superior a 10 -15.

Para crear las múltiples alineaciones de las 90 secuencias que fueron compartidas por los cuatro organismos, se realizaron búsquedas en las 114 secuencias en wMoj wMoj contra la wMel wMel, wAna wAna, y wSim wSim genoma asambleas, de nuevo utilizando nucmer. Se utilizó la salida de nucmer extraer de cada genoma de la secuencia apropiada coincidentes, y nos alimenta de los resultados a la overlapper (hash-superposición) de la AMOS ensamblador [30] para generar todos los pairwise secuencia de alineaciones.

Todos ankyrin repetir dominio de las proteínas identificadas por automatizados anotación se recopilaron y una alineación de árboles y se construyeron usando ClustalW [35]. El ankyrin repetir dominio es un degenerado repetir [36], de modo que no se trató de que el grupo de proteínas ankyrin repetir motivos fueron retirados.

Todo el genoma de escopeta asambleas, con la anotación, se han depositado en DDBJ / EMBL / GenBank en el marco del proyecto de adhesión AAGB00000000 (wAna wAna) y AAGC00000000 (wSim wSim). Las versiones descritos en el presente documento son las primeras versiones, AAGB01000000 y AAGC01000000. Las secuencias y anotación para wMoj wMoj han consecutivos AY897435 adhesiones a través de AY897548. El wMoj sin montar wMoj lee también están disponibles en el Archivo de trazas y de los archivos de datos adicionales para este papel.

Adicional de los archivos de datos

Los siguientes datos adicionales está disponible con la versión en línea de este documento. Adicional 1 archivo de datos contiene cuatro tablas: los tres primeros de la lista única genes en el wAna wAna, wSim wSim y wMoj wMoj genomas, respectivamente; el cuarto Trace Archivo de la lista de identificadores de los 114 dice que comprende la wMoj wMoj secuencias de la D. Mojavensis proyecto del genoma. Datos adicionales 2 es un archivo multi-fasta archivo que contiene las secuencias de los 114 wMoj wMoj lee.

Material suplementario
Archivo Adicional 1
Suplementario cuadros 1, 2, y 3 de la lista única genes en el
W
Ana,
W
Sim y
W
Nosotros Mi genomas, respectivamente, y Suplementario Cuadro 4 Trace Archivo de la lista de identificadores de los 114 dice que comprende la
W
Nosotros Mi secuencias de la
D. mojavensis
Proyecto del genoma
Archivo Adicional 2
Las secuencias de los 114
W
Nosotros Mi dice
Agradecimientos

Damos las gracias a Hean Koo para ayudar en la gestión de los datos del genoma, y Hervé Tettelin y Martin Wu útil para los comentarios sobre el manuscrito. También damos las gracias a Agencourt Bioscience, de la Universidad de Washington y del Centro de Secuenciación del Genoma del NIH para realizar la secuencia de datos a disposición del público a través de la NCBI Trace Archivo. SLS, ALD, y MP fueron apoyados en parte por el NIH en virtud de subvenciones R01-R01-LM06845 y LM007938 a SLS. JDH con el apoyo de fondos de la Fundación Nacional de Ciencia de Fronteras en la Investigación Biológica Integrativa en virtud de concesión EF-0328363.