PLoS Computational Biology, 2005; 1(2): (más artículos en esta revista)

Prueba anotación combinada de elementos trasladables en secuencias del genoma

Hadi Quesneville [1], Casey Bergman M [2], Olivier Andrieu [1], Delphine Autard [1], Danielle Nouaud [1], Michael Ashburner [2], Dominique Anxolabehere [1]
[1] Laboratoire Dynamique du Génome et Evolution, Instituto Jacques Monod, París, Francia
[2] Departamento de Genética de la Universidad de Cambridge, Cambridge, Reino Unido
Resumen

Trasladables elementos (TEs) son móviles, secuencias repetitivas que conforman importantes fracciones de metazoos genomas. A pesar de su importancia y ubicuidad cerca en el cromosoma del genoma y la biología, la mayoría de los esfuerzos para anotar TEs secuencias en el genoma dependen de los resultados de un único programa computacional, RepeatMasker. Por el contrario, los recientes avances en genética indican que la anotación de alta calidad genética modelos pueden ser producidos a partir de la combinación de múltiples fuentes independientes de las pruebas de cálculo. Para elevar la calidad de TE anotaciones a un nivel comparable a la de modelos de genes, hemos desarrollado un modelo combinado en pruebas TE anotación oleoducto, análogo a los sistemas utilizados para la anotación de genes, mediante la integración de los resultados de múltiples homología y de base de novo TE identificación Métodos. Como prueba de principio, que hemos anotado "TE modelos" en Drosophila melanogaster módulo 4 secuencias genómicas utilizando la combinación de pruebas de cálculo derivados de RepeatMasker, BLASTER, TBLASTX, todos por todos BLASTN, RECON, TE-HMM la etapa anterior y el 3,1 anotación . Nuestro sistema está diseñado para su uso con la anotación del genoma Apollo herramienta, que permite automático de resultados que se comisariada manual fiable para producir anotaciones. La fracción de euchromatic TE D. Melanogaster se estima ahora en 5,3% (véase el 3,86% en la versión 3.1), y encontramos un número considerablemente mayor de TEs (n = 6013) que ya había identificado (n = 1572). La mayoría de los nuevos TEs se derivan de los pequeños fragmentos de unos pocos cientos de nucleótidos de largo y muy abundantes las familias que antes no anotada (por ejemplo, el INE-1). También se estima que 518 copias TE (8,6%) se insertan en al menos otro TE, formando un nido de elementos. El oleoducto permite rápida y exhaustiva anotación de incluso el más complejo TE modelos, incluidos los altamente suprimido y / o elementos anidados como las que a menudo se encuentran en heterochromatic secuencias. Nuestro oleoducto se puede adaptar fácilmente a otras secuencias de genoma, como los de la D. Melanogaster heterocromatina o de otras especies del género Drosophila.

Introducción

Trasladables elementos (TEs) son móviles, repetitivas secuencias de ADN que constituyen un componente estructuralmente dinámica de los genomas. La distribución taxonómica de TEs es prácticamente ubicuo: en que se han encontrado en casi todos los organismos eucarióticos estudiados, con algunas excepciones. TEs representan cuantitativamente importantes componentes de las secuencias del genoma (por ejemplo, el 44,4% del genoma humano; [1]], y no hay duda de que el ADN genómico moderna ha evolucionado en estrecha asociación con TEs. TEs muestran las especies de alta especificidad, y el número y tipos de TE pueden diferir de manera espectacular, incluso entre los organismos estrechamente relacionados. Existen abundantes pruebas circunstanciales que TEs pueden transferir horizontalmente entre especies por mecanismos que siguen siendo opacas. El control de las fuerzas de la dinámica de propagación TE dentro de las especies también son escasos los conocimientos, como son los efectos sistémicos de los elementos en los que los acoge genomas. Inserciones de los distintos TEs genoma puede dar lugar a la reestructuración (por ejemplo, la aparición de inversiones), las mutaciones en los genes, o cambios en la regulación de genes. Algunos TE inserciones pueden incluso han pasado a ser domesticados para desempeñar funciones en las funciones normales de los anfitriones (véase [2] para el examen). A pesar de sus múltiples efectos, la abundancia y la ubicuidad, que entendemos muy poco acerca de la mayoría de los aspectos de la biología TE.

Una forma de profundizar en nuestro conocimiento de la biología TE es a través del análisis computacional de TEs en el creciente número de secuencias genómicas completas. En comparación detallada de la abundancia y distribución de TEs en todo el genoma, podemos inferir las propiedades biológicas fundamentales de TEs que se comparten o que se diferencian entre las especies. Sin embargo, significativa TE inferencias acerca de la biología computacional basado en derivados TE anotaciones sólo se puede hacer si tenemos la confianza acerca de los resultados de estos análisis. La característica distintiva de un fuerte resultado en biología computacional se debe a la solidez de su método particular utilizado. La anotación de TEs, sin embargo, por lo general, se basa en los resultados de un único programa computacional, RepeatMasker ( Http://www.repeatmasker.org/ ), Estudios recientes indican que puede ser "ni el más eficiente ni el más sensible enfoque" para la anotación TE [3]. Por el contrario, los recientes avances en el campo de la genética indican que la anotación de alta calidad genética modelos puede ser producido por la combinación de múltiples fuentes independientes de las pruebas de cálculo [4 - 9]. Con el reciente desarrollo de varios nuevos métodos para la detección y repetir TE [10 - 16], ahora es posible aplicar una similar "pruebas combinadas" enfoque a elevar la calidad de TE anotaciones a un nivel comparable a la de modelos de genes.

Para lograr este objetivo, hemos desarrollado una anotación TE gasoducto que integra el resultado de múltiples homología y de base de novo TE métodos de identificación. Actualmente, nuestro oleoducto utiliza la combinación de pruebas de cálculo derivados de RepeatMasker ( Http://www.repeatmasker.org/ ), BLASTER [13], TBLASTX [17], todos por todos BLASTN [17], RECON [10], TE-HMM [14], y publicados anteriormente TE anotaciones [18]. Hemos diseñado nuestro sistema de utilizar un "modelo de la evidencia" marco y la herramienta de anotación Apollo genoma [19], lo que permite computacional pruebas que se comisariada manualmente de forma eficiente para producir fiable "TE modelos". El oleoducto permite rápida y exhaustiva anotación de complejos modelos TE, proporcionando detalles estructurales clave que permiten conocer el origen de gran suprimido y / o elementos anidados. En contraste con la utilización de máscaras simplemente repite, la aplicación de este método proporciona los medios para una completa y precisa anotación de TEs, con el apoyo de múltiples fuentes de datos computacional, una meta que tiene implicaciones importantes para los estudios experimentales de la biología de los cromosomas y el genoma.

Como un caso de prueba hemos optado por describir la euchromatic secuencia genómica de la mosca de la fruta, Drosophila melanogaster. 116,8 Mb-El módulo 3 secuencia del genoma de D. Melanogaster es uno de la más alta calidad y secuencias del genoma es especialmente adecuado para la secuencia del genoma a nivel de estudios de TEs, ya que las secuencias de ADN repetitivas se han acabado de alta calidad y verificados por la restricción sistemática de análisis de huellas digitales [20]. Además, el módulo de anotación de 3,1 D. Melanogaster incluye un manual conjunto de comisariada TE anotaciones [18] que se puede utilizar como referencia para la elaboración y el perfeccionamiento de metodologías TE anotación. Controlados pruebas realizadas aquí en el módulo 3 de secuencias muestran que una combinación de pruebas enfoque ha excelente rendimiento individual TE más de los métodos de detección, y considerablemente más que una fracción del genoma está compuesto de TEs que se había estimado anteriormente. Hemos aplicado nuestra oleoducto a la nueva 118.4 Mb módulo 4-secuencia ( Http://www.fruitfly.org/annot/release4.html ), Que ha cerrado varias de las lagunas existentes en el módulo 3, y ha ampliado la secuencia de la pericentomeric regiones, para producir una nueva anotación sistemática de TEs en el D. Melanogaster genoma. El euchromatic TE fracción se estima ahora en 5,3% (véase el 3,86% en la versión 3.1), y encontramos un número considerablemente mayor de TEs (n = 6013) que ya había identificado (n = 1572). También se estima que 518 copias TE (8,6%) se insertan en al menos otro TE, formando un nido de elementos. Nuestro oleoducto se puede adaptar fácilmente a otras secuencias del genoma, y podría aumentar notablemente la eficiencia de anotar regiones genómicas con complejos o abundantes TE inserciones como heterochromatic secuencias.

Resultados
Evaluación de Métodos

El primer paso en el desarrollo de nuestro oleoducto fue evaluar las habilidades de las diferentes herramientas computacionales que se encuentran disponibles para anotar TEs con el fin de evaluar los puntos fuertes y débiles de cada método. Para ello volvemos a la anotada D. Melanogaster módulo 3 TE secuencia utilizando diferentes métodos de detección y la comparación de estos resultados a la FlyBase Release 3,1 anotación ( Http://www.flybase.org/annot/release3.html ), Que incluye los resultados de un manual conjunto de comisariada TE anotaciones publicados anteriormente por la Kaminker et al. [18].

Métodos de TE anotación se dividen en dos clases generales: (i) los métodos diseñados para la anotación de los que se sabe TE familias, que utilizan una secuencia específica de referencia (también llamada secuencia canónica) y (ii) de novo métodos diseñados para la anotación de anónimos TE Las familias, para los que no la secuencia de referencia aún no ha sido identificado. Esta distinción es necesaria ya que determina las medidas pertinentes para evaluar diferentes métodos de detección TE.

Métodos para la anotación de conocidos TE Familias

Para permitir la comparación directa con los resultados anteriores [18], hemos utilizado el módulo 3 secuencia genómica como una consulta que se analizan en busca de similitud con las secuencias de referencia en la versión 7,1 del Berkeley Drosophila Genome Project (BDGP) TE conjunto de datos ( Http://www.fruitfly.org/p_disrupt/TE.html ), La misma versión que se utilizó para la Liberación 3,1 FlyBase anotación. Inicialmente se probaron tres métodos de predicción TE (véase Materiales y Métodos para más detalles): (i) BLASTER utilizando BLASTN seguido de encadenar con MATCHER (BLRn), (ii) RepeatMasker utilizando los parámetros por defecto (RM), y (iii) el uso por defecto RM Seguido de los parámetros de encadenar con MATCHER (RMm). El último método fue utilizado para poner a prueba el beneficio de la "encadenar algoritmo" aplicado en MATCHER.

Se han comparado las predicciones de anotaciones por calcular los valores de sensibilidad y especificidad para el número de secuencia de nucleótidos de TE predicha por un método que se superponen (o no se superponen) TEs en el módulo 3,1 FlyBase anotación (ver Materiales y Métodos]. Tenga en cuenta que el cálculo de la especificidad aquí es parcial, ya que asume que todos los TEs en el módulo 3,1 FlyBase anotación se sabe, que no es cierto. También compararon diferentes categorías de coincidencia entre los límites de predicción y anotación para ganar visión más profunda de los detalles de los métodos de detección TE (véase Materiales y Métodos]. Estos resultados se resumen en la Tabla 1.

Se encontró que tanto la sensibilidad y la especificidad para predecir Release 3,1 TEs fueron más altos para los BLRn (96,9% y 99,7%, respectivamente) que para la RM (94,3% y 99,1%, respectivamente). Además, el 28% más Release 3,1 TEs se predijo exactamente por BLRn (n = 854) que por la RM (n = 664). BLRn también hizo más de un orden de magnitud menos "método no se sumaron a los" errores (n = 3) que RM (n = 110), lo que indica que la estrategia de BLRn de alta calidad hace que las decisiones sobre la inscripción automática de fragmentos de TEs. RMm intermedios de rendimiento con respecto a la RM y BLRn para predecir con exactitud el módulo anotaciones 3,1 (n = 711), pero, al igual que BLRn, había pocos "método no se sumaron a los" errores (n = 6). Estos resultados pueden explicarse en parte por el hecho de la 3.1 Release anotación fue producida usando BLAST métodos basados en [18], y que la alineación local detener criterio difiere significativamente entre el algoritmo y la BLAST Smith y Waterman algoritmo utilizado por RM (en la final Búsqueda fase). Así, el buen desempeño de BLRn módulo de predicción de 3,1 TE fronteras podría resultar del hecho de que la misma alineación local detener criterio se utilizó. Sin embargo, las diferencias en la adaptación local de equiparación no puede explicar por completo estos resultados, ya que superaron a RMm RM de recuperar coincidencias exactas, lo que indica que el algoritmo implementado en encadenar MATCHER es una mejora significativa en los resultados en bruto RM para predecir Release 3,1 TE anotaciones.

RM identificado aproximadamente 3 veces más nuevo TEs que BLRn, y, por tanto, parece ser un método más sensible para la detección de TEs sido objeto anteriormente. Pero aquí también RMm tuvo un mejor rendimiento para la detección de nuevos TEs de RM, por lo que los efectos de encadenar RM también puede mejorar en este sentido. El putativo TEs predicha por RM, en general, se suma, como puede verse por el relativamente limitado efecto que otros 3.000 han predicciones sobre el genoma en toda la especificidad de la RM y RMm.

Teniendo en cuenta el rendimiento de estos diferentes enfoques, hemos desarrollado y probado una cuarta estrategia que los intentos de aprovechar las fortalezas de ambas y BLRn RM. Este método, llamado RepeatMasker-BLASTER (RMBLR), en combinación de las dos hits y BLRn RM y les dio a MATCHER para encadenar. Para hacer esto, la alineación normalizaron las puntuaciones dadas por BLRn RM y que se golpeó la longitud para encadenar. Como se muestra en la Tabla 1, un optimizado RMBLR tuvieron mayor sensibilidad que RM, RMm, o BLRn sola, produce el mayor número de nuevos putativo TE anotaciones, y otra mantenerse desempeño características similares a RMm y BLRn. Estos resultados muestran que un enfoque combinado para TE anotación es más eficiente en la recuperación de las dos anotaciones TE conocidos y predecir otros nuevos que cada método por sí solo.

Los resultados muestran en la Tabla 1 también indican que hubo errores en el módulo 3,1 FlyBase anotación. Entre ellos, las herramientas predijo el caso de que dos anotaciones podrían sumaron automáticamente (la categoría "no se sumaron a la anotación" en el Cuadro 1], y otras en las que una anotación puede ser dividido (la categoría "más de anotación-se sumaron" en el Cuadro 1]. Usando el editor de anotación Apolo [19] para inspeccionar visualmente estos errores, nos encontramos con que la fragmentación y las estructuras anidadas de TEs a menudo puede ser recuperado con estas herramientas mejor que en el módulo 3,1 FlyBase anotación. Asimismo, la utilización de Apolo nos encontramos con que los muchos nuevos ejemplares parecen ser de buena fe TEs restos de los desaparecidos a partir de la anotación anterior, sin embargo, un análisis detallado del módulo 4 puso de manifiesto que muchas de estas nuevas TEs puede ser el resultado de golpes a simple espurios repite en La secuencia de referencia (véase más adelante).

Métodos para la anotación de Anónimo TE Familias

Asimismo, la prueba de novo métodos para predecir TEs que no utilice una referencia específica secuencia, y evaluó la capacidad de estos métodos para encontrar TEs en el módulo 3,1 D. Melanogaster anotación. Estos resultados sirven para determinar la capacidad de cada método para identificar TEs anónimos, y son importantes para la anotación de las secuencias del genoma que un manual de referencia comisariada conjunto de TEs no está disponible. Individualmente, se ha encontrado que estos métodos tienen menor rendimiento que los que se utilizan secuencias de referencia específica, pero en conjunto proporcionan pruebas adicionales que se pueden utilizar para evaluar TE modelos en el último paso de curación manual.

TEs haberse previsto anónima utilizando cuatro métodos diferentes: (i) un todos-todos-por comparación con el genoma BLASTER utilizando BLASTN seguido de encadenar con MATCHER agrupación y con GROUPER (BLRa), (ii) RECON, utilizando los parámetros por defecto, (iii) BLASTER utilizando TBLASTX con toda la Repbase Actualización de la base de datos, seguido de encadenar con MATCHER (BLRtx), y (iv) un modelo de Markov ocultas que detecta TE secuencias basadas en la composición de nucleótidos (TE-HMM). Tenga en cuenta que para BLRa, comparamos las coordenadas del grupo de las secuencias obtenidas por GROUPER con una cobertura de cero (es decir, la superposición de todos los partidos se fusionaron; ver Materiales y Métodos para más detalles).

Como en el caso anterior, la sensibilidad, la especificidad y los límites de la comparación entre las predicciones y las anotaciones fueron utilizados para evaluar el desempeño de cada método. Nota de nuevo que, como anteriormente, la especificidad es aquí sesgado porque se parte del supuesto de que para su cálculo todas las TEs en el genoma son conocidos. En este sentido, la especificidad puede ser menos significativo que los anteriores, ya que la capacidad de estos métodos para detectar nuevos TEs es mayor, y muchos de los nuevos métodos de detección de TEs tendría una correspondiente baja especificidad. Por lo tanto, debemos ser cuidadosos al interpretar especificidad como la capacidad de detectar sólo TEs ya conocidas.

El cuadro 2 muestra que todos los métodos de novo había relativamente alta especificidad (> 88%) para detectar el módulo 3,1 TE anotaciones, pero que RECON dio el mejor rendimiento para recuperar Release 3,1 TEs exactamente. BLRtx el índice más alto de sensibilidad para detectar Release 3.1 TEs (97,2%), que puede explicarse por el hecho de que este método utiliza Repbase actualización, que incluye la mayor parte de la Drosophila TEs. Esto puede ser demostrado por un análisis similar con Drosophila TEs eliminado de la Repbase Update (BLRtxNoDros ver en la Tabla 2], que dio más baja sensibilidad (44,2%), un menor número de nuevas TEs (n = 8110), y no "exacta", "cerca de Exacta ", o" equivalente ". BLRtx y TE-HMM detectado miles más nuevo putativo TEs que RECON, BLRa, y los otros métodos detallados en el cuadro 1, lo que indica que muchos de los nuevos TE familias pueden seguir para ser descrito en el D. Melanogaster genoma [13]. Estas nuevas familias son probablemente baja en el número de copias y nonoverlapping representados por fragmentos, como se sugiere por el menor número de nuevas TEs encontrado por BLRa y RECON. De hecho RECON sólo podría detectar TEs que se repiten y tienen copias que son más o menos bien conservadas a sus extremidades. BLRtx y TE-HMM sería capaz de detectar TEs en algunos ejemplares (incluso únicos elementos) que pueden ser muy divergentes y / o degenerar. Es quizás sorprendente que BLRtx predice el número más alto de nuevos TEs, desde TE-HMM sería capaz de detectar las copias de las cuales no lejano TE referencia secuencia es conocida. Sin embargo, el elevado número de BLRtx y BLRtxNoDros predicciones puede ser el resultado de un menor de unión de fragmentos de la misma TE, como se sugiere por el gran número de "método no se sumaron a" casos: n = 1172 (BLRtx) y n = 3587 (BLRtxNoDros ). En contraste, el número elevado de las predicciones resultantes de la TE-HMM no parece que el resultado de los menores de unirse ( "método no se sumaron"; n = 42), sino más bien (con su relativamente baja sensibilidad y especificidad) sugieren una tendencia a overpredict Utilizando los parámetros actuales. En conjunto, estos resultados demuestran que los métodos de novo presentar pruebas que se pueden utilizar para apoyar TE modelos, pero adicional para el desarrollo es necesario para poner a punto estos enfoques para generar directamente anotaciones precisas TE.

La anotación oleoducto

Sobre la base de estos resultados, hemos diseñado una estrategia integrada de oleoductos para calcular y almacenar pruebas y TE anotaciones, secuencias del genoma (Figura 1]. Nuestra anotación de tuberías se compone de (i) TE software de detección como BLASTER, RepeatMasker, TE-HMM, y RECON, (ii) por satélite, tales como software de detección de RepeatMasker, Tandem Repeat Finder (TRF) [21], y Mreps [22] , (Iii) una base de datos MySQL ( Http://www.mysql.com/ ) Para la gestión de los resultados de estos métodos y las anotaciones generados a partir de ellas, y (iv) Open Portable Batch System ( Http://www.openpbs.org/ ) Para la distribución de puestos de trabajo en un equipo cluster. La arquitectura flexible de este sistema permite fácilmente otros métodos para la detección de TE que se suma a este gasoducto en el futuro.

Para ahorrar tiempo de computadora y software de reducir los requisitos de memoria, segmentado el módulo 4 secuencias genómicas en trozos de 200 kb por la superposición de 10 kb. Cada fragmento fue analizado independientemente de los diferentes programas de análisis, y los resultados fueron almacenados en la base de datos MySQL. JUEGO-XML ( Http://www.fruitfly.org/annot/apollo/game.rng.txt ) Entonces los archivos fueron generados a partir de los resultados almacenados en la base de datos y carga en la anotación del genoma Apollo herramienta, que permite automático de resultados que se comisariada manualmente para producir una anotación fiable. Por esta curación se utilizó como prueba de niveles (i) el módulo 3,1 FlyBase anotaciones con las coordenadas asignadas a las secuencias de módulo 4, (ii) BLRn, RM, y RMBLR resultados usando la versión 9,0 de la BDGP TE de referencia establecidos, (iii) el uso BLRtx Repbase Actualizar 8,12, y (iv) RECON, BLRa, y TE-HMM (véase Materiales y Métodos para más detalles). Nos exigen que todas las anotaciones con el apoyo de al menos uno de los métodos para detectar conocido TEs-BLRn, RM, o RMBLR. No se incluyen los comentarios anónimos basa únicamente en los métodos de predicción ya que estos métodos potencialmente padecen de alta tasas de falsos positivos (Tabla 2], aunque nuestro análisis en el módulo 3 sugiere que puede haber cuatro familias de TEs todavía no se descubrió en el D. Melanogaster genoma. Tomamos nota de que en la actualidad nuestro oleoducto diseñado con el objetivo de alcanzar el mejor conjunto de anotación conocido TEs en una secuencia del genoma, y no el descubrimiento de nuevos TE familias, un importante esfuerzo por derecho propio, pero fuera del ámbito de la labor actual.

Para facilitar la curación manual, que automáticamente los resultados de RMBLR a ser el candidato anotación (que se define como un conjunto de uno o más fragmentos se sumaron), y que podría ser validados o modificados por el curador en el Apolo de acuerdo a los datos disponibles en el JUEGO - Archivo XML (ver Figura 2 para un ejemplo). Además, hemos generado una lista de las mis-partidos que se sumaron a contiguas, pero no se sumaron MATCHER debido a la magnitud de la supresión o la inserción en la secuencia genómica. Esta lista problema identificado posibles casos a ser considerados cuidadosamente para manual se suma a Apolo. Por otra parte, hemos utilizado RMBLR conservador con la configuración (brecha pena de 0,05), en virtud de unirse intencionalmente contigua coincidencias en comparación con la configuración óptima (diferencia de 0,04 pena; véase el cuadro 1]. Por lo tanto, la decisión de unirse a los casos más difíciles se deja a la curadora. Otra consecuencia de este enfoque conservador es que sólo unos pocos fueron anotaciones manualmente división. Esto ocurrió cuando dos pequeños y distantes fragmentos (por lo general vecinos ejemplares de INE-1 [23]] se sumaron automáticamente, y el inserto entre los dos fragmentos no corresponde a otro TE (como sería el caso de una anidados TE). Nosotras consideramos que la suma a la excesiva debido a la falta de conocimiento sobre la biología de la INE-1 TE familia, de los que es difícil encontrar una secuencia de referencia fiable. Inicialmente dividir el cromosoma cinco principales armas de los cinco curadores de un primer paso manual de conservación, que se completó en menos de 2 semanas. Después de esto, un solo curador realizó un segundo-pass manual de curación con el fin de mejorar la coherencia de las decisiones de editar el manual. Se examinaron 10348 anotaciones, y sólo 523 (5%) de ellos necesita para ser editado. Por último, se obtuvieron 9053 TE únicas anotaciones después de la fusión de las anotaciones en los solapamientos entre fragmentos.

Durante el paso de curación manual, hemos encontrado un inesperado gran número de hits aparentemente falsas TE particular a las familias como consecuencia de la similitud a simple repite presente en la secuencia de referencia. Por ejemplo, 236 de 373 predijo TEs roo de la familia [24], se generaron sólo por coincidencias con la [CA (A / G)] n roo repetir en la secuencia de referencia. Dado que el número de falsos éxitos resultantes de simples repeticiones es potencialmente muy grande, hemos considerado varias estrategias alternativas para su eliminación automática. Nosotros rechazamos la posibilidad de encubrir la relación de secuencias y / o de la simple repetición de genoma, ya que podría haber disminuido dramáticamente la sensibilidad de la detección de TEs que tienen muchos simple repite en su secuencia de referencia. Además, esta estrategia no garantiza la eliminación de los sencillos que se repite demasiado degenerar de un patrón regular para ser detectado, pero que todavía pueden producir falsos hits causa de las diferencias en la simple repetición de la detección TE frente a la detección.

En lugar de ello, se establecieron en una solución en dos etapas después de la elaboración de nuestros comisariada predicciones que identificó por primera vez todas las anotaciones que tenían menos de una longitud umbral después de la eliminación de las regiones que se superponen simple repetición de las regiones. Estos putativo espurios hits fueron utilizados como consultas en un filtrada BLAST contra la BDGP TE referencia al conjunto de "rescate" falsos falsos encontrado (es decir, real TEs) de cierto espurios hits. Para desarrollar este método, hemos utilizado la roo familia como un conjunto de capacitación, para el que podríamos fácilmente espurio de la partición real TE anotaciones. Pusimos a prueba la capacidad de los tres métodos de detección simple repetición de RepeatMasker, Mreps, y TRF de la discriminación real de espurios roo anotaciones en función de la longitud que queda después de la eliminación simple repetición. Hemos encontrado que el uso de RepeatMasker con una longitud de 170 bp umbral permitido a todos los espurios roo 236 anotaciones al ser identificado con ninguna anotaciones identificados como espurios (datos no presentados).

El uso de este umbral se detectaron 3058 putativo espurios hits, que fueron buscados con BLASTN (E-valor> 1 x 10 -15), a través del "polvo" en contra de nuestra opción de filtrado TE secuencia de referencia establecidos. Se encontró que sólo 18 de los 3058 hits putativo espurios fueron rescatados como real anotaciones, lo que indica que nuestro simple repetición de los umbrales de filtrado de alta especificidad. Estas falsas putativo 3040 hits fueron eliminados de la serie final de la etapa 4 TE anotaciones presentado a FlyBase. Por último, para comprender el origen de estas falsas hits en la auto-promoverse TE modelos, analizamos la superposición de los 3040 hits espurios con el módulo 4 predicciones generadas individualmente por BLRn y RM. Nos parece que 2898 (95%) de los falsos éxitos se superponen un RM de predicción, mientras que sólo el 1255 (41%) de los falsos éxitos superponen BLRn una predicción, que indica que RM generado una mayor proporción de los votos espurios que BLRn.

Discusión

Hemos desarrollado y puesto en práctica un combinado de pruebas de tuberías para anotar TEs secuencias en el genoma y se aplica este novedoso sistema para la detección de TEs en el módulo 4 secuencia de D. Melanogaster. Nuestro trabajo cumple con la demanda de un enfoque unificado para TE anotación en la que se capitaliza la fuerza de múltiples métodos de detección TE [3] y los lugares TE anotación sobre marco conceptual común con anotación de genes [5 - 9]. En comparación con las anotaciones generado por la secuencia de la etapa 3 [18], nos confirma precisamente 743 de 1572 TE anotaciones. Hemos ajustado los límites de 488, se sumaron 80, cambió la línea de 66, cambió el nombre de 14, dividir 16, y describió 4573 TE nuevas anotaciones. (Tenga en cuenta que el número de modificaciones no total de 1572 ya que hay múltiples elementos de la etapa 3 se incorporaron en una sola sumarse). Estas nuevas 4573 TE anotaciones son el apoyo de una importante homología de nucleótidos que previamente reconocidas familias de TEs en Drosophila. Según nuestra anotación la euchromatic TE fracción se estima que el 5,3% (véase el 3,86% en la versión 3.1), y encontramos un número considerablemente mayor de TEs (n = 6013) que ya había identificado (n = 1572). La mayoría de los nuevos TEs se derivan de los pequeños fragmentos de alrededor de unos pocos cientos de nucleótidos de longitud, muy abundante y de las familias que antes no anotada (por ejemplo, el INE-1). Teniendo en cuenta la fracción heterochromatic TE estimado por Hoskins et al. [25] y la fracción de este compartimento (1 / 3 del genoma), se puede estimar que en el D. Melanogaster TEs representan alrededor del 20% de la totalidad de su genoma (cerca del 5% de la euchromatin y alrededor del 50% de la heterocromatina). El oleoducto permite rápida y exhaustiva anotación de incluso el más complejo TE modelos, incluidos los altamente suprimido y / o elementos anidados. Ahora estiman que 518 copias TE (8,6%) se insertan en al menos otro TE, formando un nido. Una descripción detallada de la abundancia y distribución de TEs en el módulo 4 sobre la base de que el resultado de esta anotación se encuentra en preparación. La anotación completa está disponible a través de FlyBase ( Http://www.flybase.org ) Y la base de datos REPET ( Http://dynagen.ijm.jussieu.fr/repet/ ).

Rendimiento

Nuestros estudios en el módulo 3 proporcionar una primera secuencia del genoma a nivel detallado análisis de los diferentes métodos para la detección TE relativa a un manual de referencia comisariada TE conjunto de las anotaciones. Estos resultados (ver cuadros 1 y 2] proporcionar información sobre los puntos fuertes y débiles de cada método y, por tanto, una comprensión más profunda de las consecuencias de las diferencias algorítmico para la detección TE. En general, nuestros resultados sugieren que puede superar BLRn RM con respecto a la determinación precisa de los límites TE, y que gran parte de esta mejora se deriva de la unión algoritmo implementado en MATCHER. Por otra parte, la RM parece ser más sensible para la detección de las pequeñas y divergentes TE copias. RM puede detectar pequeños ejemplares con menos de 80% de identidad con la secuencia de referencia, mientras que BLRn falta a estos pequeños ejemplares. Este aumento de la sensibilidad viene con un costo, tal como predice RM muchos falsos éxitos de las familias con TE simple repite en su secuencia de referencia. En general, encontramos que las diferencias entre BLRn RM y hacerlos muy complementarias para TE anotación cuando hits de ambos métodos son encadenados con MATCHER, y que una simple repetición de la versión filtrada puede ser utilizada para promover modelos fiables TE automáticamente.

Hay muchas razones por las BLRn y RM funcione de forma diferente. Una razón evidente es que la longitud de palabra inicial de la semilla utilizada para la alineaciones de RM es más corto que para los BLRn (nueve para Cross_match versus 11 para BLASTN). Otra razón es que RM elige su sistema de puntuación (un partido de desajuste matriz) de acuerdo a los antecedentes ciento guanina / cytosine composición. Una tercera explicación podría provenir de la final de Smith-Waterman adaptación realizada por RM, lo que le permite producir más largo de alineaciones en las regiones bajas de identidad. Asimismo, en algunos casos especialmente difíciles que un TE genómica tiene una copia duplicada segmento, BLRn da un mejor anotación porque se basa sólo en BLASTN hits, que permiten un pequeño grado de coincidencia entre adyacentes hits. El final de Smith-Waterman adaptación realizada por RM es perturbado en estos casos, en el mejor de colocar una brecha para hacer frente a la serie de sesiones de duplicados. Las dos primeras razones son una cuestión de valores de los parámetros, y las diferencias pueden ser simplemente debido a nuestro uso de los parámetros por defecto. El parámetro más sensible conjunto de RM tiene un costo en términos de velocidad, y la correlación entre la velocidad y la sensibilidad entre BLRn y RM no es el mismo (BLRn es al menos 3 veces más rápido). Usando diferentes valores de los parámetros, ya sea BLRn podría mejorar la sensibilidad y / o RM velocidad. Queda por determinar en qué medida la sensibilidad de BLRn se puede mejorar a un nivel equivalente a la RM con simples cambios en la BLASTN parámetros, ya que el uso de diferentes match-mismatch matrices (cada óptima para un fondo por ciento guanina / cytosine nivel) es Una diferencia importante entre los dos métodos, y puede limitar las ganancias BLRn sensibilidad.

Errores

De nuestro manual de las ediciones, hemos podido identificar algunas dificultades que se podrían evitar en el futuro en un intento totalmente automatizado TE anotación proceso. Uno de los problemas más importantes surge de la anotación de las estructuras simétricas, como la terminal de repeticiones invertidas (TIRs) y largo terminal repite (LTRs). Puede haber palindrómicas estructuras, como en la FP elemento [26]. A menudo, los dos TIRs de un elemento FB genómica se detectan en los diferentes capítulos, es decir, el 5 'TIR en el positivo y el 3' TIR en el capítulo negativo. Esto sucede porque los dos TIRs no son idénticos en la secuencia de referencia. Por lo tanto, si los dos TIRs de la copia genómica son más similares entre sí que a las TIR en la secuencia de referencia, sólo una TIR de la referencia (el más similar) se utiliza para detectar los dos TIRs genómica, pero en diferentes Capítulos. Para evitar este tipo de editar el manual, le sugerimos que utilice una referencia de secuencias con idéntica TIRs. Un escollo similar ocurre con retrotransposones LTR. Si los dos LTRs no son idénticos en la referencia, una copia genómica se pueden detectar con dos 5 'LTRs (o 3' LTRs) si su LTRs son más similares entre sí que a las LTRs de la secuencia de referencia. Si un join es necesario porque indel de una copia en la genómica, nuestro algoritmo no desde las coordenadas de referencia en la secuencia no están alineados. Para evitar esto, recomendamos el uso de secuencias de referencia idénticos con LTRs.

Algunos no-LTR retrotransposon genómica copias que se han extendido en 3 'dirección para abarcar toda la polyadenine (poli [A]) cola. Esto ocurre porque la referencia tiene una secuencia más corta poli (A) cola que un particular copia genómica. En general, estos casos son fácilmente identificados por la observación de una superposición de poli (A) sencillo repetir en el extremo 3 'del elemento. Una solución a este problema es la extensión de la poli (A) de la cola no retrotransposones LTR en el conjunto de referencia a la longitud de la más larga observada copia genómica.

El mayor escollo que hemos encontrado es el problema que plantea la simple repetición que existen en las secuencias de TE de referencia. Sin un tratamiento específico de este problema que se han incluido 3040 espurios hits-aproximadamente un tercio de nuestro original conjunto de las anotaciones. Filtrado de simples repeticiones de la genómica o las secuencias de referencia sin que ello afecte a la sensibilidad de la detección TE no es fácil. Hemos desarrollado un eficaz (aunque ad hoc) en dos etapas de filtrado de estrategia, pero la magnitud de este problema deja un margen para introducir mejoras en el futuro. Actualmente empleamos para detectar RM simple repite, aunque refinado de parámetros de optimización que pueden revelar otras más especializadas simple repetición de la detección de software, tales como TRF [21], Mreps [22], u otros métodos (por ejemplo, [27]] puede ser más apropiado . Una evaluación cuidadosa de los métodos y parámetros de la simple repetición de la detección nos puede permitir disminuir a 170-bp nuestro umbral y evitar el paso de rescate.

Independientemente del mejor método o criterios para la detección de simples repeticiones, la existencia de simples repeticiones de las secuencias de TE de referencia plantea un problema importante, ya que es difícil determinar inequívocamente si una simple repetición con homología a un TE es un hit espurios o refleja un cierto Remanente de TE que en el genoma. Nuestros métodos de garantía de que si queremos dejar un espurio golpeó en la anotación debido a la homología con una simple repetición, que es más de 170 bp de largo. Además, cualquier potencialmente real TE etiquetados como espurios que no sobrevivieron a nuestro rescate no tiene ninguna estrategia única de características que se generan por un TE. No obstante, la posibilidad de la participación de TEs en la génesis de los microsatélites [28] pone de relieve la dificultad biológicos fundamentales en la solución real de espurios simple repite en su conjunto-TE anotación del genoma.

Conclusiones y direcciones futuras

Hemos demostrado en este trabajo que un combinado de pruebas marco puede mejorar la calidad y la confianza de TE anotaciones en el D. Melanogaster. Nuestro oleoducto automatizado nos permite anotar TEs en una escala genómica rapidez y precisión, y la integración de nuestros oleoductos con la anotación Apollo herramienta también permite la evaluación rápida y manual de la edición de anotaciones, incluso TE TE modelos complejos. Sobre la base de la experiencia adquirida en este estudio, seguimos desarrollando y mejorando nuestro oleoducto. Somos la automatización de varias clases de la manual de las ediciones que hemos identificado y esperar que cada vez menos manualmente las modificaciones será necesario en el futuro, lo que permite la aplicación de un gasoducto hacia nuestros más grandes secuencias del genoma humano, como la secuencia. Una posible solución al problema es simple repetición de desarrollar un "sensor combinado" modelo que se trate de resolver en competencia entre señales sencillas y repite TE modelos. También puede ser posible predecir anidados elementos que requieren cambios manual mediante el uso de un contexto estocástico libre de la gramática [29] modelo de enfoque de los diferentes componentes de TE nidos más general; estocástico contexto libre de gramáticas también puede ser útil en la solución de problemas que se encuentran en TEs anotar con terminal repite. Las anotaciones que aquí se presenta puede ser utilizado como un conjunto de formación para estimar la utilidad de este tipo de modelos.

Hemos observado varios casos en la anotación del genoma donde uno o más métodos de novo (RECON, BLRa, BLRtx, y TE-HMM) apoyaría una posible secuencia perteneciente a una nueva familia TE. Además, los resultados de nuestros análisis con herramientas que detectan anónimo TEs (véase el cuadro 2] sugieren que puede haber muchas más familias de TEs todavía no se descubrió en el D. Melanogaster genoma. Dado que los métodos de apoyo que estas predicciones potencialmente sufren de una alta tasa de falsos positivos, hemos optado por no incluirlas en nuestra anotación actual, ya que más trabajo por hacer para validar estos posibles nuevos TE familias. No obstante la combinación de pruebas para algunos de estos elementos es, y estos casos están disponibles para la minería en nuestros resultados actuales.

En general, el problema de la TE descubrimiento sigue siendo un gran desafío para TE anotación. Un buen TE anotación depende críticamente por expertos reunidos en un conjunto de secuencias de referencia, los datos que en la actualidad no se pueden obtener en forma automática. Este paso decisivo es ahora el cuello de botella en cualquier método o gasoducto para anotar TEs en secuencias del genoma (ver también [3]]. La tarea de reunir dicha referencia fija será más difícil en los genomas, donde sólo unos pocos TE familias se conocen. En estas situaciones, tendremos buenas novo TE detección de los procedimientos [10 - 16] que sólo puede ser evaluado adecuadamente capacitados y el uso de alta calidad TE anotaciones en bien estudiados, como los sistemas de Drosophila. Esperamos que el TE anotaciones que aquí se presenta sirva para promover el desarrollo y el perfeccionamiento de TE descubrimiento y métodos de anotación en general, ya que el módulo 3,1 anotaciones han servido para el desarrollo de nuestros métodos actuales.

Por último, también estamos desarrollando nuestro gasoducto para incluir métodos para la anotación detallada de las características estructurales (marcos de lectura abierta, LTRs, etc) en las secuencias de TE. Desarrollo de metodologías tales detallada anotación permitirá a la evaluación detallada de la codificación y de expresión de cada uno de los posibles TE anotaciones en secuencias genómicas. Además, la capacidad de anotar automáticamente características estructurales de TEs facilitará el manual de curación y validación de los candidatos TE secuencias resultantes de uno o varios de novo TE métodos de descubrimiento [10 - 16]. La continuación del desarrollo de este gasoducto, junto con otros avances en el campo de la informática TE genoma, dará lugar a un sólido marco de cálculo que puede arrojar luz sobre el origen y el impacto de los modernos TEs en los genomas.

Materiales y Métodos
Datos.

El D. Melanogaster secuencias genómicas y TE de referencia están disponibles desde BDGP ( Http://www.fruitfly.org/ ). La liberación 3,1 D. Melanogaster y sus secuencias genómicas TE anotaciones han sido extraídos de los archivos XML-JUEGO. El módulo 4 D. Melanogaster secuencias genómicas han sido descargadas como archivos fasta. TE referencia secuencia fija v.7.1 (utilizado por Kaminker et al. [18]] y v.9.0 han sido descargados de BDGP.

Secuencias de las TEs fueron también obtenidas de la base de datos de actualización Repbase liberación 8,12 [30], que contiene todas las secuencias conocidas repetidas incluidos TEs (descargar de Http://www.girinst.org ). Las utilizamos para detectar desconocido familias por similitud con otras especies de TEs.

Análisis de secuencias de software.

Hemos mejorado tres programas en C + +: BLASTER, MATCHER, y GROUPER, presentado anteriormente en el Quesneville et al. [13]. BLASTER puede comparar dos conjuntos de secuencias: una consulta contra una base de datos sujeta banco de datos. Para cada secuencia en la consulta de bases de datos, BLASTER lanza uno de los programas de BLAST (BLASTN, TBLASTN, BLASTX, TBLASTX, BLASTP, o MegaBLAST) [17, 31 - 33] para buscar en el banco de datos de materia. Cada BLAST búsqueda se puso en marcha en paralelo en un equipo cluster. BLASTER no está limitado por la longitud de las secuencias. Se corta mucho antes de lanzar las secuencias y BLAST reassembles los resultados después. Por lo tanto, pueden trabajar en conjunto de los genomas, en particular, para comparar un genoma con ella misma para detectar repite. Los resultados de BLASTER pueden ser tratadas por el MATCHER y GROUPER programas que se describen a continuación. Para los experimentos realizados aquí, NCBI-BLAST2 ( Ftp://ftp.ncbi.nlm.nih.gov/blast/ ) Los programas se utilizaron con los parámetros por defecto, utilizando como una consulta genómica fragmentos de 50 kb, por la superposición de 100 bp.

MATCHER ha sido desarrollado para coincidir con el mapa de resultados en la consulta por primera filtrado de secuencias superpuestas hits. Cuando se superponen dos partidos en la genómica (query) secuencia, la que tenga la mejor puntuación de la alineación se mantiene, y la otra es truncada de modo que sólo nonoverlapping regiones permanecer en el partido. Como resultado de este procedimiento es un partido totalmente eliminado sólo si se incluye en una larga con una mejor puntuación. Todos los partidos que han E-valor superior a 1 x 10 -10 o longitud de 20 o menos se eliminan.

Long inserciones (o tachaduras) en la consulta o tema podría dar lugar a dos partidos, en lugar de uno con una larga brecha. Por lo tanto, el resto de partidos están encadenados por programación dinámica. Una puntuación se calcula sumando y restando resultados coinciden con una brecha pena (0,05 veces la distancia de longitud) y una falta de adecuación pena (0,2 veces la longitud desajuste región), como en [34].

El algoritmo de encadenamiento ([35], pp. 325-329) se ha modificado para producir alineamientos locales. Un fósforo es encadenado con una cadena de otros partidos sólo si la puntuación resultante es mayor que la puntuación del partido solo. Así, la cadena se detiene si la puntuación resultante de la cadena de coincidencias es menor que si el partido no está encadenada. La mejor puntuación-el mantenimiento de la cadena. Luego de identificar otros coinciden con cadenas, la cadena anteriormente se elimina, y buscar de nuevo para el próximo partido la mejor cadena. Esto se realiza iterativamente hasta que no se encontró la cadena. Este algoritmo se repite independientemente de coincidir con el capítulo de + / +, + / -, y - / +. Un máximo del 20% de coincidencia entre los partidos se permite. El algoritmo de encadenamiento permite la recuperación de TEs que contienen inserciones de largo, y, por tanto, pueden identificar con precisión los elementos anidados: aparecen como una larga inserción dentro de otro TE.

GROUPER utiliza fósforos (o encadenados partidos) para reunir secuencias similares en grupos de enlace simple agrupación. Un partido pertenece a un grupo cuando uno de los dos se pongan en venta secuencia de las coordenadas se superpone una secuencia de coordinar este grupo por más de un determinado porcentaje de cobertura longitud umbral (parámetro de un programa). Si los dos partidos se superponen a esta limitación, sus coordenadas se fusionan, tomando el agua de los dos. Grupos que comparten secuencia de lugares que anteriormente no agrupados a causa de un muy bajo porcentaje de la cobertura de longitud se reagruparon en lo que llamamos un grupo. Como resultado de estos procedimientos, cada grupo contiene secuencias que son homogéneos en longitud. Una región determinada puede pertenecer a varios grupos, pero todos estos grupos pertenecen a la misma categoría.

RepeatMasker ( Http://www.repeatmasker.org ) Para pantallas TEs baja complejidad y las secuencias de ADN. Detecta TEs en secuencias de ácidos nucleicos por nucleicos secuencia alineación a la que se caracterizan los elementos usando el programa Cross_match ( Http://www.phrap.org/phredphrapconsed.html ) O WU-BLAST ( Http://blast.wustl.edu ) Con el guión MaskerAid [36]. Ambos programas realizan su alineación Smith-Waterman alineaciones por primera palabra exacta identificación de coincidencias y la restricción de la alineación a una banda o matriz en torno a esta concordancia exacta o de los partidos. De acuerdo a los antecedentes ciento guanina / cytosine composición, diferentes matrices de similitud (cada óptima para un fondo por ciento guanina / cytosine nivel) se utilizan. RepeatMasker anota las partes de las secuencias que son muy similares a un elemento de referencia de un conjunto de "elementos conocidos". Baja complejidad de las regiones de ADN se detectan cuando son tramos de nucleótidos o GC-AT-ricos. Simple repite son detectados por buscar en todos los di-a pentameric y algunos hexameric repite, lo que permite una variación dentro de repeticiones.

RECON [10] es un proceso automatizado para la identificación de novo repetir la secuencia de las nuevas familias en los genomas secuenciados. Busca secuencias genómicas de largo y agrupaciones repite en grupos de secuencias similares. TE copias de una determinada familia se espera que el grupo en conjunto. Su algoritmo de las agrupaciones repite obtenidos por el todo por el todo-la comparación de secuencias (en este caso utilizando BLASTER con BLASTN) y redefine los grupos por la agregación de los puntos finales en una alineación de las múltiples regiones identificadas. De esta manera se tiende a distinguir verdad TE copias de copias en una duplicación segmental.

Hemos demostrado previamente cómo las diferencias de composición de base puede ser utilizado como una herramienta para la detección y análisis de la novela TE secuencias [14]. Modelos ocultos de Markov se utilizan para tener en cuenta la base de la composición de las secuencias y la heterogeneidad entre codificación y no partes de las secuencias. Nosotros utilizamos tres series de secuencias de D. Melanogaster TEs que contiene la clase I, clase II TEs, celulares y genes. Cada uno de estos conjuntos tiene una clara, composición homogénea, lo que nos permite distinguir entre las dos clases de TEs y de los genes. Este enfoque se puede utilizar para detectar y anotar TEs en secuencias genómicas y complementa el actual homología TE basada en los métodos de detección. Además, el modelo de Markov ocultas método es capaz de identificar las partes de una secuencia de nucleótidos en la que la composición se asemeja a la de una región de codificación de un TE. Esto es útil para la anotación detallada de las secuencias de TE, que puede contener una antigua, muy divergentes de codificación de la región que ya no es plenamente funcional.

Comparación de las predicciones y anotaciones.

Nos comparan automáticamente las predicciones obtenidas con diferentes métodos computacionales para la Liberación 3,1 TE referencia anotaciones de dos formas, aplicando en cada una costumbre script Python.

El primero en calcular la nucleótidos coincidencias entre las predicciones y las anotaciones de referencia, y calculó el genoma en toda la sensibilidad y la especificidad. Estos valores se obtuvieron a partir de las ecuaciones (1) y (2), y la cuenta de la verdadera positivo (TP-correctamente anotado como pertenecientes a una TE), falsos positivos (FP-falsamente predecirse como pertenecientes a un TE), verdadero negativo (TN - Correctamente anotada como no pertenecientes a un TE), y falsos negativos (FN-falsamente pronosticado como no pertenecientes a un TE) nucleótidos.

Una alta sensibilidad indica que un método pierde pocos TE nucleótidos (pocos falsos negativos). Una alta especificidad indica que un método encuentra pocos falsos positivos nucleótidos.

La segunda secuencia de comandos Python comparación de las predicciones de los límites a los límites de la referencia anotaciones. Para cada predicción bajo prueba, se realizaron búsquedas en las anotaciones de referencia que se superponen en la misma región genómica. Los diferentes casos pueden ser distinguidos de acuerdo a uno-a-uno, uno-a-muchos, muchos-a-uno, o muchos-a-muchos de relaciones (véase la figura 3 para más detalles).

Para aquellos que tenían un uno-a-uno correspondencia con el mismo TE familia, se calculó la diferencia de las distancias entre las predicciones y las anotaciones de sus respectivos 5 'y 3' coordenadas. Hemos clasificado las diferencias en la distancia en tres clases: ≤ 1 pb, ≤ 10 pb, o> 10 bp. Hemos llamado "exacta" a los que había anotaciones distancias en ambos extremos ≤ 1 pb, "casi exacta" aquellos para los que la distancia en una extremidad fue ≤ 1 pb y el de la otra era> 1 pb y 10 pb ≤, y " Una de las partes exacta "a aquellas para las que se extremidad ≤ 1 pb y el otro era> 10 bp. Casos en los que las distancias son> 1 pb y 10 pb ≤ se llama "equivalente", si uno se distancia> 1 pb y ≤ 10 pb y la otra era> 10 pb, el caso fue "casi equivalente", y si Ambas distancias fueron> 10 pb, el caso era "similar".

También se consideraron muchos-a-uno relaciones. Algunos fueron errores de método en el que una copia genómica (dada por la anotación de referencia) había una gran inserción o supresión. En este caso, los dos fragmentos (el acompañamiento indel) se predice como dos copias, y los fragmentos no estaban unidos. Hemos llamado a esta clase de error "método no se sumaron". También se encontraron casos en los que dos predicciones fueron falsamente considerada como una referencia en la anotación. Aquí, un largo de la región desajuste dos fragmentos separados y la explicación más parsimoniosa era independiente de la inserción de dos copias. Estos fueron "más de anotación-se sumaron a" los casos. También se encontraron casos considerados como una copia de la anotación de referencia, pero que son, de hecho, las copias con un auto-duplican región. Si la duplicación se anidados lo llamamos "TE anidados mismo", o si no anidados, "TE duplicación".

Uno-a-muchos casos eran relaciones en el que dos anotaciones en la referencia se encuentran unidos por el método. Hemos llamado a esta "anotación no se sumaron".

De uno a cero relaciones corresponden a los casos en que una predicción no corresponde a una anotación de referencia. "Nueva TE" casos ejemplares fueron identificados por el método de ensayo, pero en virtud de que no esté presente en la anotación de referencia, y "diferentes TE" superposición de los casos fueron una referencia anotación, pero con un apellido diferente TE. A TE predicción incluida en un pronóstico de la otra familia que ya participan en una determinada relación con anotaciones de referencia, que se llamó "nuevo nido" de referencia correspondientes, en caso de que no se pudiera encontrar la anotación. Anotación correspondencia de la misma familia TE, pero en diferentes capítulo que se llamó "otra línea" si la relación es de uno a uno, de lo contrario se "nuevo TE".

Finalmente hubo una "estructura compleja" caso en el que la relación es muchos-a-muchos.

El guión, puede ser utilizado en forma anónima para poner a prueba los límites de las predicciones de novo que no utilice una referencia específica secuencia. La información utilizada para tales comparaciones es de menor calidad ya que no tenemos las coordenadas en la alineación de la secuencia de referencia (es decir, RECON y TE-HMM), que hace varias categorías de sentido (por ejemplo, "TE diferente", pero también "nuevo nido" , "Otra línea", y "TE duplicación").

Damos las gracias a Clémentine Vitte para ayudar a los ensayos de BLASTER, Chris Mungall para principios de los análisis comparativos sobre el módulo 3, Emmanuel Mongin inicial para el módulo 4 del módulo de cartografía 3,1 TE anotaciones, y Dave Emmert de asistencia cargando nuestro módulo 4 TE anotaciones en FlyBase. Damos las gracias a Sima Misra, Chelsea Scholl, y tres revisores anónimos de sugerencias útiles sobre el manuscrito. Esta labor fue apoyada por el Centro Nacional de Investigación Científica (CNRS), las Universidades P. y M. Curie y D. Diderot (Institut Jacques Monod, UMR 7592, Dynamique du Génome et Evolution) y por el Programa Bio-Informatique (CNRS ). CMB fue EE.UU. el apoyo de una Beca de Investigación de la Real Sociedad. El trabajo en el laboratorio de MA fue el apoyo de un Programa de Donación a MRC MA y S. Russell.