BMC Bioinformatics, 2006; 7: 75-75 (más artículos en esta revista)

La detección de las secuencias de codificación de la superposición en los genomas de virus

BioMed Central
Andrew E Firth (aef@sanger.otago.ac.nz) [1], Chris Brown M (chris.brown @ otago.ac.nz) [1]
[1] Departamento de Bioquímica de la Universidad de Otago, PO Box 56, Dunedin, Nueva Zelandia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

La detección de nuevas secuencias de codificación (CDSs) en el genoma viral puede ser difícil por varias razones. El pacto de los genomas en general a menudo contienen una serie de superposiciones de codificación y no de codificación de los elementos funcionales, que pueden dar lugar a todas las pautas inusuales de codón de uso; de conservación entre las secuencias relacionadas pueden ser difíciles de interpretar - especialmente dentro de la superposición de genes, y los virus emplean a menudo no canónica Traslacional mecanismos - por ejemplo frameshifting, codón de lectura a través, de la digitalización y de filtraciones internas ribosome sitios de entrada - que potencialmente puede ocultar la codificación de marcos de lectura abierta (ORFs).

Resultados

En un trabajo previo, hemos introducido una nueva estadística - MLOGD (Máximo Riesgo ACUMULACION Gene Detector) - para la detección y el análisis de la superposición de CDSs. Aquí presentamos (a) un mejor MLOGD estadística, (b) un extendido mucho suite de software utilizando MLOGD, (c) una base de datos de resultados de 640 virus de alineamientos de secuencias, y (d) un interface web para el software y la base de datos. Las pruebas muestran que, a partir de una alineación con sólo 20 mutaciones, MLOGD puede discriminar no superpuestas de CDSs no codificante ORFs con una precisión típica de hasta el 98%, y puede detectar la superposición de CDSs conocido CDSs con una precisión típica de 90%. Además, el software produce una variedad de estadísticas y gráficos, útil para el análisis de la secuencia de entrada múltiple alineación.

Conclusión

MLOGD es un fácil de utilizar herramienta para la anotación del genoma del virus, la detección de nuevos CDSs -, en particular, la superposición o corto CDSs - y para el análisis de la superposición de CDSs siguientes sitios frameshift. El software, servidor web, base de datos y material complementario están disponibles en http://guinevere.otago.ac.nz/mlogd.html.

Antecedentes

Métodos de búsqueda de secuencias de codificación de la proteína (CDSs) en procariotas y eucariotas, están bien desarrolladas. Algoritmos en general hacer uso de combinaciones de las siguientes firmas de CDSs: (a) o codón dicodon sesgo etc, (b) conservación de las especies, (c) la similitud de secuencias conocidas, (d) la presencia de los marcos de lectura abierta (ORFs), Sitios de empalme, etc, y (e) la expresión de cDNA / EST bibliotecas [1].

En los genomas de virus, sin embargo, la situación puede ser complicada por una serie de factores, que pueden llevar a la disminución de la sensibilidad: (a) el virus de genomas son a menudo demasiado pequeñas (por ejemplo, <10 kb) codón para obtener estadísticas de uso y, en cualquier caso , El pacto de los genomas a menudo contienen la superposición de codificación y no de codificación de los elementos funcionales que pueden resultar inusual en el codón patrones de uso, (b) conservación de las regiones de alto relacionados entre secuencias pueden no ser necesariamente de codificación y, en caso CDSs y / o no la codificación de los elementos funcionales Superposición, la conservación sólo puede revelar la presencia de la superposición de una de las par, (c) nuevos tipos de virus a menudo contienen novela CDSs, distintos a los anteriormente anotado CDS, y (d) los virus pueden emplear una variedad de la no canónica traducción mecanismos - por ejemplo frameshifting , Codón de lectura a través, de la digitalización y de filtraciones internas ribosome entrada sitios.

Genómica comparativa es especialmente útil para detectar nuevos CDSs en genomas de virus, debido a que muchos virus secuenciado los genomas, que cubren una gama útil de la diversidad (es decir, secuencia de divergencia), están disponibles. En su forma más simple, un enfoque de genómica comparativa consiste en busca de las regiones del genoma que se conserva más que la media entre las secuencias relacionadas. Este criterio puede dejar de distinguir CDSs de otros elementos conservados. Un enfoque más avanzado es buscar la mutación en particular asociados con los patrones de CDSs - por ejemplo, el software CRITICA [2], par o modelos ocultos de Markov [3]. Sin embargo, este tipo de algoritmos anteriores no se han ocupado debidamente de la causa de la superposición de CDSs.

En un trabajo previo [4] nos presenta un modelo probabilístico para la mutación asociada a los patrones no codificante, de un solo y doble codificación de la codificación de las regiones de una secuencia múltiples alineación, y una máxima probabilidad estadística - llamado MLOGD - para predecir si una nueva ORF codificación de la consulta es o no codificante. Aquí presentamos (a) un mejor MLOGD estadística, (b) un extendido mucho suite de software utilizando MLOGD (70% es nuevo en relación con [4], el resto ha sido sustancialmente revisado), (c) una base de datos de resultados en virus Genomas, y (d) un interface web para el software y la base de datos.

Aplicación
La estadística MLOGD

Dado un alineamiento de secuencias de entrada, un modelo nulo de la CDS anotación (es decir, la conocida CDSs en algunos elegido secuencia de referencia) y un modelo alternativo (es decir, el más conocido CDSs un nuevo putativo CDS), el MLOGD estadística es una estimación de la probabilidad relativa De obtener el patrón observado de mutaciones a través de la alineación en cada uno de los modelos nulos y suplentes. En esta subsección se describe el modo en primer lugar la MLOGD estadística se calcula para una secuencia pairwise alineación. A continuación se describe cómo este se amplía a un alineamiento de secuencias múltiples. Más extensas notas se dan en la web.

Entrada de datos

Los datos de entrada necesarios para MLOGD son una secuencia múltiples relacionados con la alineación de secuencias, una lista de conocidos CDSs (posiblemente ninguno) en una secuencia de referencia elegido, y un árbol filogenético. Circular genomas son totalmente compatible. Para los virus, los conjuntos de útiles relacionados con las secuencias pueden ser obtenidos de la genómica viral NCBI Web del proyecto [6]. Existen herramientas de la web-server para ayudar a producir una adecuada alineación y árbol filogenético.

Modos de funcionamiento

MLOGD El software tiene tres modos de operación, que se describe a continuación. El 'Test de entrada consulta CDSs opción puede usarse para probar una consulta específica CDS (por ejemplo, un ORF que previamente no haya sido anotado como CDS). El "Buscar y probar todos los no anotado ORFs' y 'Seis marco de la ventana deslizante parcelas de las opciones se puede utilizar para buscar su conjunto alineación de entrada para los nuevos CDSs.

Resultados y discusión
La sensibilidad y la selectividad

El software ha sido probado en simulación de los datos y la superposición de CDSs en el virus de la Hepatitis B, y Escherichia coli genomas [4]. En una nueva prueba, el 14 de virus de alineaciones, los 37 se detectaron conocido CDSs (incluidos cinco ejemplos de la superposición de CDSs contenidos íntegramente en el marco de otros CDSs, y 20 CDSs que en parte se superponen otros CDSs). Por el contrario, la tasa de falso positivo para todos no codificante ORFs de al menos 40 codones fue 0,06 (-2 marco superposiciones excluidas, visite nuestro sitio web para más detalles). Además, todos los falsos positivos ha MLOGD puntuaciones muy bajas (fuera del rango observado de la conocida CDSs).

Más pruebas mostraron que, de las alineaciones con sólo 20 mutaciones en general (es decir, Σ árbol Λ = 20; pairwise por ejemplo, una comparación de dos secuencias de 100 nt divergencia con una media de 0,2 por mutaciones nt), MLOGD puede discriminar no superpuestas de CDSs no Codificación ORFs con una precisión típica de hasta el 98%, y puede detectar la superposición de CDSs conocido CDSs con un típico exactitud de 90% (véase el sitio web para más detalles). En uso general, Λ Σ árbol es a menudo mucho mayor que 20, con menores índices de error previsto.

En línea base de datos de virus

Una base de datos de resultados de 640 virus de la secuencia de alineaciones en la página web. La base de datos contiene varios alineamientos de secuencias, árboles filogenéticos, de las posiciones conocidas CDSs, de seis parcelas marco de la ventana deslizante, las estadísticas y las parcelas para la CDSs anotada, y las estadísticas y para todas las parcelas no anotado start-stop ORFs en secuencias de la referencia de, al menos, 40 codones de longitud.

Conclusión

Hemos presentado (a) una nueva herramienta para la localización y el análisis de virus en CDSs alineaciones, y (b) una base de datos en línea de los resultados en 640 virus alineaciones. Además de la facilidad de uso de la página Web y la producción global, la principal ventaja de MLOGD sobre otros genes-es que la búsqueda de software MLOGD explícitamente toma en cuenta la posibilidad de superposición de genes - en común de los virus. Por ejemplo, para la hepatitis B, hepatitis B aviar, Polerovirus, Luteovirus y el virus de inmunodeficiencia humana 1 genomas (compacto con genomas relativamente alto de la superposición de fracciones CDSs), considera MLOGD con éxito las 28 conocidas CDSs, mientras GeneMark sólo considera 17 (VIOLIN base de datos, [7]]. Hemos probado extensamente la sensibilidad de MLOGD y que se muestran más sensibles que otros métodos para detectar la superposición de CDSs [4].

MLOGD puede, por supuesto, también se utilizará para los organismos celulares. Que se superponen parcialmente CDSs son bastante comunes en procariotas, pero no está claro qué fracción de solapamientos son limitados funcionalmente. Muchos parecen ser el resultado de la pérdida de un codón de parada, lo que permite un CDS a correr en un adyacentes CDS [8]. Otros pueden estar involucrados en los mecanismos de regulación [9]. De igual manera, muchos posibles ribosomal frameshift sitios - conduce a la superposición de CDSs - han sido identificados en los organismos celulares [10], así como de los genomas virales. MLOGD es una valiosa herramienta para el análisis de la magnitud de las limitaciones funcionales de tales superposiciones, con implicaciones para la anotación de putativo frameshift sitios, y de la evolución de la superposición de genes en virus y en procariotas.

La disponibilidad y las necesidades

El MLOGD software y base de datos de virus están disponibles en http://guinevere.otago.ac.nz/mlogd.html (véase también la archivo adicional 1]. Las secuencias pueden ser introducidos en el interfaz web o el software (los programas de C + +, C-shell scripts; distribuido bajo la Licencia Pública General de GNU) se pueden descargar y usar en forma local. Para instalar el software a nivel local, la disposición del público paquetes EMBOSS [11] y R [12] también debe ser instalado. El programa codaln [13] Se recomienda para alinear las secuencias de entrada. Tiempo de ejecución y utilización de los recursos en aproximadamente escala linealmente con el número de secuencias y de la longitud de la entrada de la alineación. En un Pentium 4 2,8 GHz de procesador, el análisis a 900 nt ORF toma ~ 3 s por un período de cinco alineación de secuencias, durante la ejecución de seis parcelas marco de la ventana deslizante (por defecto el tamaño de la ventana) para la región a 10000 nt toma ~ 300 s.

Contribuciones de los autores

AFI: algoritmos, la programación, la página web, la documentación, manuscrito. CMB: dirección intelectual, en especial con respecto a los antecedentes biológicos.

Material suplementario
Archivo Adicional 1
Archivo del código fuente. Sup1.TGZ El archivo es un archivo del código fuente de la versión actual de MLOGD. Desempaquetar con tar xvfz supl.TGZ; luego ver el archivo README en el directorio MLOGD.
Agradecimientos

AFI reconoce con gratitud fondos de la Fundación de Nueva Zelandia para la Investigación, Ciencia y Tecnología, el número de concesión UOOX0304. CMB reconoce con gratitud los fondos del Consejo de Investigación de Salud de Nueva Zelanda.