BMC Bioinformatics, 2006; 7: 498-498 (más artículos en esta revista)

4SALE - un instrumento para la secuencia de ARN sincrónica y estructura secundaria de alineación y edición

BioMed Central
Philipp N Seibel (philipp.seibel @ biozentrum.uni-wuerzburg.de) [1], Tobias Müller (tobias.mueller @ biozentrum.uni-wuerzburg.de) [1], Thomas Dandekar (dandekar@biozentrum.uni-wuerzburg. de) [1], Jörg Schultz (joerg.schultz @ biozentrum.uni-wuerzburg.de) [1], Matthias Wolf (matthias.wolf @ biozentrum.uni-wuerzburg.de) [1]
[1] Departamento de Bioinformática, Biocenter, Universidad de Würzburg, Am Hubland, Würzburg, Alemania

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

En el análisis de secuencias múltiples alineación se basa el fundamento de todo procedimiento de análisis. Errores en una alineación podría influyen fuertemente en todos los sucesivos análisis y, por tanto, podría dar lugar a predicciones equivocadas. Artesanales y mano de la mejora de las alineaciones son necesarios y mientras tanto la buena práctica común. Para las secuencias de ARN a menudo la secuencia primaria, así como la estructura secundaria consenso es bien sabido, por ejemplo, el trébol estructura del t-RNA. Recientemente, algunos editores de la alineación que se proponen son capaces de incluir y modelo de los dos tipos de información. Sin embargo, con el advenimiento de una gran cantidad de secuencias de ARN fiable junto con sus estructuras secundarias resuelto (por ejemplo, dispone de la base de datos ITS2), nos encontramos con el problema de manejar las secuencias y sus correspondientes estructuras secundarias sincrónicamente.

Resultados

4SALE llena este vacío. La aplicación permite una rápida secuencia y estructura secundaria sincrónica alineación de los grandes conjuntos de datos y por primera vez sincronizada la edición manual de secuencias alineados y sus estructuras secundarias. Este estudio describe un algoritmo para la adaptación sincrónica de las secuencias y sus correspondientes estructuras secundarias, así como las principales características de 4SALE utilizado para profundizar el análisis y edición. 4SALE construye un óptimo y único punto de partida para cada secuencia de ARN y análisis de la estructura.

Conclusión

4SALE, que ofrece un uso fácil e intuitivo interfaz, es una caja de herramientas para el análisis de ARN sobre la base de secuencia y estructura secundaria de información. El programa se conecta secuencia y estructura de bases de datos como la base de datos para ITS2 filogenia programas como por ejemplo la CBCAnalyzer. 4SALE está escrito en Java y, por tanto, independiente de la plataforma. El software está disponible gratuitamente y se distribuye desde el sitio Web en http://4sale.bioapps.biozentrum.uni-wuerzburg.de

Fondo

Desde múltiples alineamientos de secuencias son la base de muchos análisis, por ejemplo, en filogenia o en el análisis de dominios funcionales de proteínas, existe una necesidad de programas para crear y mejorar los alineamientos. Actualmente, varios programas están disponibles para cumplir estas necesidades, por ejemplo, CLUSTAL W [1], el músculo [2], DiAlign [3], T-Café [4] o DCA [5] de todos los que son capaces de alinear múltiples secuencias a nivel mundial . Los métodos tienen sus puntos fuertes y débiles, y las alineaciones resultantes pueden diferir de los biológicamente correcta. Editores como JalView [6], vista del mar [7], cine [8] o Alinear [9] son necesarias para mejorar los resultados a mano.

La acabo de mencionar herramientas se basan en la información secuencial único, pero en los análisis de secuencias de ARN es a menudo también dispone de información estructural. Bases de datos como la base de datos ITS2 [10 - 12] proporcionar un creciente número de secuencias conocidas y sus estructuras secundarias, como requisito previo para la construcción de ARN alineaciones para inferir phylogenies, que por supuesto es una condición previa para comprender la evolución de esas estructuras secundarias del RNA [12 ].

Todos los métodos disponibles que incluyen información estructural para construir alineamientos de secuencias de ARN tienen una gran complejidad. Rfam [13], proporciona un método para comparar una única secuencia de nucleótidos consulta a handcurated alineaciones de no codificante del RNA familias con anotada consenso estructuras secundarias. Marna [14] y RNAforester [15] se puede utilizar para construir múltiples alineaciones mundial sobre la base de secuencia y, al mismo tiempo en la estructura de información secundaria. Sin embargo, la cantidad de secuencias y / o secuencia de longitudes es limitado debido a la complejidad de sus algoritmos subyacentes, que es, al menos, O (N 3).

En la alineación actual de los editores como RALEE [16], DCSE [17] o jPHYDIT [18] estructura secundaria de apoyo a la información es muy limitado. Aunque RALEE relys consenso sobre la estructura solamente, jPHYDIT sólo muestra la información de emparejamiento de la secuencia seleccionada. Otro ARN alineación editor llamado SARSE se ha convertido recientemente disponibles y se centra en la detección y corrección de los grupos estructurales del ARN en las familias [19]. Por lo tanto, no dispone de editor para alinear ambos, secuencia y estructura secundaria de información de cada secuencia de ARN simultáneamente.

Aplicación

4SALE Está escrito completamente en JAVA, que permite ejecutar el software en cualquier plataforma JAVA con un 5,0 máquina virtual disponible. La aplicación consta de dos partes, el algoritmo de adaptación, que se basa en las proteínas alineación algoritmos, y el editor gráfico de la interfaz. Por secuencia y estructura secundaria alineaciones se está ejecutando en la máquina local se 4SALE uso de CLUSTAL W [1], por lo que el binario se requiere que esté instalado.

La integración de diferentes herramientas de múltiples alineación se realiza utilizando SOAP basados Webservices. En este sentido, tomar la utilización de RNAforester [15], CLUSTAL W [1], DCA [5] o DiAlign [3]. El DCA DiAlign y Webservices actualmente apoyo secuencia de alineaciones sin estructura secundaria de información únicamente. El WebService tecnología permite al usuario ejecutar las tareas en las máquinas remotas. Por lo tanto, es posible utilizar 4SALE sin restricción de ningún tipo durante el cálculo de la alineación. Todos los Webservices requieren una conexión a Internet.

Resultados
Apoyado datos

Por RNA secuencia y estructura secundaria de alineación y la edición, dice 4SALE Viena estilo DotBracket [20] formato de archivos. La base de datos ITS2 [10 - 12] representa una buena fuente para este tipo de datos. Además ofrecemos acceso directo a la base de datos de ITS2 dentro 4SALE a través de la interfaz SOAP ITS2 [10]. Si bien la secuencia de ARN información sólo se apoya a través del formato estándar de FASTA, alineación de datos pueden cargarse utilizando el Clustal [1] importador. Por otra parte 4SALE maneja basado en XML ARN formatos saber RNAStructML y RNAStructAlignmentML [21].

Principales características

Además de la estructura secundaria basada en la funcionalidad, 4SALE integra muchas funciones útiles, que se sabe la alineación de otros editores / programas. Esto incluye la selección de múltiples secciones de una aproximación interesante para destacar las regiones y ocultar temporalmente las secuencias de centrarse en un subconjunto de la alineación. Secuencia de motivos, incluidos los que se basan en secuencia y estructura secundaria de información, puede fácilmente ser destacado por patrones. Alineación columna de conservación basadas en la información secuencial es visualizado por una u otra secuencia de logotipos [22] o, simplemente, de barras en la parte superior de cada columna. Más importación, exportación y eliminar las secuencias es posible mediante el uso de la secuencia de nombres' menú contextual. Además, las secuencias pueden ser reordenados con la ayuda de la "Reordenar Secuencias" ventana.

Algoritmo

Junto con la integración de RNAforester [15] hemos desarrollado un algoritmo que utiliza la estructura secundaria de información de cada secuencia para alinear múltiples secuencias de ARN. Este algorihm hereda la complejidad de los que se basan en la información secuencial. Esto se realiza a través de mapas la secuencia y estructura secundaria de información de cada secuencia de ARN artificiales para las secuencias de proteínas. El algoritmo puede describirse como la adaptación de cadenas en una carta de 12 alfabeto compuesto de los 4 nucleótidos estructurales en tres estados (unpaired, pareados izquierda, emparejado la derecha). Horizontal dependencias dada por la secuencia de fijaciones no son el modelo de este enfoque. Para alinear la cadena de uso común que los programas de adaptación, al igual que CLUSTAL W [1] con una adecuada matriz de puntuación. Existen varios modelos de sustitución para este tipo de matrices de calificación discutido [23, 24], hemos utilizado un modelo según lo descrito por [25, 26]. El modelo se basa en subsitutions que se extrajeron de ITS2 secuencia y estructura secundaria alineaciones (Fig. 1]. Esas secuencias y sus correspondientes estructuras secundarias se obtuvieron a partir de la base de datos ITS2 [10 - 12].

Síncrona edición

Una de las principales características de 4SALE es la sincronización de la secuencia y estructura secundaria de alineación, es decir, cada operación en la secuencia de alineación también se realiza en la alineación de estructura secundaria y viceversa. Alineación en la edición de obras de carácter general como en la mayoría de los editores de adaptación mediante el uso de la tecla espacio para insertar y la tecla de retroceso para eliminar las lagunas.

Trabajar con estructuras secundarias

Como actuales predicciones de estructura secundaria de información no es muy fiable, realizando los cambios para corregir las estructuras secundarias se necesita con frecuencia.

Estructura secundaria inspector

Una estructura secundaria inspector permite ver y seleccionar las regiones específicas helicoidal en estructuras secundarias cargados de secuencias. El inspector se compone de dos partes: la parte superior muestra un consenso de todas las estructuras secundarias, la parte inferior muestra todas las estructuras secundarias por separado. La estructura secundaria se calcula el consenso no sólo en la columna de conservación, sino también con respecto a las dependencias horizontal, por lo que el resultado es una válida estructura secundaria. La conservación umbral se puede modificar mediante el control deslizante.

Selección de un elemento en el inspector destaca la parte correspondiente a la alineación. Como se muestra en la Fig. 3, el inspector simplifica la visualización de secuencias a desalinearse. "ocultación" la secuencia de alineación basado en el consenso actual estructura también es posible. El resultado se muestra en una ventana nueva, que contiene la alineación basada en la información secuencial. La alineación puede ser procesada como cualquier otra secuencia de alineación cargada en 4SALE. Esto es particularmente útil para el cálculo de árboles filogenéticos basado en la conciencia colectiva helicoidal regiones en la secuencia alineación.

Analizando los cambios compensatorios base

Cambios compensatorios base (CBC) se producen cuando los dos nucleótidos de un sitio enlazado mutar mientras que el emparejamiento se mantiene estable. CBC análisis es importante en la detección de especies que son discriminados por su incompatibilidad sexual [27 - 30]. Nosotros proporcionamos una fácil de usar CBC mecanismo de análisis con la capacidad de calcular las matrices de CTF en la actual secuencia y estructura secundaria basada en la alineación. Los números en el CBC son la matriz cuenta de los cambios compensatorios base en una secuencia pairwise estructura de alineación, que son naturalmente dadas por el examinado múltiples secuencia estructura alineación. Un CBC-ventana en 4SALE (Fig. 2c] permite seleccionar CBC cuenta con entre dos secuencias y se destacan todos los CBCs directamente en la alineación, dando una visión general de todos los CBCs en la alineados secuencias.

De salida y conexión con otras herramientas

Para mayor análisis ya que proporcionamos varios formatos de salida. Calculado CBC matrices se pueden guardar como coma / pestaña de valores separados que se utilizarán en CBCAnalyzer [27]. CBCTree (tal como se aplica en CBCAnalyzer) puede ser usado para calcular árboles filogenéticos basado en una matriz de contar CBC. En la actualidad, ningún programa está disponible para manejar la adaptación productos que incluyen secuencias y de sus estructuras secundarias. Sin embargo, para efectos de visualización y la publicación apoyamos un Marna-como [14] producción. Secuencia optimizada alineaciones de información estructural podría, por supuesto, se guardará por separado. Para los análisis filogenéticos aquí apoyamos la PHYLIP [31, 32] formatos. Otras herramientas que se basan en múltiples alineaciones cuentan con el apoyo de FASTA.

Discusión

4SALE es el primer editor de adaptación que permite la edición sincrónica de las secuencias y sus correspondientes estructuras secundarias. Dado que está dirigido a la alineación de secuencias de ARN y edición que contiene muchas características utilizando la estructura secundaria de información, por ejemplo, la estructura secundaria inspector. Todos actual nivel de alineación pueden manejar los editores de estructuras secundarias como la secuencia de caracteres.

Mediante la utilización de proteínas estándar codiciosos alineación algoritmos que heredamos su tiempo la eficiencia. En contraste con, por ejemplo, Marna [14] o RNAforester [15], el tiempo la complejidad de cálculo no crece con rapidez archivos de gran tamaño. Se presenta un enfoque completamente nuevo utilizando nucleótidos y cada una de estructura secundaria para la construcción y la mejora de alineamientos de secuencias de ARN en comparación con otros, que acaba de adoptar el consenso estructura de la información.

La estructura de salida convierte a Viena DotBracket estilo se pueden crear a partir de cualquier programa de ARN plegables, por ejemplo, RNAfold, Mfold [33] o RNAStructure [34]. Es entonces alineados mediante una adecuada sustitución de la matriz, que en nuestro caso se basa en la información de la base de datos ITS2.

Debido a la limitación natural que dos estructuras se pueden ocultar en una secuencia, por lo general sólo uno será examinado por nuestro enfoque.

Una futura versión de 4SALE integrará además de RNAforester [15] más real la adaptación estructural como Webservices métodos a través de la interfaz SOAP. También estructura secundaria algoritmos de predicción como una alternativa a RNAfold se incluirán. Por otra parte, más visualizaciones como estructura secundaria dibujos se pueden aplicar.

Conclusión

4SALE es fácil de utilizar y tiene un rápido (<O (N 3)) y la buena heurística para el mundo se suman múltiples secuencias de ARN y sus correspondientes estructuras secundarias simultáneamente.

Disponibilidad y requisitos

4SALE está disponible gratuitamente en http://4sale.bioapps.biozentrum.uni-wuerzburg.de. Una máquina virtual Java 5,0 que se necesita para ejecutar la aplicación. Por otra parte, para el intercambio automático de la secuencia y la estructura basada en las alineaciones local de instalación de CLUSTAL W y / o conexión a Internet para WebService basado alineaciones es obligatorio.

Lista de abreviaturas utilizadas

CBC: cambio de compensación base

ITS2: espaciador transcrito interno 2

Autores de las contribuciones

MW concibe el estudio. TM MW y siempre que el algoritmo de alineación. TM calcula la secuencia y estructura secundaria de sustitución y su modelo asociado Resultado matriz. Arquitectura, la aplicación y el diseño gráfico de PS. MW, PS y TM redactado el manuscrito. MW, TM, JS y TD participó en el diseño del estudio y la coordinación. Todos los autores leído y aprobado la versión final del manuscrito.

Agradecimientos

Un agradecimiento especial a Jan Krüger y Sven Hartmeier (Universidad de Bielefeld, Alemania) por su gran ayuda con la integración de los Webservices en 4SALE. Por otra parte, damos las gracias a Andreas Pokorny y Joachim Friedrich (ambos de la Universidad de Würzburg, Alemania) para un debate fructífero y agradecen la financiación de la "Impuls-Vernetzungsfonds und der Helmholtz-Gemeinschaft Deutscher Forschungszentren eV" (HOBIT VH-VI-023).