Paircomp, FamilyRelationsII y Carro: herramientas para la comparación de secuencias interespecífica
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.
Análisis comparativo de secuencias es un medio eficaz y cada vez más común forma de identificar cis-regulador regiones en el genoma animal.
Se describen tres herramientas para el análisis comparativo de pares de BAC de tamaño genómico regiones. Paircomp es una herramienta que hace de ventana (ungapped) comparaciones de las secuencias de dos informes de todos los partidos y por encima de un umbral establecido. FamilyRelationsII es un visualizador gráfico para las comparaciones que permite la exploración interactiva de los diferentes tipos de comparaciones. Carro es un sitio web y computación, el grupo de gestión de sistemas que se utilicen para ejecutar y almacenar las comparaciones para mostrar por FamilyRelationsII. Estas herramientas están especializados para el descubrimiento de cis-regulador regiones en el genoma animal. Todos los instrumentos y su código fuente están disponibles libremente en http://family.caltech.edu/.
Estas herramientas han demostrado eficacia en identificar regiones reguladoras equinodermos, mamíferos, y nematodos.
Análisis comparativo de secuencias se está convirtiendo rápidamente en un método estándar para el descubrimiento de los módulos reguladores cis-[1]. La técnica se basa en la conservación de las firmas de la izquierda por genómica funcional regiones como fondo de secuencias evoluciona. A menudo es la única forma de descubrir computacionalmente cis-regulador módulos de los genomas de animales, cuando en definitiva el conocimiento de los reguladores se carece de aguas arriba, y puede servir como un excelente complemento de técnicas experimentales.
Paircomp, FamilyRelationsII (FRII), y de Carro es un sistema integrado para la comparación de dos BAC tamaño (~ 100 kb) secuencias genómicas, se visualiza la comparación, la manipulación de los umbrales y opiniones, y la extracción de los resultados. Estas herramientas y sus predecesores, seqcomp y FamilyRelations, han sido ampliamente utilizadas en los años desde que nos los ha puesto a disposición [2]. Sin embargo, la adición de Carro, un servidor Web para realizar el sistema, el almacenamiento, y la revisión de los análisis, hace que esta combinación de herramientas mucho más útiles para el biólogo experimental.
El primer análisis realizado con FamilyRelations era una comparación de la región otx entre dos erizos de mar, 11 de los 17 bloques se mostraron conservadas para conducir expresión de un periodista [3]. Kirouac Sternberg y [4] muestran que entre las características conservadas C. Y C. elegans Briggsae codificar reglamentación funcional regiones. Romano y Wray [5] utiliza FamilyRelations para demostrar que la secuencia primaria de la identidad se conserva sólo en parte de los que anteriormente se endo16 cis-regulador región, cuando la L. Variegatus secuencia se utilizó como un socio de la S. Purpuratus secuencia. Leung et al. [6] utiliza para analizar FRII regiones en las que NFKB obligado a verificar que las regiones se conservaron entre ratón y humano. Y, más recientemente, Revilla-i-Domingo et al. [7] identificaron una pequeña región conservada en el delta genómica como un locus cis-elemento regulador responsable de la expresión de los localizados en el delta S. Purpuratus. Similar análisis de la regulación de gatae, krox, wnt8, brachyury, tbrain, foxa y deadringer en S. Purpuratus se prevé que este laboratorio. Si bien la mayoría de FRII publicado uso de Carro y ha estado en los erizos de mar y nematodos, los usuarios han informado de que los instrumentos de regulación identificar con precisión las regiones en los vertebrados y las plantas.
FRII de Carro y especializados para la identificación de conservación relativamente pequeño dentro de las regiones genómicas, y puede ser usado para comparar las secuencias de BAC entre los organismos para los que no existe todo el genoma de montaje (por ejemplo, S. purpuratus / L. variegatus). La exhaustiva "dot-complot" al estilo utilizado el algoritmo de búsqueda (que se describe más adelante) asume nada acerca de la orientación o la posición relativa de las regiones reguladoras y se puede utilizar para detectar reordenamientos que se podrían perder por un algoritmo de alineamiento mundial (ver por ejemplo [4] ). Debido a estas características, y de Carro FRII son especialmente útiles en búsquedas específicas de las regiones reguladoras.
En este trabajo, presentamos estas herramientas eficaces para el análisis comparativo de secuencias a la más amplia comunidad biológica.
Paircomp es un programa para hacer comparaciones con ventanas de dos secuencias. Se trata de una ampliación de reimplementación de la seqcomp programa [2]. Paircomp contiene varios algoritmos para hacer exhaustiva de ancho fijo-ventana de comparación de secuencias, optimizados para diferentes parámetros. El valor por defecto utiliza un algoritmo de ventana deslizante para realizar una "comparación de rodadura", y se ejecuta en tiempo O (NxM) por dos secuencias de longitud y M. N Paircomp está escrito en C + + y tiene un interfaz de Python.
FamilyRelationsII (FRII) es un visualizador gráfico para el análisis de secuencias. Es un C + + reimplementación de la original de Java / Jython FamilyRelations [2]. FRII utiliza la cruz-plataforma FLTK toolkit de ventanas para presentar una interfaz común en Windows, Mac OS X, y Linux/X11.
Carro es un sistema de servidor, que presenta una interfaz uniforme para el trabajo de coordinación y ejecución. Tiene varios componentes, incluyendo una interfaz de la Web a través de la cual los usuarios pueden establecer análisis, una interfaz remota para recuperar los programas de análisis de datos, y un lote de empleo haciendo cola sistema basado en un método de procesamiento paralelo conocido como Linda tupla espacio. Todos los componentes están construidos en la cima de una base de datos PostgreSQL. Carro está escrito en Python y proporciona bibliotecas de Python, Java y C + + para el acceso remoto.
Una historia de la técnica de las decisiones de diseño realizados en la aplicación de estas herramientas ha sido publicado en línea ([8], en el artículo "Python en Bioinformática").
FRII está disponible gratuitamente para su descarga en una distribución binaria para Mac OS X y Windows [9]; FRII también se ejecuta bajo la mayoría de distribuciones UNIX, pero tiene que ser compilado por separado. El Centro de Regulación Genómica de la Complejidad en Caltech mantiene un servidor público de Carro [10]. Un tutorial para FRII está disponible en línea [11], y un ejemplo para una tarea para el pregrado de clase también está disponible. El código fuente de paircomp, FRII y de Carro y de todos sus componentes está disponible gratuitamente en el marco del L / GPL lo anterior a través de los sitios Web. Paircomp, FamilyRelationsII y son de Carro Copyright © 2001-2004 el Instituto de Tecnología de California.
Varios diferentes clases de algoritmos están disponibles para la comparación de dos secuencias de los genomas. Ventanas comparaciones hacer una exhaustiva comparación de dos secuencias con un ancho fijo ventana, y un estricto registro (ungapped) secuencia de la identidad dentro de esa ventana [2, 12]. Local alineación algoritmos como BLAST búsqueda de "palabras" de ADN en un par de secuencias y construir un gapped alineamiento en torno a estas palabras [13]. Estos gapped alineaciones suelen ser anotadas por longitud total, de modo que por ejemplo, un 500 bp partido en el 90% más alto que se clasifica a 200 pb coinciden en el 90%. Global alineación algoritmos como AVID [14] y LAGAN [15] tratan de construir una start-to-end gapped alineación de syntenic regiones genómicas. Comparaciones con ventanas y locales alineación algoritmos de búsqueda de coincidencias por lo general en ambos adelante y atrás complemento de las direcciones, mientras que a nivel mundial la adaptación algoritmos suelen tratar de construir una alineación sin inversiones. Implementaciones de las tres estrategias de genómica comparaciones se han disposición del público durante algún tiempo: Dotter y ventanas seqcomp aplicar comparaciones [2, 12]; PipMaker utiliza un algoritmo de alineación local, blastz [16, 17]; Vista y se basa en una adaptación global generado Por AVID [18]. Los tres comparación estrategias han tenido éxito en la búsqueda de regiones reguladoras [1, 19].
De las tres clases generales de los algoritmos, optamos por el uso de ventana comparaciones en nuestra búsqueda de cis-regulador módulos. Nuestra decisión se basa en varios criterios. En primer lugar, el informe coincide con estas comparaciones basadas únicamente en la estricta secuencia de identidad sin gapping, a diferencia de los algoritmos de alineación. Esta es una buena exigencia desde el principio al comparar las secuencias en busca de cis-regulador módulos, cuya evolución aún es poco conocido, en particular, sitios de unión podría ser sensibles a los indeles, que son algo se elide en gapped alineaciones. Además, no teníamos a priori expectativa de la ubicación, tamaño, grados de similitud o de regiones conservadas, lo que exige una exhaustiva estrategia de búsqueda que no sesgo de las puntuaciones basadas en la longitud o la posición de los partidos. Y, por último, desde una perspectiva de la interfaz de usuario de los parámetros de paircomp - windowsize y umbral - son simples y de manera intuitiva vinculado a los resultados. Nuestro éxito con este enfoque básico significa que no hemos necesarios para pasar a otros algoritmos.
Paircomp es un programa que se ejecuta en ventanas comparaciones (ver Métodos). Busca coincidencias tanto en el avance y retroceso de complemento direcciones. Paircomp corre dentro de Carro; los resultados se almacenan en una base de datos y comunicarse a FRII.
Carro es un sitio Web a través del cual se ejecutan los análisis y de los análisis que se cargan en FamilyRelationsII. En él se ofrece una fácil de usar interfaz a través del cual establecer un conjunto de análisis sobre un par de secuencias. Carro también permite la anotación de las secuencias con una variedad de características; características se puede cargar a Carro en el formato estándar GFF. Un tutorial para el establecimiento de comparaciones pairwise está disponible en línea [11].
FamilyRelationsII, o FRII, BAC muestra la comparación de las secuencias genómicas de tamaño de las longitudes ~ 100 kb. Es un programa gráfico que se ejecuta directamente desde un escritorio y carga de datos desde el servidor de Carro. Desde dentro FRII, los usuarios pueden hacer zoom a mirar más de cerca las características, modificar los umbrales de calificación para las comparaciones, cambiar el color de características, y encender o apagar la pantalla de análisis específicos. FRII también puede mostrar de cerca las opiniones de las comparaciones y en contra de alineaciones de secuencias de ADN y proteínas.
La figura 1 muestra los principales FRII vista de una comparación entre el locus en otx S. Purpuratus y L. Variegatus, dos erizos de mar que divergieron aprox. 50 Mya. Las secuencias genómicas se obtuvieron a partir de las bibliotecas BAC, tal como se describe en [3]. En el caso de S. Purpuratus, el BAC otx contiene toda la región de codificación, la L. Variegatus secuencia contiene sólo el 5 'del gen de la región, y no el final exón.
La comparación es una muestra paircomp comparación realizada con una ventana de 20 pb en el 90% y luego aparece en un 95%. El general colinealidad de los partidos sugiere que la mayoría de las regiones similares se conservan con respecto al tamaño, la orientación, y la distancia relativa de los exones. Esto es típico de colinealidad características conservadas en nuestro comparaciones. Las líneas diagonales que cruzan la comparación suele identificar regiones de baja complejidad, como simple secuencia se repite presente a lo largo de las dos regiones genómicas. Este pairwise cartografía de vista es uno de los dos grandes puntos de vista en FRII, la otra gran escala de vista es un punto de vista parcela, que se muestra en la Figura 2.
La Figura 2 muestra un punto de vista parcela de la ampliación de la comparación de la región, centrado en el primer exon del gen α-otx transcripción. Además de la propia exón, la conservación es irregular en toda la región, una vez más, esto es típico de muchas comparaciones. Esta vista también muestra que todos los elementos están alineados sobre escalas de ~ 10 kb.
En tanto el punto de parcelas y pairwise cartografía de vista, hacer comparaciones múltiples con diferentes parámetros pueden ser mostradas en diferentes colores. El umbral para los partidos muestra se puede ajustar hasta el fin deseado se obtiene, y la secuencia se puede exportar de cualquiera de los puntos de vista a través de un menú emergente.
Una vez que el umbral que se elija, el usuario puede ampliar el punto de vista de una región en particular. La Figura 3 muestra una vista de cerca de la región se indica en azul en la Figura 2. La secuencia muestra en la Figura 3 es un pequeño parche de conservación aguas arriba de la primera exón, está representada en un umbral 19/20. Aquí el usuario explora a lo largo de la secuencia y compara ambos visualmente los límites de los partidos y de la complejidad de la secuencia. Secuencias son exportados directamente a otras aplicaciones a través de la "pasta" de amortiguación.
FRII también realiza búsquedas de motivos utilizando la notación IUPAC W por ejemplo, en la que representa una o T. Esta característica permite a los usuarios buscar coincidencias con la conocida "consenso" para la unión de factores de transcripción. Las búsquedas son almacenados en el servidor de Carro y se muestran como las características individuales de FRII opiniones, o ejecutados directamente en FRII. Una herramienta de gran utilidad sobre todo es la posibilidad de pedir los motivos que han desajustes en un máximo de 5 posiciones, lo que permite a los usuarios la búsqueda de coincidencias con más débiles conocido consensi.
FRII muestra una variedad de análisis. Además de las comparaciones paircomp ventana, muestra y manipula FRII Vista estilo comparaciones, y BLAST blastz comparaciones, BLAST búsquedas en bases de datos, comparaciones de cDNA y proteína, así como los resultados de varios genes diferentes buscadores (genscan, geneid, y hmmgene [20 - 22] ). Todos estos análisis pueden ser ejecutadas directamente en el servidor de Carro, exceptuando sólo las comparaciones utilizando la Vista (por defecto) AVID alineación programa. Los datos de Vista comparaciones deben ser subido de los resultados que proporciona el sitio web de Vista, sin embargo, Vista al estilo comparaciones con LAGAN mundial de la herramienta de alineación se ejecutan directamente en Carro.
Nosotros y otros han utilizado con éxito paircomp, FRII, y de Carro para descubrir una serie de regiones de reglamentación (véase la Introducción). Una vez que tengamos un par de regiones genómicas para comparar, los pasos que seguimos son esencialmente invariante de una región a otra:
1. Hemos establecido dos a tres paircomp análisis en la siguiente windowsizes y umbrales: 10 bp/90%, 20 bp/80%, y del 50% bp/60.
2. Estamos coincidir con el cDNA o proteínas de interés en contra de ambas regiones, a fin de determinar la codificación de las regiones donde se encuentran.
3. También comparar la base de datos de NCBI RefSeq en contra de ambas regiones, para encontrar otros genes en la región.
4. Nos carga de estos análisis en FRII y zoom en una visión que incluye la mayor cantidad de secuencias intergénicas alrededor de la genética como también es posible sin la inclusión de otros genes. A continuación, ajustar los umbrales de los 20 pb y 50 pb hasta el análisis se obtiene un patrón más o menos alineados de bloques conservados. Valores típicos para estos umbrales se 80-100% para un 20 bp comparación con ventanas, y 60-80% para un 50 bp ventanas comparación.
5. Usamos de cerca el fin de extraer los bloques conservadas, y el diseño de PCR primers para aislar todos los bloques contiguos de la secuencia conservada. A continuación, a título individual o subclone fusible en un reportero GFP construir junto con un promotor basal. Estas construcciones son luego introducidos en el erizo de mar por microinyección y se analizaron por spatiotemporal adecuada expresión.
En nuestra experiencia, siempre hemos sido capaces de identificar los elementos pertinentes potenciador utilizando este procedimiento. Un procedimiento similar en el que supuestamente elementos negativos son fusionados con un ubicuo conductor de expresión a menudo se identifican los elementos necesarios represivas. También tenga en cuenta que una advertencia de estos procedimientos es que para algunos genes, por ejemplo, factores de transcripción, a menudo hay muchas regiones que parecen no hacer nada. Estas pueden ser las regiones reguladoras que afectan a la expresión, a veces o en lugares que no están bajo examen, o podría ser otra genómica características no guardan relación con la regulación de genes.
Paircomp, FamilyRelationsII, y son un instrumento efectivo de Carro, de fácil uso conjunto de herramientas para el análisis de la conservación en BAC tamaño genómico regiones. Más de 100 personas están usando actualmente, y que han sido eficaces en la búsqueda de reglamentación regiones en una variedad de organismos. En el presente trabajo se describen las herramientas y proporcionó una introducción para biólogos, que deseen hacer uso de ellos.
Véase la implementación, anteriormente, para obtener información sobre el software del lado del servidor.
Nombre del proyecto: FamilyRelationsII
Proyecto página: http://family.caltech.edu/
Sistema Operativo: Mac OS X, Windows NT / XP, UNIX / Linux (X Windows)
Lenguaje de programación: C + +
Licencia: GPL / LGPL
No hay restricciones sobre su uso.
CTB diseñado y aplicado a la mayoría de la funcionalidad descrita. YX ejecutado una parte importante de la funcionalidad de XML-RPC utilizados para la interacción cliente-servidor. EHD estableció los requisitos de diseño, ayudado por escrito el documento, bajo la supervisión y el desarrollo de FRII. CCR es responsable de ejecutar los servidores y lo hizo la mayoría de las pruebas de fallo, y también contribuyó a la de papel.
Tristán y De Buysscher Precio Madeleine, bajo la supervisión del Dr Barbara Wold, desarrolló el original seqcomp y contribuyó a FamilyRelations. Ramón Cendejas y Kevin Berney ayudado en el desarrollo de características y ha ayudado a ejercer el servidor de Carro; una lista completa de los contribuyentes a FamilyRelationsII y Carro se pueden encontrar en el sitio Web de Carro, en virtud de Desarrolladores. Agradecemos especialmente a Carolina Livi, Pei-Yun Lee, el doctor Ellen Rothenberg y el doctor Erich Schwarz para amplias pruebas de la interfaz de usuario a través de los años. Dr Ellen Rothenberg y el doctor Erich Schwarz ambos contribuyeron significativamente a los debates de las nuevas características; además, Sagar Damle, Tracy Teal y el doctor Erich Schwarz dieron muchos comentarios sobre este documento. También damos las gracias a dos revisores anónimos por sus comentarios. CTB cuenta con el apoyo de los Institutos Nacionales de Salud GM61005 Grant, y el Instituto Beckman Center for Computational de Regulación Genómica cuenta con el apoyo de los Institutos Nacionales de Salud Grant RR15044.