BMC Bioinformatics, 2005; 6: 102-102 (más artículos en esta revista)

Evolutiva de estimación de la distancia y de la fidelidad de la pareja sabia secuencia alineación

BioMed Central
Michael Rosenberg S (msr@asu.edu) [1]
[1] Center for Evolutionary Functional Genomics, The Biodesign Institute, and the School of Life Sciences, Arizona State University, Tempe, AZ 84287-4501, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Evolutiva distancias son un elemento crucial en la medida de la genómica comparativa y evolutiva biología molecular. Un estudio de simulación se utiliza para examinar el efecto de la alineación de precisión de las secuencias de ADN en la estimación de la distancia evolutiva.

Resultados

Bajo el estudiado las condiciones, la distancia fue de estimación relativamente al margen de error de alineación (50% o más de los sitios mal alineados), siempre y cuando el 50% o más de los sitios son idénticos entre las secuencias (P-observó distancia <0,5). Más allá de este umbral, el procedimiento de adaptación para aumentar artificialmente la aparente secuencia de identidad, sesgado las estimaciones de distancia, y la creación de alineaciones que son esencialmente indistinguible de datos aleatorios. Este resultado general es independiente del modelo de sustitución, la secuencia de longitud, y la inserción y supresión tamaño y tipo.

Conclusión

El examen de la estimación de la identidad de secuencia puede dar cierta orientación en cuanto a la exactitud de la alineación. Inexactos alineaciones se espera que tengan grandes efectos en los análisis depende de la especificidad de sitio, pero los análisis que dependen de la distancia evolutiva puede ser algo sólido a la alineación de error, siempre que menos de la mitad de los sitios se han ido distanciando.

Antecedentes

Evolutiva distancia, el número de sustituciones por sitio que separa un par de secuencias homólogas, ya que divergen de su secuencia ancestral común, es una medida muy importante en la evolución molecular y genómica comparativa. Se utiliza para una gran variedad de propósitos, que van desde el análisis filogenético [1, 2], a la estimación de tiempos de divergencia [3, 4], el ritmo y el modo de cambio evolutivo [5], y las limitaciones funcionales [6, 7] . Evolutiva de estimación de la distancia es a menudo uno de los primeros pasos de alto rendimiento en el análisis de secuencias; errores en estas estimaciones pueden tener consecuencias de amplio alcance sobre los análisis y conclusiones.

Hay muchas maneras de calcular la distancia evolutiva; precisión de los diferentes métodos tienden a ser dependientes de la correcta especificación del modelo de sustitución de la secuencia y longitud [8, 9]. Un factor que no ha sido bien examinado con respecto a la estimación de la distancia evolutiva, sin embargo, es la adaptación (aunque ver [10 - 12]]. Secuencia de la alineación es un instrumento analítico común utilizado en la genómica comparativa. El objetivo de la adaptación es identificar posiciones en las secuencias homólogas que descienden de un antepasado común. Debido a la alineación es el primer paso de muchos complejos, de alto rendimiento estudios [13], se suele olvidar que la alineación algoritmos producir una hipótesis de homología (del mismo modo que un árbol filogenético es una hipótesis de la historia evolutiva). Al igual que con otras hipótesis, estos alineamientos pueden contener error de más o menos dependiendo de la naturaleza de los datos. Aunque está ampliamente reconocido que la gran divergencia de las secuencias son más difíciles de alinear y contendrá más de error de menos divergentes secuencias (por ejemplo, [14, 15]], la naturaleza de este error parece ser subestimados y generalmente es ignorado.

Se ha prestado poca atención a los errores en la secuencia de cómo afectan a los análisis de la alineación. Distintos estudios han demostrado que el error en la alineación pueden tener grandes efectos sobre los enfoques computacionales para el descubrimiento de elementos funcionales [16, 17] y el análisis filogenético (por ejemplo, [18 - 24]], estos estudios se han basado en los conjuntos de datos específicos y, en general, muestran que Diferentes resultados son obtenidos por los diferentes alineaciones, en lugar de estimar la cantidad de error generado por alineación incorrecta.

Realicé un estudio de simulación para examinar la relación entre la precisión y la adaptación global evolutivo distancia no estimación de las secuencias de ADN. Se compone de un perfil de la magnitud del error que uno espera encontrar en la secuencia de pares de la alineación en virtud de las condiciones de la simulación y la comparación de las estimaciones de la distancia evolutiva correcta, y la hipótesis de alineaciones como el verdadero aumento de la divergencia.

Resultados y discusión

En virtud de la línea de base de simulación de condiciones, la alineación precisión (medida como la proporción de sitios alineados que son realmente homóloga) depende en gran medida de la proporción de sitios que contienen homóloga nucleótidos idénticos. Cuando la secuencia de identidad superó el 80%, prácticamente todos los sitios alineados (> 99%) fueron realmente homóloga (Figura 1]. Como identidad disminuido, la proporción de sitios correctamente alineados disminuyó rápidamente. Cuando llegó a la identidad del 65%, aproximadamente el 90% de los sitios alineados todavía correcta, pero cuando la identidad alcanzó el 50% de precisión bajó a 30-65% (dependiendo de la complejidad del modelo de sustitución). Cuando menos de 50% de los sitios verdaderamente homóloga eran idénticos, la alineación se convierte en precisión esencialmente cero.

Una distinción debe hacerse entre la verdadera identidad de las secuencias (la proporción de sitios verdaderamente homóloga en un par de secuencias de nucleótidos que contienen idénticos) y de la identidad alineados (la proporción de sitios homóloga de la hipótesis de una alineación que contienen nucleótidos idénticos). La naturaleza de los algoritmos de alineación es predecir homología mediante la inserción de las lagunas a fin de que los sitios con nucleótidos idénticos alinear. Cuando verdadera variación entre las secuencias es grande, algoritmos pueden ser muy eficientes en incorrectamente inferir la identidad. La identidad teórica mínima para un par de secuencias en virtud de la presente simulación de las condiciones es 25-26% (dependiendo del modelo de sustitución específicos) y, sin embargo, los rendimientos Clustal secuencias de identidad con un mínimo de 44% (Figura 1], incluso para datos aleatorios (similar Los resultados han sido denunciados por otros, por ejemplo, [10, 25]]. La inflación observada en la identidad se detecta predominantemente en las secuencias que realmente difieren en más de un 50% de sus sitios; secuencias con verdadera identidad de 50% o más tienen menos de un 1% de aumento en términos absolutos de identidad observado después de la alineación.

Los resultados representados en la figura 1 describir la exactitud de la alineación par sabia por Clustal bajo la simulación de las condiciones específicas y parámetros de alineación. Si bien estos perfiles exacto no puede tomarse como representante de la alineación de precisión para todas las secuencias y algoritmos, la forma de la curva, probablemente, refleja un patrón general. Diferentes algoritmos evolutivos y de las condiciones puede dar lugar a diversos puntos de inflexión, pero en general la forma de la curva es probable que sea constante (por ejemplo, la precisión de las curvas similares fueron encontrados en [26]].

Hasta cierto punto, la evolución de estimación de la distancia es un poco robusta a la alineación de error (Figuras 2, 3]. La diferencia relativa entre evolutivo distancias estimadas a partir de la verdad y la hipótesis de alineaciones (= | d verdad - alinear d | / d verdad) es inferior al 10%, aun cuando hasta el 50% de los sitios se alinean incorrectamente (Figura 3]. Distancia estimaciones de la hipótesis de alineaciones comienzan a diferir en mayor medida de la verdadera alineación sólo cuando más de la mitad de los sitios se alinean correctamente. Para la JC y HKY modelos de sustitución, la alineación inexactitud no tienen un efecto en la estimación de la distancia verdadera distancias inferiores a 1,0 (Figura 2]. Por HKY + Γ, la alineación inexactitud producido poco efecto en la estimación de la distancia, aun cuando las distancias eran verdad tan grande como 2,0. Cuando se adaptan a la identidad por ciento (la proporción de sitios alineados que contienen los mismos pares de nucleótidos en la secuencia), las curvas de los diferentes modelos de sustitución ser congruentes (Figura 3B]. La solidez de estas estimaciones parece estar relacionado con la inflación de identidad de secuencia (Figura 1C]. Mientras que la verdadera identidad es mayor de 50%, hay poca inflación en la estimación de identidad debido a la alineación (incluso cuando la alineación es en gran mal). Esto se traduce a relativamente poca errores en la estimación de la distancia, debido a la distancia estimaciones se basan únicamente en las proporciones observadas de los sitios que difieren entre las secuencias; JC distancia se basa en el conjunto de contar, Tamura-Nei distancias contar en la partición transversions y purina Pirimidina y transiciones. Dado que estos aspectos se están razonablemente estimado con precisión (aunque los sitios específicos se equivocan) la distancia son también estimaciones razonablemente precisas. El 50% de barrera de la distancia para estimar la precisión fue notificado también por [10] utilizando un enfoque de mínimos cuadrados para la estimación de P-distancia.

Puede ser posible para reducir la secuencia de identidad por la inflación y la evolución de la brecha desajuste sanciones (o mediante los más sofisticados métodos de alineación), estos cambios también alterar la precisión de la alineación. El objetivo de este estudio no era para poner a prueba la mejor manera posible para construir las alineaciones, sino más bien examinar los efectos de los errores típicos de la adaptación evolutiva a distancia en la estimación de secuencias de ADN.

Los efectos de la evolución de los parámetros de la alineación y la precisión de la estimación de la distancia por el parámetro varía, pero una observación general es que cuando el valor de un parámetro concreto tiene un efecto, el efecto se amplifica cuando la verdadera distancia entre el par de secuencias es mayor (Figura 4 ). Si bien la secuencia de longitud generalmente afecta a la exactitud de las estimaciones de distancia evolutiva [9], no hay ninguna secuencia de la interacción entre la longitud y el efecto de la adaptación evolutiva en la precisión de estimación de la distancia. La media de la alineación exactitud no fue afectado por la secuencia de longitud, aunque las desviaciones estándar fueron mucho más largo para la reducción de secuencias (Figura 4A]. Por otra parte, la distancia se hizo un poco mejor las estimaciones con las secuencias más largo (Figura 4B]. En contraste con la secuencia de longitud, aumentando tanto de tamaño y tasa de indel había grandes efectos en la alineación de precisión (Figuras 4C, E]. Evolutiva de estimación de la distancia, sin embargo, no fue afectado por los cambios en estos parámetros (Figuras 4D, F], que muestra una falta de asociación entre la precisión y la adaptación evolutiva de estimación de la distancia (es decir, la figura 4 muestra una disminución del 40% en alineación con exactitud esencialmente no se corresponden con el cambio En la exactitud de las estimaciones de las distancias evolutivas).

Cambiar el parámetro de la α-distribuido Γ variación de la cotización tuvo un efecto fácilmente previsible en la alineación dada la precisión de los resultados en las figuras 2, 3. Α disminuyendo, aumenta la magnitud de la tasa de variación intersite (α indica infinito de la igualdad entre las tasas de todos los sitios), por lo que la disminución de α aumentará la proporción de sitios idénticos entre los pares de secuencias de sustituciones ya que se producirá en un número menor de lugares. Como ya se ha demostrado, el aumento de la identidad entre las secuencias lleva a una mayor precisión de la alineación, resultado confirmado en la figura 4G. La precisión de las estimaciones de distancia parece impulsado por la sensibilidad de los resultados a una adecuada especificación de la tasa de distribución lugar [9], y una relación con la alineación precisión es incierta. Estimación de la distancia evolutiva intersite tasa de variación con la sustitución de los modelos de usuario requiere la especificación de la forma de distribución de Γ-α parámetro. No hay métodos establecidos para estimar α de sólo un par de secuencias (todos los métodos descritos requieren 3 o más secuencias). El efecto de la alineación de precisión en la estimación de la distancia depende de la exactitud de α (resultados no presentados). Cuando se subestima α (es decir, intersite tasa de variación es inferior a la prevista), la distancia evolutiva se subestimado por tanto la verdadera y la hipótesis de alineaciones, pero la diferencia entre estas estimaciones se reduce (en relación a la correcta especificación de α). Cuando se sobreestima α (es decir, intersite tasa de variación es más que prevista), la distancia evolutiva se sobrestimado por tanto la verdadera y la hipótesis de alineaciones y la diferencia entre estas estimaciones se acentúa.

No es de extrañar, los sesgos de nucleótidos frecuencia tienen un gran efecto en la exactitud de la alineación y la distancia de ambas estimaciones (cifras 4I-J]. Alineación precisión disminuye al aumentar la frecuencia de nucleótidos sesgo debido a la mayor probabilidad de falsa homología (Figura 4I]. Un aumento correspondiente en el error de estimación de la distancia se considera (Figura 4J], pero la falta de precisión de la alineación no necesariamente puede ser considerado causal. Nota el contraste entre este resultado y el de la tasa y el tamaño indel (Figuras 4C-F]. Indel Aumento de la tasa y el tamaño muestran una magnitud similar de efecto en la exactitud, como la alineación de nucleótidos frecuencia, pero sin el correspondiente cambio en la estimación de la distancia. Esto pone de relieve la independencia de la distancia a la alineación de estimación de la precisión de las divergencias de evolución moderada.

En general, estos resultados son poco alentadores, sobre todo si se considera que la sustitución de los modelos más realistas (es decir, HKY + Γ en este estudio) son más robustas a la alineación de error durante mucho más tiempo de evolución distancias. Sin embargo, la solidez de estas estimaciones a distancia es muy dependientes del contexto. El hecho de que un 10% de error en la estimación de la distancia es grande o pequeña depende de las preguntas que se les pida, así como la relativa distancia de la secuencia de pares de otros que se analiza.

Algunos de los resultados generales en este estudio se ha informado anteriormente [10, 11, 27], pero el presente estudio se diferencia de estos en la inclusión de los más complicados modelos de sustitución (HKY + Γ vs JC) y la distancia estimaciones (Tamura-Nei Vs P-distancia), así como un enfoque algo diferente a la alineación de secuencias. Clustal es uno de los más comúnmente utilizados alineación de los programas y aplica una variación de las más utilizadas par sabio método de alineación, la Needleman-Wunsch algoritmo [28]. Algoritmos que hacen estimaciones estadísticas de la alineación, ya sea de máxima verosimilitud o Bayesiano [27, 29 - 32], también puede incorporar la estimación de la distancia evolutiva, la estimación de las distancias a veces más de probabilidad de la alineación del paisaje [12]. Estos métodos pueden ser más exactos que Clustal y, en consecuencia, las relaciones entre la alineación y la precisión de estimación de la distancia puede ser muy diferente para estos enfoques distintos de los descritos en este estudio [10, 11, 27]. Uno de los objetivos de este estudio fue perfil de la alineación y la distancia de estimación de los errores como de uso común por la comunidad de la genómica y la bioinformática; los métodos que emplean en el presente trabajo son mucho más comúnmente utilizadas, que son la alineación de los procedimientos estadísticos.

Las simulaciones realizadas representan una condición alineamiento mundial (no hay que cambiar reordenamientos de la homología de secuencias) y, por tanto, se centró en la alineación mundial. Local alineación de programas y algoritmos, como BlastZ [33] o Dialign [34], asumir implícitamente que las subsecciones de las secuencias no son simplemente homóloga (o regiones homólogas que se producen en diferentes órdenes). Sólo por la búsqueda de regiones conservadas, la adaptación local de los algoritmos esencialmente disminuir la probabilidad de falsos positivos (alineados sitios que no son realmente homóloga) al tiempo que aumenta el número de falsos negativos (unaligned sitios que son verdaderamente homóloga). Así, en el alineados regiones, la adaptación local en que cabe esperar que sea más preciso que la alineación global, pero también puede dar lugar a subestimaciones de las distancias evolutivas desde la mal conservadas regiones homólogas probablemente será excluido de la alineación. Los intercambios entre local y global con respecto a la alineación de estimación de la distancia es necesario explorar con cierta profundidad.

Debido a la alineación de error parece ser algo subestimados por la comunidad de la genómica, la alineación de los perfiles están en el error-y-interesante de por sí. Si bien es de conocimiento general que las secuencias vuelto difícil de ajustar, ya que son diferentes (por ejemplo, [14, 15]], la abrupta caída en la precisión (Figura 1] Sólo recientemente se ha perfilado a través de la simulación [26]. No es sorprendente, la naturaleza exacta de estas curvas parece ser muy dependientes de indel tamaño y tipo (Figura 4]. En cierta medida, la alineación de precisión perfiladas en la Figura 1 puede verse como la mejor de los casos-desde el escenario de la simulación de los parámetros puede considerarse realista, pero por lo demás baja, los valores. Como eventos de inserción y supresión aumento en el tamaño y tipo de cambio, la precisión de alineación, en particular para las secuencias más divergentes disminuirá precipitadamente. Sin duda es posible que más exactitud puede ser recuperado por el uso de diferentes algoritmos de alineación o mejor optimización de los parámetros de alineación.

Conclusión

En este estudio, hemos mostrado la evolución de estimación de la distancia a ser algo robusto a los errores en la alineación de las divergencias moderada (> 50% de identidad). Otros usos de los datos se suman, incluyendo por ejemplo, la identificación de sitios conservados relativo a la exploración genética de la enfermedad [35, 36], es probable que se depende en gran medida de la exactitud de la alineación e incluso un pequeño error puede tener un gran efecto sobre los resultados . Diferentes alineaciones se sabe que dar lugar a diferentes hipótesis en el análisis filogenético [18, 19]; cómo diferentes métodos filogenéticos responder a la alineación de error es una cuestión abierta en la necesidad de estudiar el futuro.

Métodos

Tres grandes conjuntos de simulaciones se realizaron, cada uno diferente por el modelo de sustitución de nucleótidos: Jukes-Cantor (JC) [37], Hasegawa-Kishino-Yano (HKY) [38], y HKY + Γ distribuido sitio variación de la cotización. Un resumen de todas las condiciones de simulación se encuentra en la Tabla 1. Por JC, secuencias inicial consistió aleatoria de 1000 nucleótidos, en la que se espera la composición base para la igualdad de todos los nucleótidos (es decir, el 25% cada uno). Secuencias iniciales fueron replicados en un par de linajes independientes y les permite evolucionar en el marco del modelo de evolución JC a que se preveía una divergencia fijo (el número de sustituciones realizadas fueron extraídos de una distribución de Poisson), que van de 0,02 a 2,0. Inserciones y deleciones también se permitió que se produzca, con la tasa prevista de supresión eventos que se produzca una cada 40 sustituciones y la tasa de inserción de eventos que se produzca una cada 100 sustituciones (como se observa en los primates y roedores) [39]. Realizadas número de inserciones y deleciones fueron extraídos de una distribución de Poisson con media igual al valor esperado. Las longitudes de cada uno de los eventos de inserción y supresión también fueron seleccionados de una truncada (para no incluir a cero) la distribución de Poisson con una media de 4 bases (como se observó de los linajes de roedores y primates) [39, 40]. Cada simulación condición se repitió 1000 veces.

El segundo conjunto de simulaciones realizadas es idéntica a la primera, excepto utilizando el HKY modelo de sustitución de nucleótidos. Para este modelo, inicial y se espera nucleótidos frecuencias π = π C G = 0,3, T = π π A = 0,2, y la transición-transversion sesgo se fijó a la observada en sitios neutrales en los mamíferos, κ = 3,6 [41]. El tercer juego de las simulaciones realizadas es idéntica a la segunda, con la excepción que permite tasa de variación entre sitios dentro de la secuencia, el modelo de una distribución gamma con un parámetro de forma de 1,0 [9].

Secuencia de longitud se sabe que juega un papel importante en la estimación de la distancia evolutiva; a prueba para la interacción entre la longitud y el alineamiento de secuencias exactitud, subconjuntos de la HKY simulaciones se repitieron con las secuencias iniciales de 100, 200, 300, 400, 500, 1500, 2000 , 5000, y 10000 bases. Para probar el efecto de la tasa y el tamaño de las inserciones y deleciones en la estimación de la distancia, subconjuntos de la HKY simulaciones se repitieron con media indel longitudes de 2, 6, 8, y 10 bases (el original simulaciones había una media de 4 de las bases) y con Las tasas de inserción y supresión de 1 cada 200 (inserción) y 80 (supresión) sustituciones (la mitad de la tasa original), 150 y 60 sustituciones (2 / 3 la tasa original), el 75 y 30 sustituciones (4 / 3 la tasa original), Y 50 y 20 sustituciones (el doble de la tasa original). Los efectos de las frecuencias de nucleótidos (G + C% = 60%, 70%, 80% y 90%) y gamma-distribuido tasa de variación (α = 0,25, 0,5, 1,0, y ∞) fueron examinados de manera similar.

Para cada conjunto de datos simulados, la suerte de cada uno de los sitios originales Se siguió el rastro y una alineación que representa la verdadera homología se construyó para cada conjunto de datos (es decir, el programa de simulación producida gapped secuencias en la que se suman todos los sitios son realmente homóloga). Las lagunas se han retirado de las secuencias y cada conjunto de datos se ajusta usando Clustal W versión 1,83 [42] con los parámetros por defecto, como es común en el alto rendimiento y análisis de los estudios comparativos de este tipo [26, 34, 43 - 45] . Esto produjo una hipótesis de la alineación, tal y como cabría obtener de análisis de los datos reales. Clustal es uno de los más utilizados a nivel mundial los programas de adaptación, en particular para los de alto rendimiento de análisis genómico, y tiende a ser uno de los más exactos [26, 46]. Si bien es posible que otro programa o algoritmo o cambiar el valor por defecto parámetros Clustal podría dar lugar a más precisa alineaciones, el objetivo principal de este estudio no es para poner de relieve la exactitud de este (o cualquier otra) la adaptación del programa, sino más bien examinar los efectos De la adaptación evolutiva error en la estimación de la distancia. Uno podría propósito misalign las secuencias a mano, pero utilizando un programa común de la alineación nos permite crear errores en consonancia con las que se encuentran en la alineación de los datos reales.

Secuencia evolutiva distancias entre pares se estimaron para la correcta y la hipótesis de alineaciones utilizando el Jukes-Cantor [37], Tamura-Nei, y Tamura-Nei + Γ fórmulas [47], según el caso.

Después de los primeros análisis, el orden de los nucleótidos en la secuencia de cada simulado fue completamente al azar para crear secuencias aleatorias con idéntico contenido que el de nucleótidos secuencias simuladas. El azar también se suman secuencias utilizando Clustal.

De los autores Contribuciones

MR diseñado, programado, ejecutado, y se analizaron todas las partes de este estudio.

Agradecimientos

Muchas gracias a Sudhir Kumar, Subramanian Sankar, Arndt von Haeseler, y revisores anónimos por los comentarios sobre versiones anteriores de este manuscrito.