BMC Bioinformatics, 2005; 6: 63-63 (más artículos en esta revista)

Modelos evolutivos de las inserciones y deleciones en un marco de modelado probabilístico

BioMed Central
Elena Rivas (elena@genetics.wustl.edu) [1]
[1] Departamento de Genética, Universidad de Washington School of Medicine, 4444 Forest Park Blvd., Saint Louis, Missouri 63108 EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Probabilístico de los modelos para la comparación de secuencias (tales como modelos ocultos de Markov y modelos ocultos de Markov par de proteínas y mRNAs, o su contexto libre de la gramática estructural homólogos de ARN's) asumen con frecuencia un determinado grado de divergencia. Idealmente nos gustaría que estos modelos estará condicionada por el tiempo de divergencia evolutiva.

Probabilístico de los modelos de sustitución de los acontecimientos están bien establecidos, pero no ha habido un marco teórico totalmente satisfactoria para el modelado de los eventos de inserción y supresión.

Resultados

He desarrollado un método para la ampliación de la sustitución de los modelos estándar de Markov para incluir brecha caracteres, y otro método para la evolución del estado las probabilidades de transición de un modelo probabilístico. Estos métodos utilizan matrices de la tasa instantánea de una manera que es más general que los utilizados para los procesos de sustitución, y son suficientes para proporcionar tiempo para que dependen de los modelos estándar lineal y afín brecha sanciones, respectivamente.

Dado un modelo probabilístico, podemos hacer todas las probabilidades de su emisión (incluyendo brecha caracteres) y todos sus probabilidades de transición condicional en un momento elegido divergencia. Para ello, sólo necesita saber los parámetros del modelo en un momento particular divergencia ejemplo, así como los parámetros del modelo en los dos extremos de cero y el infinito divergencia.

He aplicado estos métodos en una nueva generación de la ARN genefinder QRNA (eQRNA).

Conclusión

Estos métodos se pueden aplicar a incorporar modelos de evolución de las inserciones y deleciones en cualquier modelo de Markov ocultas o estocásticos contexto libre de la gramática, en un par de perfil o forma, para el modelado de la secuencia.

Antecedentes

Probabilístico de los modelos se utilizan ampliamente para el análisis de secuencias de [1]. Modelos ocultos de Markov (HMMs) son una gran clase de modelos probabilísticos utilizados para muchos problemas en el análisis de secuencias biológicas tales como búsquedas de homología de secuencia [2 - 4], la alineación de secuencias [5], o proteína genefinding [6 - 8]. Estocástico contexto libre de gramáticas (SCFGs) son otra clase de modelos probabilísticos utilizados para RNAs de los problemas estructurales, tales como búsquedas de homología de ARN [9 - 13], la predicción de la estructura de ARN [14, 15], y genefinding RNA [16].

Secuencia similitud métodos basados en HMMs o SCFGs puede adoptar la forma de perfil o par de modelos y son muy importantes para la genómica comparativa. Estos métodos probabilísticos para la comparación de secuencias asumir un cierto grado de divergencia de secuencias. Por ejemplo, en los modelos de perfil (ya sea de perfil HMMs [2 - 4] o perfil SCFGs [12, 13]] es una secuencia en comparación con un modelo de consenso. Perfil de los modelos deben permitir la aparición de las inserciones y deleciones en relación con el consenso, y lo hacen mediante el uso de las probabilidades de transición estatal que ceder algunas condiciones que dependen de las sanciones por modificar el consenso con inserciones o deleciones. Del mismo modo, en par de modelos probabilísticos [8, 16] dos secuencias se comparan (alineados y / o calificada). Pares alineaciones necesidad de permitir la sustitución, la inserción y la supresión entre los dos acontecimientos relacionados con las secuencias. Las sustituciones están a cargo de las emisiones de residuos de probabilidades, mientras que los eventos de inserción y eliminación son por lo general a cargo del Estado las probabilidades de transición como en el caso del perfil de HMMs.

En los programas de BLAST [17], la puntuación de un pairwise alineación se determina mediante la sustitución de las matrices que miden el grado de similitud entre dos alineados residuos. Del mismo modo, en par los modelos probabilísticos, las probabilidades de emisión de residuos se basan en la sustitución de las matrices. La evolución de las matrices de sustitución ha sido estudiada en general de diferentes tipos de procesos: los nucleótidos, aminoácidos, los codones, o ARN basepairs [18 - 23]. La evolución de las emisiones mediante la sustitución de las matrices de probabilidades se integra fácilmente en los dos modelos probabilísticos para HMMs [24 - 29] y para SCFGs [14].

En los modelos probabilísticos, la inserción y la supresión eventos (indeles) se consideran a veces por el tratamiento de los indeles como un nuevo residuo (diferencia caracteres) en una matriz de sustitución. Más a menudo que se describen utilizando adicionales ocultos estados, en donde las probabilidades de transición en esos estados representan el costo de la brecha de inicio y transiciones dentro de esos estados representan el costo de la diferencia de extensión. Si el costo de la brecha de inicio y la diferencia de extensión son idénticos, es mencionado como un modelo lineal brecha de costo. Oculto estados permiten arbitraria diferencia de los costos de iniciación y ampliación brecha, que es tradicionalmente denominado afín brecha modelo de costos. El tratamiento de las lagunas como un caracter en una sustitución de la matriz es equivalente a asumir un modelo lineal brecha de costo. Los parámetros que modulan los procesos se debe permitir que el cambio como la divergencia de las secuencias de tiempo que se comparan es variada. Ha sido difícil combinar modelos probabilísticos como el perfil y par HMMs o SCFGs con modelos de evolución de la inserción y la supresión de [30 - 33]. Métodos para evolucionar las probabilidades de transición no son tan desarrollados como en los que describe la sustitución de las matrices, pero es importante esfuerzo a fin de este problema [34 - 41]. La incorporación de modelos de la evolución de las inserciones y deleciones en el contexto de modelos probabilísticos como el perfil HMMs par o modelos son un objetivo muy importante a fin de que los modelos probabilísticos más realista.

Me encontré con este problema en trabajar en QRNA, un programa de computación para identificar los genes del RNA no novo. QRNA utiliza métodos probabilísticos comparativa para analizar el patrón de mutación presente en una pairwise alineación con el fin de decidir si la comparación de secuencias de ácidos nucleicos tienen más probabilidades de ser la codificación de proteínas, ARN estructural de codificación, o ninguno. Originalmente fue QRNA la parametrización de una divergencia en el tiempo. Motivado por el objetivo de hacer un tiempo QRNA paramétrico de la familia depende de los modelos, me investigó la posibilidad de la transición y evolución de las emisiones asociadas las probabilidades de un determinado modelo probabilístico. Como yo ya tenía el modelo para la parametrización un momento dado, encaminadas a utilizar ese modelo como punto de generar todo el tiempo-la parametrización de los modelos de familia.

Porque QRNA incluye tanto lineal y afín brecha modelos en diferentes lugares, en este trabajo me propongo algoritmos para describir la evolución de los indeles como (N + 1)-ésimo carácter en una matriz de sustitución, y los algoritmos para describir la evolución de las probabilidades de transición Asociados a un modelo probabilístico.

El propósito de este trabajo es describir el marco teórico detrás de estos métodos. Una descripción detallada de la particular aplicación de estos algoritmos en QRNA y una discusión de los resultados obtenidos con "QRNA evolutivo" (eQRNA) aparecerán en una publicación complementaria.

Resultados
Evolutivo de los modelos de probabilidad de emisión
Modelo evolutivo de las probabilidades de transición

La forma estándar comparativo en el que los modelos probabilísticos para permitir inserciones y deleciones es mediante la introducción de varios nuevos Estados, con sus correspondientes probabilidades de transición. Por ejemplo, en un par de HMM para la alineación de secuencias (Figura 3], la presencia de lagunas requiere de la introducción de dos estados ( "X" e "Y"), que emiten un solo nucleótido en una de las dos secuencias. Las probabilidades asociadas con la transición dentro y fuera de los estados de control de la "gappiness" de la alineación. Por lo tanto, la evolución de estos parámetros con el tiempo necesario para modelo de diferentes grados de divergencia de secuencias.

Se ha producido un continuado esfuerzo en la mejora de la exactitud de la evolución de las probabilidades de emisión (es decir. Matrices de sustitución) tales como permitir que las correlaciones entre las tasas a diferentes sitios [65, 66], las mejoras en la tasa de derivación de las matrices de datos de la secuencia [23 , 67], o la estimación de múltiples cambios de nucleótidos [68]. En comparación, las ideas para describir la evolución de los parámetros de la transición en los modelos probabilísticos son mucho menos normalizada [34 - 40].

El objetivo de esta sección es describir la evolución de las probabilidades de transición. Por ejemplo, en la par-HMM de la Figura 3 las probabilidades de transición de la "XY" estado a la "X" o "Y" dice describir la introducción de las lagunas existentes en una de las dos secuencias alineados, utilizando una pena afín . Estas transiciones deben ser cero cuando las secuencias que aún no se divergentes (tiempo cero), pero deben ser máximos en la infinita divergencia. Entre estos dos extremos, es conveniente que el modelo de evolución de las probabilidades de transición con tiempo de divergencia. Estos métodos se denominan "evolutivo", ya que la probabilidad de transición será la parametrización con el tiempo, utilizando las funciones que son generalizaciones de la Markov proceso evolutivo que los modelos probabilísticos para asumir las sustituciones. A diferencia del modelo TKF [30, 31] y otros modelos evolutivos [32, 33, 41], el enfoque que aquí se presenta no describir el proceso evolutivo subyacentes que pueden haber generado una secuencia de otra.

El árbol-HMM método [34, 35, 37] es probablemente el método más cercano a lo que quiero desarrollar aquí. Un árbol HMM modelo trata de la relación filogenética entre las secuencias relacionadas con la parsings por el modelado de diferentes secuencias a través de la modelo. En un árbol HMM no es la real de las probabilidades de transición de la HMM, pero el análisis sintáctico de las diferentes secuencias a través de los modelos que están utilizando evolucionado tasa de matrices que se asemejan a las matrices de diagonal tasa introducido en el primero de los métodos descritos a continuación. Aquí quiero generar par o perfil de los modelos probabilísticos que al comparar dos secuencias son capaces de adaptarse al grado de divergencia entre los dos secuencias, y tengo la intención de hacerlo de forma continua en tiempo y forma probabilística, utilizando el Menor número posible de parámetros libres. No historia evolutiva de cada inserción / deleción eventos se generarán; sólo a posteriori se evolutivo historia se establecerá mediante la comparación de secuencias (en el caso de un modelo de perfil) o alineaciones (en el caso de los modelos de pareja) generados por el modelo en diferentes Veces.

Presento dos métodos para evolucionar las probabilidades de transición. Uno de los métodos considera la evolución de un vector de las probabilidades de transición. En este método, el valor de las probabilidades de transición en el tiempo cero y el infinito del tiempo son parámetros de entrada, lo que da un número relativamente grande de parámetros libres. En el segundo, más restrictivo, el método de transición asociados con varios estados se supone que evolucionar en el marco del mismo proceso evolutivo. Esta condición limita algunos de los parámetros libres, pero no fija a todos ellos completamente. Cuando las condiciones son más restrictivas utilizado, las dos algoritmos de dar los mismos resultados. Estos dos algoritmos son aplicables a la mayoría de par y perfil de los modelos probabilísticos, que se HMMs o SCFGs, generalizado o no. Se presenta un ejemplo de la evolución de un vector de probabilidad para un par de vectores HMM, y un ejemplo de la evolución de una matriz de transición sustituciones para un perfil HMM.

Reversibilidad y multiplicabilidad

Para un determinado modelo probabilístico, la imposición de la reversibilidad tiene diferentes consecuencias para su emisión y de las probabilidades de transición. En par de modelos, asumimos que la probabilidad de emisión son reversibles mediante la imposición de P (t, b t + t + t t t + t ') = P (t + t + t + t t t' b, t), Lo que corresponde a la utilización conjunta de probabilidades simétrico representado por la notación reducida P (a, b | t '). Si las emisiones no entrañan lagunas, la probabilidad marginal no evolucionan, y la evolución conjunta de probabilidades se obtienen de la evolucionado condicionales y de la saturación de probabilidades. En presencia de lagunas, que he descrito la manera de construir la evolucionado condicionales y de los correspondientes marginales evolucionado de una manera que mantiene la reversibilidad para cualquier tiempo, de manera que podamos construir evolucionado simétrico conjunta probabilidades.

Para las probabilidades de transición la situación es diferente. Matemáticamente, una matriz de las probabilidades de transición es como una matriz de sustitución (es decir. Condicional probabilidades), pero no existe el equivalente de "conjunto" las probabilidades de las transiciones. Para mantener la reversibilidad de las transiciones de un modelo probabilístico, uno tiene que construir la reversibilidad en el diseño del modelo. En particular, se necesita estar seguro de que la participación de las probabilidades de transición que carecen de lagunas direccionalidad. Por ejemplo, en la par-HMM de la Figura 3 tenemos que imponer que A veces arbitrarias. Esto se logra asegurándose de que la entrada de las probabilidades de transición en el momento t *, el cero y el infinito hacer falta direccionalidad.

Otra propiedad de la evolución de los modelos probabilísticos para sustituciones de residuos se multiplicabilidad. Multiplicabilidad es una propiedad inmediata de los modelos de evolución de la forma e tR. Para la sustitución de residuos de los procesos evolutivos, multiplicabilidad implica que la transición de un acontecimiento dado (digamos de residuos a) a otro evento (digamos de residuos b) en un tiempo finito, si se va a través de cualquier estado intermedio, tiene que ser de la forma de cualquier Otra posible sustitución. En términos matemáticos,

Sin embargo, al permitir que las lagunas, cualquier paso intermedio evolutivo puede ir a través de los procesos de supresiones o inserciones además de las sustituciones; multiplicabilidad, por lo tanto, tal como se describe en la ecuación anterior no se sostiene más. Existe una explicación de por qué "las sustituciones de sólo multiplicabilidad" se modificará la hora de considerar los eventos de inserción y supresión. Considere la evolución de las lagunas como único caracteres, que fue presentado con anterioridad en este documento. La sustitución de la matriz con lagunas Cumple la relación

El análisis de esta matriz por la ecuación de los componentes y el uso de la expresión para Q 0 dada en la ecuación (22), la sustitución de residuos de residuos a hacia b finito en el tiempo t + t 'tiene los siguientes términos:

El primer término corresponde a la sustitución pura eventos de la forma , Y es idéntica a la ecuación (184). El segundo mandato modulada por el coeficiente 1 / q 0 (introducido en la ecuación (65), que es parte de la matriz no trivial Q 0) representa el evento en el que . La tercera parte (precedido por coeficiente (1 - 1 / q 0)) representa el evento en el que . Tenga en cuenta que este modelo se suman en la fecha t + t 'residuos que podrían haberse derivado de un vacío intermedio. Este suele ser desalentado por los modelos evolutivos que describen la historia evolutiva de las inserciones y deleciones, en la que tal evento sería representado como . Para el modelo que nos ocupa, el hecho de que puede volver una brecha en una de residuos es una consecuencia de lagunas en el tratamiento de otros residuos en una matriz de sustitución.

Para el caso particular de la generalizada Jukes-Cantor modelo introducido antes, resulta que los dos términos adicionales en la ecuación (186) son independientes de las sustituciones y cancelar, de manera que

Por lo tanto, la generalizada Jukes-Cantor modelo conserva multiplicabilidad. Ello se debe a la extrema simplicidad del modelo y no es cierto en el caso de los modelos más complicados. Por ejemplo, para el tipo de matriz creada a partir de una determinada Q * en el otro ejemplo se presenta en este documento (que es un caso particular del modelo REV [44]], los dos términos adicionales en la ecuación (186) son diferentes para los diferentes Sustituciones de nucleótidos, y no anular.

Una situación parece más complicada para los modelos probabilísticos que introducir lagunas en una forma afín. Un residuo dado a los residuos proceso de sustitución que se produjo en un tiempo finito podría haber aparecido de un gran número de situaciones intermedias en las que otros tramos de nucleótidos podría haber sido añadido o eliminado. El simple uno-a-uno correspondencia que los modelos de sustituciones mantener a través de la evolución no existe en la presencia de eventos de inserción y supresión. Esto no significa que los modelos evolutivos son incompatibles con las lagunas, sin embargo algunas casas tradicionales de los árboles filogenéticos único residuo de la evolución, como la polea principio [71], no se podrá aplicar en virtud de la evolución de los modelos de probabilidad de transición.

Conclusión

Motivado por el objetivo de hacer QRNA (comparativas método probabilístico para genefinding ARN) un modelo evolutivo, he introducido varios métodos probabilísticos para describir la evolución de los eventos de inserción y supresión. Los métodos han introducido aquí un mayor alcance que este programa solo, y que se puede aplicar a otros modelos probabilísticos y par de perfil HMMs y SCFGs también.

Me describe un algoritmo que se ocupa de la evolución de las lagunas como extra en un residuo (N + 1) x (n + 1) la sustitución de la matriz. Este método se puede aplicar a la emisión conjunta de probabilidades de los modelos de pareja. Este método nos permite mantener un estacionario N-dimensional de fondo de distribución, mientras que el real (N + 1)-dimensional de antecedentes frecuencias evolucionar hacia todos los huecos de tiempo infinito. Tiene la palabra este proceso cuasi-estacionaria. Como ejemplo, mostró una solución analítica para el modelo de Jukes-Cantor extenderse a las lagunas.

Asimismo, presentó dos métodos para la evolución de las probabilidades de transición de un perfil o par HMM o SCFG, que son aplicables a cualquier modelo probabilístico que utiliza las transiciones entre los estados de modelo inserciones y deleciones. En el primer algoritmo, la probabilidad de transición asociados con un estado en el modelo son evolucionado como un vector independientemente de las probabilidades de transición asociados a cualquier otro estado en el modelo. También presentó una segunda en la que el algoritmo de las probabilidades de transición asociados con un conjunto dado de estados co-evolucionan bajo el control de un único tipo de matriz. Presenté un ejemplo de la aplicación de estos métodos a un par-HMM y a un perfil HMM.

He aplicado estos métodos a la QRNA programa, que fue la motivación para el desarrollo de los algoritmos en primer lugar. QRNA contiene tres modelos probabilísticos (los otros, el bacalao, rna y modelos) que analizan el patrón de mutación de un determinado pairwise alineación para decidir cuál de los tres modelos de las mejores clasifica a la alineación. Estos modelos son una combinación de par-HMMs generalizado y un par de SCFG. Originalmente, este programa supone de una divergencia tiempo, y todas las probabilidades de emisión de los diferentes modelos están vinculados a los de BLOSUM62. Esto produjo un QRNA la parametrización de muy diversas secuencias, que a su vez produce un gran número de falsos positivos para secuencias muy similares. En el nuevo programa eQRNA, todas las emisiones y las probabilidades de transición son un tiempo continuo que dependen de la familia en condiciones de igualar cualquier grado posible de la secuencia de divergencia.

Los tres modelos de QRNA (la OTH, COD, y de los modelos de RNA) que se situará en aproximadamente la misma distancia evolutiva, de modo que cuando un pairwise alineación es analizada, las diferencias en los resultados de los modelos que resultan de la observación de un patrón diferente de las mutaciones ( Codificación, ARN, o ninguno en particular), en lugar de un modelo único, porque favorece más estrechamente relacionados con las secuencias que la otra. Este modelo requiere de la sincronización de una serie de QRNA específicas de los elementos de diseño que son tangenciales a la aplicación de los modelos evolutivos para indeles y las probabilidades de transición se presentan en este documento. Por razones de claridad, la dejo para otro artículo una descripción detallada de los diseños de aplicación particular que entró en eQRNA a fin de que sea plenamente evolutivo. En pocas palabras, las probabilidades de transición de la COD OTH y modelos son evolucionado de acuerdo con el algoritmo de evolucionar vectores de las probabilidades de transición, mientras que la probabilidad de emisión de esos dos modelos se evolucionado utilizando el original QRNA parámetros como el tiempo de generación de la respectiva tasa de matriz . En el modelo de ARN, por el contexto de la gramática libre de componentes del modelo, las transiciones son fijos, y la evolución de las lagunas es acomodada por el tratamiento de las lagunas como de personajes de acuerdo con el método que aquí se presenta para este fin. El HMM componente de la ARN modelo es la parametrización con el tiempo de manera similar a la OTH COD y modelos. Los resultados preliminares muestran una importante mejora en comparación con el anterior tiempo fijo aplicación. La aplicación de estos métodos evolutivos para otros modelos probabilísticos para la comparación de secuencias más allá de eQRNA debe ser fácil.

Hasta el momento, los métodos presentados aquí sólo se han introducido en el perfil y los modelos de pareja. Ellos también podrían aplicarse a los modelos probabilísticos que, en lugar de alinear dos secuencias contemporáneas, uno asocia una secuencia a un antepasado. La única diferencia con respecto a un par modelo evolutivo es que, en este caso, las probabilidades de emisión será la sustitución de las matrices (condicional) sí mismos en lugar de conjuntos condicional-a-tiempo probabilidades. Una limitación importante de los métodos que aquí se presenta es que, en general, carecen de la propiedad de multiplicabilidad. En consecuencia, a fin de extender los métodos presentados aquí a más de dos secuencias relacionadas por un árbol filogenético, uno tendría que trabajar con los árboles arraigados. Un reto en el futuro es la de incorporar estos métodos evolutivos en varios modelos probabilísticos secuencia que describen explícitamente la relación filogenética entre las secuencias.

Disponibilidad

Los diferentes modelos presentados en este documento se han aplicado en varios pequeños programas en C ANSI. Estos no están plenamente desarrolladas las aplicaciones de software, pero las manifestaciones (para los que quieren evitar las descripciones matemáticas), de cómo los diferentes algoritmos de trabajo. Los programas están disponibles libremente en http://selab.wustl.edu/publications/Rivas05/evolve.tar.gz.

Métodos
Apéndice A. Condiciones para la saturación de la sustitución generalizada de una matriz

En este anexo I se indican las condiciones de saturación generalizada de un modelo evolutivo de la forma Q t = Q 0 e tR. Saturación que puede describirse como

Para el vector unitario u, y un conjunto de la saturación de las frecuencias en el tiempo infinito indicados por q ∞, de manera que .

En este sentido, indican que la saturación de Q t = Q 0 e tR es una condición necesaria de dos propiedades de la matriz Q = (Q (ij)), la normalización y la positividad. También muestran que la probabilidad de saturación de Q t son los mismos que los de los e tR.

Proposición A.1. Consideremos primero el caso más sencillo Q t = e tR. La normalización, es decir,. J Σ Q (ij) = 1, junto con la positividad, es decir,. Q (ij)> 0 ∀ i, j, que implica una sustitución de la matriz de la forma Q t = tR e impregna a un conjunto de probabilidades en el tiempo infinito.

Prueba. Normalización de la tasa de matriz, j Σ Q (ij) = 1 implica que

Es decir, λ = 1 es un valor propio de Q. También tiene consecuencias para la norma de Q, que se define como la suma más grande de la fila de valores absolutos

Por lo tanto, debido a la espectral teorema [72], la Radio espectral σ (Q), que se define como el mayor valor absoluto de cualquier valor propio de Q, está limitada por,

Σ (Q) ≤ | | Q | | = 1. (191)

Por otra parte existe un valor propio λ = 1, por lo tanto,

Σ (Q) = 1. (192)

En consecuencia, Q tiene un valor propio, λ = 1, y todos los demás valores propios son más pequeños que una.

Por lo tanto, debido a la sustitución de la matriz es de la forma Q t = e tR, que implica que la tasa instantánea matriz R tiene un valor propio nulo, y todos los demás son negativos. Si asumimos que el valor propio es nulo, y que no degenere la negativa valores propios son reales, podemos escribir con toda generalidad,

Para algunos matriz U, y tal que λ i> 0 para i = 2, ..., n.

Por lo tanto Q t = e tR pueden ser emitidos en la forma,

En el límite,

Para = (1, 0, ..., 0).

Por otra parte usando la ecuación (194), obtenemos

Lo que implica que U Ψ Ψ U 0 es el vector propio de Q correspondiente al valor propio λ = 1. De acuerdo con (189), es decir,

Sustituyendo en la ecuación (195) finalmente obtener,

Esta es la condición de saturación (188) para algunas de saturación de probabilidades definida por q = U -1.

Corolario A.1. Generalizada Para un modelo evolutivo de la forma Q t = Q 0 e tR, Q t impregna también en el infinito, y la saturación de Q t probabilidades están dadas por las de e tR, es decir,

Prueba. Tenga en cuenta que la construcción de Q 0 tiene que tener las mismas condiciones de la normalización y la positividad como Q t. Se puede demostrar que en esas condiciones, Q t = e tR también tiene que sumar a uno, sumando por filas, y todos sus elementos tienen que ser positivos. Por lo tanto, utilizando el resultado de la Proposición A.1,

Por lo tanto

Lo que demuestra la saturación de un proceso de evolución probabilística de la forma Q t = Q 0 e tR.

Apéndice B. Consecuencias de la reversibilidad de un proceso evolutivo generalizado

En este apéndice I examinar las consecuencias que impone la reversibilidad en un modelo evolutivo generalizado. Me indican que para un modelo evolutivo de la forma Q t = e tR, las probabilidades marginales con respecto a la que Q t es reversible que se han parado, y, por tanto, coincidirá con la saturación de probabilidades. También ponen de manifiesto que para un modelo evolutivo de la forma general Q t = Q 0 e tR, las probabilidades marginales con respecto a la que Q t es reversible puede cambiar con el tiempo. De esta manera, desvincular la "reversibilidad" de la saturación de frecuencias de las frecuencias. Yo también demuestran la manera de calcular las probabilidades de saturación, habida cuenta de Q 0 Q * y en un momento t *. Este sistema establece las bases para el modelo cuasi-estacionaria con lagunas de la evolución como un extra indel.

Lemma B.1. Considere la posibilidad de una determinada matriz de probabilidades condicional Q *,j * Q (ij) = 1 ∀ i], que es reversible con respecto a un conjunto de probabilidades marginales p *,

P * (i) Q * (ij) = p * (j) * Q (ji). (202)

Entonces uno puede ver que la reversibilidad implica

Prueba. En resumen uno de los índices en la reversibilidad condiciones, y teniendo en cuenta la normalización de la condición Q * resultados en la matriz,

Que en notación vectorial toma la forma

Lemma B.2. Si R = log Q * entonces, la condición de reversibilidad (202) para Q * implica que

Prueba. Si R = log Q * porque luego de la serie de Taylor hemos

Debido a la reversibilidad de la condición de Q * (202), también es cierto que

P * (i) (Q * - I) n (ij) = p * (j) (Q * - I) n (ji), (207)

Para n ≥ 1. Por lo tanto se deduce que

P * (i) R (ij) = p * (j) R (ji). (208)

Además también podemos ver por la inspección de la ecuación (206) que la condición para la normalización se traduce en Q * R Σ j (ij) = 0 ∀ i, lo que implica que

Lemma B.3. * Si Q es una matriz condicional que satisfaga la condición de reversibilidad (202) y R = log Q * entonces la saturación de probabilidades de R se atribuyen en la p * vector en (202), es decir,

Prueba. Tomando de Lemma B.2., Hemos Por lo que Para n ≥ 0, y debido a la relación

Resulta que

Para arbitraria T. Por lo tanto, también en el límite de tiempo muy grande que

Además, el Apéndice A se muestra que . La combinación de estas dos ecuaciones juntos hemos

Esto demuestra que la saturación probabilidades son p *.

Proposición B.1. Reversible Para un modelo evolutivo de la forma Q t = e tR, resulta que la probabilidad marginal asociado con respecto a los cuales la familia paramétrica Q t es reversible tienen que ser estacionarias (es decir. Tiempo independiente).

Prueba. De la familia paramétrica Q t seleccionar un caso particular t *, y considerar la posibilidad de . Supongamos que la probabilidad marginal en este momento se da por p *, que es la siguiente: . Debido a la relación R = log Q *, de Lemma B.3 que toda la familia paramétrico e tR ha p * como la correspondiente marginal de probabilidades, por lo tanto, la probabilidad marginal no evolucionan con el tiempo (estacionario).

Proposición B.2. Generalizada reversible Para un modelo evolutivo de la forma Q t = Q 0 e tR, el marginal asociado con probabilidades respecto de los cuales Q t es reversible puede ser evolucionado con el tiempo.

La prueba. Con el fin de demostrar que este es el caso, sólo hay que encontrar un ejemplo en el que esa declaración es verdadera. Considere la posibilidad de un nuevo caso Con sus correspondientes probabilidades marginales p *. Debido a que el modelo es reversible para divergencia veces arbitrarias, en particular, se deben establecer algunas probabilidades p 0 tal que . Para este modelo generalizado, la tasa está dada por la matriz . Por lo tanto, seguir por Lemma B.3 probabilidades de que la saturación de R están dadas por la condición

Por lo tanto, la saturación de probabilidades p son diferentes de p * siempre y cuando p * p0.

Por lo tanto, hemos construido una familia paramétrica, Q t = Q 0 e tR, en la que la probabilidad marginal de reversibilidad son p 0 en el momento cero, p * a * t, p y en el tiempo infinito, con p0 p *p ∞. Por lo tanto, si hay reversibilidad en el tiempo arbitrario, el marginales tienen que ser dependientes del tiempo,

P t (i) Q t (ij) = p t (j) Q t (ji). (216)

En particular, en la sección "La evolución de las probabilidades de emisión con indeles tratado como un caracter" hemos construido un sistema en el que la función del tiempo condición de reversibilidad (216) está satisfecha por marginales probabilidades de que se cuasi-estacionaria con respecto a algunos (N - 1) p 0 probabilidades,

P t (i) = p 0 (i) (1 - Λ t), para i = 1, ... n - 1 (217)

P t (n) = Λ t. (218)

Agradecimientos

Gracias a Sean Eddy de numerosos debates. Gracias a Matt Visser matriz de conocimientos sobre logaritmos. Este trabajo recibió el apoyo de los NIH Instituto Nacional del Genoma Humano. Quiero reconocer el Centro de Ciencias de Benasque en el que parte de este trabajo tomó forma en una FSE y NIH financian taller sobre biología computacional ARN en el verano de 2003.