PLoS Computational Biology, 2005; 1(1): (más artículos en esta revista)

Predicción de genes funcionales filogenético de los vínculos de los análisis estadísticos de todo el genoma

Biblioteca Pública de la Ciencia
Daniel Barker, Mark Pagel [*]
Resumen

Un elemento importante del desarrollo de campo de la proteómica es comprender las interacciones proteína-proteína y otros vínculos funcionales entre los genes. Correlación de las especies a través de métodos para la detección de vínculos funcionales de trabajo en la premisa de que las proteínas funcionalmente vinculados tienden a mostrar un patrón común de la presencia y ausencia en una serie de genomas. Presentamos un modelo estadístico de máxima verosimilitud para la predicción de genes funcionales vínculos. El método detecta casos independiente de la ganancia o pérdida de correlación de pares de proteínas en los árboles filogenéticos, la reducción de las altas tasas de falsos positivos observados en las especies convencionales a través de métodos que no explícitamente incorporar una filogenia. Nos presenta, en un conjunto de datos de 10551 pares de proteínas, que el método filogenético mejora hasta en un 35% a través de los análisis de las especies conocidas en la identificación de proteínas funcionalmente vinculados. El método muestra que la proteína de parejas con al menos dos o tres eventos correlacionados de ganancia o pérdida es casi seguro que funcionalmente vinculados. Contingente de la evolución, en el que un gen de la presencia o ausencia depende de la presencia de otro, también puede ser detectado filogenéticamente, y puede identificar los genes funcionales cuyo significado depende de su interacción con otros genes. La incorporación de información filogenética mejora la predicción de los vínculos funcionales. La mejora se deriva de tener una menor tasa de falsos positivos y de la detección de las tendencias de las especies que a través de los análisis se pierda. Filogenético métodos pueden ser fácilmente incorporadas a la proyección de gran escala de datos de bioinformática para identificar conjuntos de proteínas que caracterizan a los vínculos y las redes de genes.

Introducción

Pruebas de que dos o más rasgos de co-evolucionan a través de una variedad de especies se puede utilizar para comprobar las hipótesis acerca de la común presiones selectivas que actúan sobre los rasgos, y sobre la adaptación funcional o relación entre ellos. Correlacionadas evolución es cada vez más se está aplicando a nivel genético en la premisa de que los genes que están ganado y perdido juntos [1 - 3], o que muestran similares patrones de expresión o de las tasas de evolución [4, 5], pueden formar un vínculo funcional. Esto proporciona un enfoque computacional que puede pantalla de grandes conjuntos de datos de genómica funcional enlaces [6], y ayudar a identificar las funciones de los genes uncharacterised. Estos análisis también puede utilizarse para describir las redes metabólicas [7], y descubrir los genes "módulos" o grupos de genes que participan en una función común [8].

Los genes y sus patrones de expresión evolucionar en un contexto filogenético que tales vínculos funcionales de adaptación de valor tienden a ser conservado y heredado por descendientes de especies. Entre las especies estrechamente relacionados, que comparten la herencia filogenética correlación también puede producir perfiles de genes de genes que no están vinculados. Dos o más genes podrían surgir independientemente en un ancestro común y se mantenga en los descendientes evolutivos debido a sus funciones adaptativas. Figura 1 (números en rojo) muestra cómo esto puede producir falsas pruebas de un vínculo funcional cuando se mide a través de las especies. En comparación, múltiples eventos filogenética independiente de la ganancia / pérdida de pares de genes de hacer una estadística de argumentos en favor de un vínculo funcional (Figura 1, las cifras en azul). Filogenético métodos tienen usos más allá de la mera contabilidad de la herencia compartida, que permitirá a los estados ancestrales investigar y determinar la probable orden temporal de los cambios en dos rasgos. El conocimiento de que dos rasgos de cambiar primero en la historia evolutiva de la filogenia describe puede ser utilizado para poner a prueba ideas sobre la causa y el efecto o la dependencia de uno sobre otro rasgo [9, 10].

Nuestro interés es evaluar si la incorporación de información filogenética mejora de la identificación funcional de genes enlaces. La necesidad de tener en cuenta las relaciones filogenéticas en estudios comparativos ha sido apreciado en biología evolutiva [11, 12], pero ha recibido menos atención en la bioinformática estudios [1, 2]. Aplicamos el método estadístico-filogenético discreta [9], para evaluar la correlación entre la evolución de pares de rasgos discretos, a los datos sobre la presencia y ausencia de pares de genes. El método identifica independiente de los acontecimientos correlacionados en una filogenia evolución mediante la comparación de la probabilidad estadística de los datos observados en dos escenarios alternativos, uno en el que los dos genes se les permite evolucionar en la filogenia independiente, y otro en el que co-evolucionan. Rasgo evolución se modela como un continuo proceso de Markov en tiempo, y las pruebas del modelo de evolución correlacionada se evalúa por medio de la relación entre la probabilidad estadística.

Nuestra base de datos consta de una filogenia de 15 especies para las que eukaryote completo o casi completo secuenciado los genomas están disponibles. No hay límite en el número de especies que pueden utilizarse, pero es importante utilizar plenamente y secuenciado los genomas bien anotado para asegurar que los genes determina que "ausentes" son, en realidad, no en el genoma. Comparamos el método filogenético de las predicciones a las predicciones derivadas de las especies a través de correlaciones, estos últimos han sido utilizados en investigaciones de bioinformática para predecir funcional de genes enlaces [1, 2]. Utilizamos el Munich Centro de Información para Secuencias de Proteínas (MIPS) [13] anotada base de datos de los complejos de proteínas de la levadura como un "conocido" criterio de medida. El MIPS vínculos funcionales en que se ha determinado por el bajo rendimiento y procedimientos de laboratorio, por lo tanto, crear una colección de vínculos funcionales en esta especie. Nos parece que la incorporación de información filogenética mejora las predicciones de hasta un 35% más de especies-a través de las correlaciones en la detección de vínculos funcionales, y de manera cada vez más para pares de genes con mayor evidencia filogenética de un vínculo funcional. El número de veces que un par de genes que se ha ganado o perdido independiente sobre la filogenia es un fuerte predictor de vínculo funcional, de manera que la proteína parejas con al menos dos o tres eventos se correlacionan casi seguro que funcionalmente vinculados.

Resultados
Árbol filogenético

La Figura 2 muestra el árbol filogenético de máxima verosimilitud de las 15 especies. También realizó Bayesiano cadena de Markov de Monte Carlo [14], los análisis filogenéticos [15 - 21] usando el programa BayesPhylogenies [21]. El apoyo posterior, tal como surge de la cadena de Markov de Monte Carlo (MCMC), el análisis fue de 100% en todos los nodos, y nuestra topología de la levadura de especies de acuerdo con un reciente levadura filogenia [22]. Esto no quiere decir que cualquiera de nuestros árboles o que, en [22] es el "verdadero" árbol (a comparar [23]], dado que acaba de nuestros datos y el modelo de la evolución, ningún otro árbol era suficientemente probable que se incluya en el Bayesiano posterior muestra.

Distribución de los coeficientes de riesgo

Se calculó el coeficiente de probabilidad estadística (véase Materiales y Métodos] a la prueba de correlación en la evolución 10551 pares. Se excluyeron los pares que dado ninguna prueba de una relación negativa (n = 2.449) sobre la base de que un gen está presente cuando el otro está ausente no puede ser evidencia de un vínculo funcional. Figura 3 se muestra la distribución de los restantes coeficientes de probabilidad 8102. Más grandes valores de la ratio de la probabilidad estadística (LR) proporcionar pruebas más sólidas para la evolución correlacionada. La barra azul identifica 2483 probabilidad ratios correspondientes a los pares de genes en los que uno o ambos genes están presentes en las 15 especies y, por lo tanto, no pueden ser estudiados por la prueba de correlación evolución. El rojo excluir estos pares de barras, dejando 5619 LRs para que ambos genes varía en las especies. Esta desigual distribución tiene una media de 3,36 ± 2,47, con dos valores superiores a 15,5.

Para asignar valor p de puntos de corte a la distribución de los diferentes pares de proteínas, que simulaba el nulo LR 9509 de la distribución aleatoria de proteínas MIPS pares de la base de datos. Estos pares se han señalado a la misma a través de la distribución de especies como el MIPS pares, pero con la restricción de que ninguna de las parejas al azar vinieron de la misma proteína. El 9509 produce 6393 pares de ratios de probabilidad de pares de genes varía en las que ambas especies, de los cuales 3722 no representan una relación negativa. Este conjunto de coeficientes de probabilidad es bien caracterizada por una densidad de probabilidad gamma distribuyen de la GAM (1.9,1.4). El valor de p puntos de corte de la muestra en la Figura 3 se derivan de este nula distribución. A pesar de que nuestra expectativa es que el azar pares no representan verdaderos vínculos, es probable que sea un conservador de control sobre el MIPS pares, como algunos pueden describir como-aún sin descubrir vínculos funcionales.

De las parejas que tienen patrones MIPS tanto varía en las especies, 609 (11%) han LRs que superen el nivel de p ≤ 0,05. Entre estos, 185 (3,3% del total) superior a la p ≤ 0,01. Hubo n = 278 pares de los dos genes que se encuentran en todas las 15 especies. Si se supone que estos representan los vínculos funcionales, entonces el número total de especies-a través de vínculos funcionales sigue siendo alrededor de 11% = (609 + 278) / 8102; 8102 que utilizamos en el denominador, ya que ahora estamos incluyendo la constante pares en el cálculo . La diversidad de pares contribuyen aproximadamente el doble que a este total al igual que la constante pares. Incluso en este lado de recogida de datos de interacciones conocidas en Saccharomyces cerevisiae, sólo un número relativamente pequeño generalizar entre especies.

Detección de "conocidos" de Proteínas Interacciones

Queremos saber si el método LR mejora en la detección de "conocer" la más extrema interacciones su resultado estadístico. Se combinaron el 8102 LRs correspondiente a todos los no-negativo MIPS relaciones, con el 6838 LRs obtenida de la que se generan aleatoriamente pares en el que la relación es también no negativo. A continuación, asigna a la combinación de los datos p-valor papeleras y determinó el porcentaje de los resultados en cada bin que corresponden a MIPS pares. Si grandes valores de la probabilidad ratio son indicativos de vínculos funcionales, a continuación, este porcentaje debe aumentar como el p-valor disminuye. Sin embargo, si al azar pares es tan probable que muestran grandes p-valores, el porcentaje no mejorará. Para medir la influencia de la adopción de una perspectiva filogenética, que comparó el método filogenético LR resultados en la identificación de la verdad con MIPS pares de las especies a través de la correlación (prueba exacta de Fisher, pero de nuevo, excluidas las parejas con una correlación negativa).

Figura 4 compara los dos métodos de la actuación, tramando el porcentaje de los enlaces previsto en o por debajo de un determinado valor de p que se corresponden con anotada funcionalmente vinculados MIPS pares en la base de datos. En p ≤ 1,0, ambos métodos declarar cada par producir un significativo ritmo correcto de 8102 / (8102 + 6838) = 54%. Como el p-valor disminuye, el porcentaje de los resultados que se MIPS pares aumentos para ambos métodos. El método filogenético clasifica correctamente un porcentaje más alto de los pares de especies-a través de la correlación en cada valor de p, y, en última incluye sólo MIPS pares en sus predicciones. En comparación, de las especies a través de la correlación método alcanza una meseta por debajo de 100% correcta.

La inserción gráfica en la Figura 4 parcelas el método filogenético más de la mejora relativa de las especies a través de la correlación. La LR filogenético muestra un pronunciado aumento en el nivel p ≤ 0,05, y el 18% de mejoría, el aumento de un 35% de mejora en la más extrema p-valores. Esta es la contribución directa de tener en cuenta la herencia filogenética compartida. En un p-valor de alrededor de 0,0006 o menos, de todos los pares que la filogenética LR método identifica representan conocidos vínculos funcionales. LRs importante a este nivel aproximadamente corresponden a al menos dos o tres pares de filogenéticamente independientes ganancias / pérdidas acontecimientos en nuestro árbol filogenético. Esto sugiere que un cuadro de co-evolución filogenética casi seguro que apunta a un vínculo funcional, y de manera cada vez más como el número de co-evolutivo eventos aumenta. De las especies a través de la prueba no tiene manera de discriminar múltiples eventos independientes a partir de un único caso de que se mantiene y heredado por muchas especies (ver Figura 1]. Esto hace que a muchas parejas y misclassify a dejar de mejorar en la identificación de vínculos funcionales incluso más extrema en los valores de p.

False Positives

Si la causa de falsos positivos de las especies a través de las correlaciones de clasificar un porcentaje inferior de la verdadera pares correctamente, esto debe desprende de la comparación de los dos métodos en la generación aleatoria de los pares de datos. Figura 5 A parcelas de las especies a través de la p-valor contra la filogenética LR p-valor de los pares de proteínas en la generación aleatoria de los pares de datos. La correlación entre los dos métodos de los valores de p se r = 0,85 para todos los pares. Extracción del 3116 pares en el que al menos un gen se encuentra en todas las 15 especies y, por lo tanto ambos métodos devuelven un valor de p de 1,0, corresponde a la correlación r = 0,73. Esto significa que los métodos tienen sólo el 53% de su variación en común y demuestra que responden a diferentes aspectos de los datos. 1:1 La línea diagonal indica que la especie a través de los valores de p tienden a caer en o por debajo (más extremos que) la LR p-valor, sino que declara más de los pares para ser funcionalmente vinculados. La línea horizontal a través de la p = 0,05 nivel de proteínas identifica 170 pares en este azar pares de datos que-a través de las especies declarar correlaciones significativas, pero el método filogenético LR considera no significativo. Muchos de los LRs en esta región tienen grandes p-valores, lo que indica que no hay pruebas independientes de los repetidos actos de correlación cambio. En comparación, la línea vertical a través de p = 0,05 demuestra que sólo en 32 casos hace el método LR declarar un resultado significativo que no muestran un importante patrón de las especies a través de. En conjunto, estos resultados ilustran la forma en que la correlación entre las especies-es propensa a recoger los falsos positivos.

Figura 5 B parcelas la misma comparación, pero esta vez para el MIPS pares. De las especies a través de la correlación de nuevo tiende a tener menor p-valores, pero la tendencia es menos pronunciada. La correlación entre los dos métodos es r = 0,86 o 74% de varianza compartida para todos los patrones, y r = 0,74 o 55% de la varianza compartida en la que los dos pares de genes varía en las especies. Los dos métodos de acuerdo sobre 423 pares en el nivel p ≤ 0,05. La línea de trazos horizontales 278 pares que se identifican a través de la correlación de especies importantes, pero declara la LR método considera no significativo. ¿Son estos falsos positivos? Los resultados en la figura 5 muestran que una de las especies a través de la correlación suele ser engañados por la herencia filogenética compartida. Es tentador especular, por lo tanto, que muchos de esos 278 son los resultados falsos positivos, a pesar de que están vinculados en S. Cerevisiae. La línea discontinua vertical muestra que el método identifica filogenético LR 186 pares como significativo el hecho de que la correlación método declara no significativo. Figura 4 sugiere que el método extra LR 186 MIPS pares es poco probable que se los falsos positivos.

La LR método de mejora con respecto a la correlación entre las especies-principalmente parece derivar de espurios correctamente con exclusión de vínculos funcionales que se derivan de la herencia filogenética compartida, pero también de identificar correctamente algunos de los patrones de co-evolución que a través de la correlación de especies pierde. Los dos pares de proteínas junto a la filogenia mostrado en la figura 2 ilustran este punto. De las especies a través de la correlación es significativa (p = 0,0014) entre el par (CIN4, ORC3), mientras que el método filogenético considera que se trata de una oportunidad de asociación (p = 0,13) derivados de un único caso de que ambos genes están adquirida en la ascomycete levaduras , Seguido por la herencia compartida (como el rojo en las pautas de distribución de la Figura 1]. De acuerdo con el enfoque filogenético, las proteínas' conocido funciones no sugieren un vínculo. En cambio, el par (L9A, L42B) consta de dos proteínas que son funcionalmente vinculados entre sí, como componentes de la gran subunidad ribosómica citoplásmica. El par filogenético devuelve una correlación significativa (p = 0,035). La correlación lineal de las especies es sensible sólo a la distribución de las dos proteínas a través de las puntas de los árboles y devuelve un resultado no significativo (p = 0.23). Si suponemos que independiente de las ganancias del mismo gen es poco probable, entonces L9A se presente relativamente pronto en la filogenia, a más tardar en el ancestro común a la Aspergillus nidulans-S. Clado cerevisiae. Que se perdió en A. Nidulans y por separado en el Neurospora crassa-Fusarium graminearum grupo, aunque L42B estuvo presente. L42B y L9A se perdieron juntos en cinco ocasiones distintas que abarcan Candida albicans, Saccharomyces mikatae, pero ambos se mantuvieron en S. Paradoxus y S. Cerevisiae. De las especies a través de la correlación no es sensible a estos cambios, y su resultado es probablemente un falso negativo o error tipo II.

Los contingentes de ganancia o pérdida de genes

Contingente de las relaciones entre un par de genes describir los casos en los que un gen tiene más probabilidades de ser ganado o perdido en función del estado de la otra. Un ejemplo de ello podrían ser los casos en los que dos genes son paralogues, y así uno de la pareja se pierde en cada una de las especies debido a su función redundante. Otros casos podrían identificar los casos en los que la función de un gen depende de la presencia de un segundo gen, pero el segundo gen desempeña funciones incluso en ausencia de la primera. Esos contingentes vínculos pueden describir y explicar muchos de la gran cantidad de casos en los que dos genes vinculados funcionalmente en una especie, pero no exclusivamente aparecer juntos en todas estas especies. Pueden ser detectados por la estimación de la tasa de transición de los parámetros dependientes modelo (ver Materiales y Métodos] [9] y en busca de las tasas de evolución de un gen depende de la presencia o ausencia de la otra.

Tres grandes subunidad ribosómica citoplásmica proteínas puede proporcionar un ejemplo de la evolución de los contingentes. Proteína L30 es significativamente ligada a las proteínas L43A y L43B: ambos LRs = 9,73, p <0,007. L43A y L43B son duplicados con idéntica secuencia de la proteína, y L30 es auto-reguladora [24]. Los tres proteínas están presentes en nueve de las especies, y son probablemente ancestral en el grupo representado por la filogenia en la figura 2. Figura 6 representa este escenario en el lado izquierdo del diagrama como las tres proteínas presentes. El resto de la figura se muestra un modelo que describa la forma en que los contingentes estas proteínas ancestrales se pierden. Sólidos flechas indican más probable evolución de los acontecimientos a otros estados evolutivos, frustradas flechas corresponden a los eventos para los que no se encuentra el apoyo estadístico. Ver Materiales y Métodos para obtener detalles de la transición las tasas de q ij. L30 se pierde (q 42> 0) en dos especies dejando L43A y L43B restantes. L30 Una vez que se pierde, las otras dos proteínas seguir (q 21> 0), con un rendimiento de cuatro especies en la que ambas proteínas están ausentes. En comparación, L43A y L43B nunca se pierde cuando se presente L30 (43 q no es significativamente diferente de cero). Esto puede indicar la relación de dependencia entre estos genes de tal manera que L43A y L43B adquirir su función de la presencia de L30.

Discusión

La incorporación de información filogenética en las predicciones de genes funcionales de la mejora de los enlaces entre un 18% y un 35% a las predicciones derivadas de las especies a través de correlaciones, y de manera cada vez más para pares de genes con una mayor evidencia de correlación en la evolución filogenia. La filogenia permite discriminar a través de los patrones de las especies que se plantean por casualidad a través de la ascendencia común de las que se indican múltiples casos independiente de la correlación de la pérdida o ganancia de un par de genes. Esto tiene implicaciones para la aplicación de métodos tales como "filogenético de perfiles" [1, 2], que, a pesar de su nombre, no haga uso de información filogenética cuando se derivan predicciones acerca de los vínculos funcionales. Además de reducir el número de falsos positivos, la incorporación de información filogenética a veces puede reconocer un verdadero vínculo funcional incluso cuando la simple-a través de las especies patrón es vaga y no significativa.

Tenemos que encontrar los pares de genes que se han ganado o perdido en dos junto a tres o más ocasiones son casi con seguridad funcionalmente vinculados. A nuestro entender, esta es la primera demostración de que la correlación filogenética eventos evolutivos firmemente implica vínculo funcional, y pone de relieve la importancia de analizar los acontecimientos de la evolución de proteínas en los árboles filogenéticos. Mientras que el número de genomas secuenciados completamente aumentos, filogenética enfoques pueden ser utilizados cada vez con mayor sensibilidad para la detección de múltiples acontecimientos del gen correlaciona la evolución, y por inferencia, pares de genes con una alta probabilidad de ser funcionalmente vinculados.

Se estudiaron los vínculos funcionales en un solo árbol filogenético, más que en una muestra de los árboles, ya que desea comparar los resultados a través de la correlación de las especies, que no tiene forma de hacer uso de las filogenias. Pero es sencilla de aplicar nuestro enfoque en un marco bayesiano tales vínculos funcionales que se estima a través de una muestra de los árboles. En otros lugares se describe la manera de obtener distribuciones de probabilidad Bayesiana posterior de los parámetros de la constante de tiempo del modelo de Markov rasgo evolución, que se estima más de la posterior distribución de probabilidad de árboles filogenéticos [25, 26]. Esto explica la incertidumbre sobre el árbol y sobre los parámetros del modelo rasgo de la evolución, y puede ser especialmente valioso cuando existen desacuerdos acerca de la colocación de algunas especies o grupos de especies.

Un sorprendente número de pares de genes que son funcionalmente vinculados anotado como en la levadura no parecen estar vinculados en otros, a menudo estrechamente relacionados, de las especies. Algunos de estos pueden surgir debido a un gen caracterizado como "ausente" simplemente ha pasado inadvertida. Pensamos que esto es sólo una pequeña parte de la explicación aquí, como nosotros mismos hemos limitado a bien anotado, totalmente secuenciado los genomas. Más probable es que el conjunto de especies-a través de vínculos funcionales es mucho más pequeño que el conjunto de todos los vínculos conocidos dentro de cada especie, y esto plantea la cuestión de la justa en todo lo que una especie de vínculo funcional medidas. Una posibilidad es que un conjunto o "columna vertebral" de las interacciones proteína conservada existe, en lo que podría llamarse la "evolución correlacionada red." Este conjunto de enlaces es distintivo, en la que los pares de genes tienden a ser a la vez, ya sea actual o Ambos ausentes. Si es así, su identificación se debe dar una alta prioridad, ya que pueden revelar general organísmica "reglas de reunión."

El carácter altamente específico de los vínculos funcionales también tiene implicaciones para el uso de organismos modelo para hacer predicciones acerca de otras especies, como los humanos. Nuestros datos sugieren que tales predicciones suelen ser malo: muchos genes cuyas funciones y enlaces se han identificado en el estudio a fondo en un modelo de las especies puede adoptar diferentes funciones en otras especies. Un método filogenético habitualmente se aplica a un gran número de especies podían distinguir el subconjunto de los genes cuyas funciones se pueden generalizar supone que de los que no lo hacen. Utilizado en combinación con un bajo rendimiento de especies únicas estudios, una imagen más sofisticada puedan surgir.

En cualquier análisis basándose en la identificación de las especies a través de orthologues, multigene familias particular pueden causar dolor de cabeza. Suponiendo que la orthologue funcionalmente conservado de un determinado gen será en condiciones análogas a las presiones de selección y, por tanto, tienen la mayor similitud de secuencia, en promedio, de reciprocidad secuencia similitud procedimientos como los que hemos utilizado (véase Materiales y Métodos] debería tener un buen desempeño. Debido a que la posibilidad de error de identificación rara vez puede ser descartado con certeza, pruebas adicionales para la correcta anotación debe buscarse cuando un gen es que se sospecha es parte de una gran familia. Otro enfoque es más práctico: simplemente excluir de la consideración si los genes que aparecen en múltiples copias en una especie objetivo [27].

Un gran número de genes permanecen uncharacterised. La identificación de vínculos funcionales filogenético de los eventos de co-evolución con otros genes parece una prometedora forma de entender la función, y es un enfoque que puede dar ideas de la actualidad mal entendido genomas. Es alentador que somos capaces de detectar vínculos funcionales con sensibilidad y especificidad razonable en un número relativamente reducido de especies. Más grandes conjuntos de datos no sólo mejorará la capacidad de detectar correlaciones, sino que también que sea posible vincular la correlación evolución de los acontecimientos a fondo organísmica y ecológicas variables, y para identificar grupos de genes que tienden a aparecer juntos. Nuestro enfoque también se puede modificar fácilmente para utilizar los datos continuamente variable. Esos datos disponemos cada vez más de búsquedas de similitud de secuencia [3] y micro-arrays de expresión estudios, y puede proporcionar una rica fuente de información sobre los vínculos funcionales y de la naturaleza de la expresión mRNA evolución [28].

Materiales y Métodos

El método requiere una filogenia de los organismos que se han de investigar, además de datos sobre la presencia y ausencia de genes homólogos.

Apoyo a la Información

Queremos agradecer el apoyo de la Biotecnología y Ciencias Biológicas del Consejo de Investigaciones del Reino Unido (19848 y 14980 Donaciones a MP). Software para la aplicación de los métodos descritos aquí está disponible desde Pagel M. y A. Meade en Http://www.ams.reading.ac.uk/zoology/pagel . Damos las gracias a Jill Harrison y Val de madera para asesoramiento.