BMC Genomics, 2006; 7: 10-10 (más artículos en esta revista)

Una definición global de expresión contexto se conserva entre orthologs, pero no se correlaciona con la secuencia de conservación

BioMed Central
E Bas Dutilh (dutilh@cmbi.ru.nl) [1], Martijn A Huynen (huynen@cmbi.ru.nl) [1], Berend Snel (snel@cmbi.ru.nl) [1]
[1] Center for Molecular y Biomolecular Informática / Nijmegen Center for Molecular Ciencias de la Vida, Radboud University Nijmegen. Toernooiveld 1 6525 ED, Nijmegen, Países Bajos

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

La escala masiva deriva de los microarrays de expresión génica de datos permite una visión global de la función celular. Hasta ahora, los estudios comparativos de la expresión de genes entre especies se han basado en el nivel de expresión del gen correspondiente a través de los tejidos, o en la co-expresión del gen con otro gen.

Resultados

Para comparar la expresión de genes entre especies distantes a escala mundial, presentamos el "contexto expresión". La expresión de un gen se basa en la co-expresión con todos los otros genes que se han inequívoca homólogos de los dos genomas. El empleo de esta nueva medida, se muestra 1) que la expresión contexto es muy conservada entre orthologs, y 2) que la identidad de secuencia muestra poca correlación con la expresión de genes contexto de conservación después de la duplicación y la especiación.

Conclusión

Esto significa que el grado de identidad de secuencia tiene una calidad limitada de predicción de la expresión diferencial entre orthologs contexto de conservación, y, por tanto, presumiblemente también en otras facetas de la función de genes.

Antecedentes

Los dos principales componentes de la función de un gen es su función molecular (qué hace, por ejemplo, es una hidrolasa, que es vinculante ADN) y su contexto funcional (con lo que los demás elementos de la célula hace que colaborar). Aunque ambos aspectos sólo puede ser determinado en forma decisiva los experimentos in vivo, la increíble y creciente cantidad de información experimental reunida en bases de datos permite que más y más predicciones exactas [1]. Debido a la precisión y rapidez con la que los algoritmos pueden identificar similitud de secuencia, el instrumento más utilizado para predecir la función de genes es, sin duda, la secuencia de conservación. Como la secuencia es el modelo para la estructura tridimensional, y con ella la función enzimática de un gen, este método es especialmente apto para la predicción de la función molecular de un gen desconocido, por ejemplo, en una secuencia de nueva especie.

Predicción de contexto funcional, en cambio, es otra historia. Esto significa inferir in silico proceso en el que el gen desempeña un papel. Considerando que la función molecular es de hormigón, y se puede describir catalizada por la reacción química, el contexto funcional es más difícil de alcanzar y puede ser descrita como una composición de el contexto (por ejemplo, socios vinculante) de la proteína codificada y la regulación de su expresión en El tiempo y el espacio [2]. Una forma de estimar el contexto es funcional en términos de la recogida de tejidos o células y los procesos biológicos o circunstancias que determinan cuándo el gen se expresa. DNA microarrays medida de la expresión de muchos genes en las mismas condiciones experimentales, y la combinación de la información de muchos de estos experimentos permite la agrupación de los genes sobre la base de las correlaciones en sus patrones de expresión [3]. Si dos genes son co-expresados, es decir, que tienen un perfil comparable expresión, que se supone que tienen un contexto comparable funcional, independiente de lo que este contexto es funcional. El uso de co-expresión como una función de predicción de la herramienta es especialmente potente en la co-expresión se conserva en diferentes organismos [4 - 7].

En este sentido, presentamos un método para tomar el paso desde el estudio comparativo de la evolución de expresión basada en la co-expresión pairwise entre dos genes, a una definición a nivel global. Se presenta el "contexto de expresión" de un gen, que no se base en la expresión a través de una variedad de tejidos o circunstancias, sino en la co-expresión con una serie de genes. Si dos genes se co-expresada con el mismo otros genes, es decir, que tienen una expresión comparable co-perfil, que por lo tanto tienen un contexto comparable expresión. Esto no sólo permite una visión global sobre la evolución de expresión, sino que también resuelve la cuestión de la comparación de la expresión de genes entre especies alejadas. Al estudiar por ejemplo, Caenorhabditis elegans y Saccharomyces cerevisiae [5], no se puede asignar tejidos como el equivalente entre el Homo sapiens y Mus musculus [8]. La expresión contexto método supera esta limitación mediante la sustitución de tejidos idénticos genes ortólogos, y los niveles de expresión de los valores co-expresión. En este estudio, que incluyen cuatro especies Eukaryote (C. elegans, Drosophila melanogaster, H. sapiens y S. cerevisiae), para que co-expresión de genes de datos que se han determinado en gran escala [6]. La primera cuestión que abordamos en este trabajo es la cantidad de nuestra nueva estimación global de expresión contexto se conserva entre las especies.

En un análisis comparativo de las propiedades de genes entre especies diferentes, una sólida definición de orthology es crítica. Estado actual de la técnica orthology métodos para permitir la expansión de un par de genes ortólogos en uno o los dos de las especies en comparación. La existencia de estas llamadas en-paralogs, plantea la cuestión de en qué medida la expresión de los contextos de copias de genes se han ido distanciando. Anteriormente, hemos estudiado los genes que se duplican en C. Elegans relativo a S. Cerevisiae [7]. Nos mostró que la C. Elegans orthologs de los genes que en el S. Cerevisiae son confiablemente co-regulado con el gen ancestral, tienen la tendencia a retener la co-expresión con uno de los dos duplicados orthologs en C. Elegans, mientras que el enlace con la otra se pierde (parciales de conservación, Fig. 3 en [7]]. Una de las cuestiones importantes de este documento nos dejó con derivados es si el gen que ha conservado el ancestral reglamentario, fue también el menos divergentes en el plano secuencia. Por lo tanto, la segunda cuestión que se aborda en el presente trabajo es la relación entre la evolución de la secuencia genética y la evolución de la expresión de genes contexto después de una duplicación. Se presenta un análisis entre los grupos de ortólogos (después de la especiación), y un análisis de los genes entre hermanos (en-paralogs) ortólogos ampliado dentro de los grupos (después de la duplicación de genes), y muestran que la secuencia de contexto y de expresión tienden a divergir independiente.

Resultados y discusión
Orthology

Inparanoid es un pairwise definición de orthology que permite la expansión de genes de cada especie (en-paralogs, [9]]. En el caso de este grupo orthology, dos o más genes de una especie son evolutivamente ortólogos igualmente a uno o más genes de otra especie. Ese régimen es necesario si se quiere estudiar el contexto divergencia en la expresión de genes entre dos últimos ejemplares, que no se encuentran en, por ejemplo, un criterio de reciprocidad mejor hit. Por otra parte, algoritmos que identifican grupo orthology entre más organismos a la vez se anule la resolución obtenida en un pairwise definición [10]. Hemos construido orthology relaciones por separado para todas las especies pares, y separados de los grupos resultantes ortólogos en dos categorías: 1-1 ortólogos grupos (si ambas especies contienen un único ortholog) y XX orthologs (si al menos una de las especies que contiene más de un ortholog ). Hay aproximadamente el doble de 1-1 orthologs ya que hay grupos de ortólogos XX (véase el cuadro 1].

Expresión contexto

La definición global de expresión contexto presenta aquí se basa en la correlación entre la expresión de genes en una consulta de una especie y de todos los miembros en que las especies de todos los grupos presentes 1-1 ortólogos entre las dos especies en comparación (véase la Fig. 1a]. El contexto de conservación de expresión es entonces obtenida por la expresión correlación correlacionar los valores de la consulta genes de dos especies diferentes y las correspondientes 1-1 orthologs en sus especies (ver Fig. 1b]. Para probar cómo esta medida es significativa, en comparación a la expresión contexto de conservación entre las diferentes categorías de orthologs azar y no pares de genes ortólogos. Los histogramas en la Fig. 2 se normalizó, y los datos se agruparon más de todas las especies comparaciones. Como modelo nulo, que compuso un conjunto de datos aleatorios de 1000 no pares de genes ortólogos extraer de cada especie par. Aunque la distribución de la expresión contexto de conservación de las puntuaciones se encuentran cerca de cero, nos encontramos con que la expresión contexto de los dos y de 1-1 orthologs XX orthologs es significativamente más alto que el de los genes al azar (ver Fig. 2, para Pvalues véase el cuadro 2] . Esto pone de manifiesto la significativa conservación funcionales y evolutivos pertinencia de la expresión contexto.

Que los genes tienen una expresión conservada contexto?

Se analizó la función de los genes con una expresión conservadas utilizando el contexto KOG categorías funcionales [10]. Las categorías funcionales fueron contadas para el 1-1 orthologs asignado a un KOG (los genes se consideraron por separado). Para cada categoría funcional, la fracción de genes ortólogos 1-1 con una expresión contexto de conservación superior a la puntuación de cero se muestra en la Fig. 3. Nos parece que todos los "almacenamiento y procesamiento de información" categorías tienen un mayor nivel de expresión contexto de la conservación de todos "Metabolismo" categorías. Dentro de los "procesos celulares y de señalización" de clase, que se encuentra entre los dos extremos, podemos encontrar las categorías con más información a los genes tienen una mayor expresión contexto de conservación de los genes que contienen operacionales. "Nuclear estructura" (Y) por ejemplo, tiene una gran fracción de los genes con una expresión muy conservadas contexto, en tanto que "Cell pared / membrana / sobre de la biogénesis" (M) y "estructuras extracelular" (W) tienen una baja expresión Contexto de conservación. Estos resultados están de acuerdo con otros estudios: la conservación de la co-expresión que previamente se haya demostrado que son altos para los genes que participan en los procesos celulares básicos de información (específicamente los ribosomas y la biogénesis de los ribosomas [6], así como el proceso biológico GO categoría " ; Metabolismo ", que alberga biosíntesis de proteínas [11]]. Informativos genes se encuentran también a ser más operacional que conserva los genes con respecto a otras propiedades, por ejemplo, que han demostrado ser menos propensas a la transferencia horizontal de genes [12, 13].

Expresión diferencial en el contexto de conservación entre-paralogs

Nuestro trabajo anterior sugiere que en un grupo de ortólogos XX, la expresión ancestral contexto pueden haber sido retenidos por uno de los en-paralogs en cada una de las especies [7], posiblemente porque son los más funcionalmente conservado. Por lo tanto, sub-clasificación de cada grupo de ortólogos XX en el par de genes que tiene la más alta expresión dentro de este contexto de conservación ortólogos grupo por un lado (nos referiremos a este gen como la pareja "más conservadas par de genes ortólogos XX"), y Por otro lado el resto, "menos conservadas orthologs XX" (Fig. 4].

Al comparar la distribución de la expresión en el contexto de conservación de las puntuaciones de estas sub-categorías de orthologs con los otros histogramas en la Fig. 2 revela que sólo el conjunto de pares de genes al azar y menos conservadas XX orthologs no tienen significativamente diferentes distribuciones (P = 0,172, La prueba t de Student; véase el cuadro 2]. La expresión en el contexto de conservación de estos dos conjuntos de datos fue más bajo, seguido por, en fin, todos los XX orthologs, orthologs el 1-1, y por último las más conservadas XX orthologs (ver Fig. 2]. Todos los pares de las otras distribuciones son muy significativamente diferentes entre sí (P ≤ 3,55 10 -21, véase el cuadro 2].

La correlación de la secuencia de identidad y de expresión contexto de conservación entre los grupos ortólogos

Para saber cómo la conservación de expresión contexto (véase la Fig. 2] se refleja en la secuencia de conservación, en primer lugar, analizó la forma en que la secuencia de divergencia entre grupos de ortólogos refiere a la divergencia en el contexto de una expresión de genes ortólogos par después de la especiación. Para evitar tener que hacer una elección potencialmente polémicas sobre la forma de interpretar la evolución funcional y las múltiples relaciones ortólogos en grupos de ortólogos XX [7], que sólo se utiliza el 1-1 orthologs para esta comparación. Estos pares de genes se originó en el caso de la especiación, de modo que todos ellos han tenido la misma cantidad de tiempo para divergir. El cuadro 3 se presentan los coeficientes de correlación entre la expresión y el contexto de conservación de la identidad de secuencia 1-1 orthologs para todos los pares de especies.

Aunque los coeficientes de correlación son significativamente positivas (P <0,05 para todas las especies excepto las comparaciones DM-SC, en donde P = 0,09), son muy bajos (véase el cuadro 3]. En este análisis de la relación entre el contexto de conservación de expresión y la secuencia de identidad a través de grupos de ortólogos, llegamos a la conclusión de que la tasa de evolución de la secuencia genética no depende de su expresión.

Una tendencia que parece que observar es que la correlación entre la secuencia de la evolución y expresión refleja la evolución contexto span predictivo de la expresión de datos. En Figs. 2d-f del artículo de Stuart et al. (2003), la exactitud de la cobertura de las parcelas de D. Melanogaster y H. Sapiens son siempre inferiores a los de C. Elegans y S. Cerevisiae. En nuestros resultados, observamos también la más alta correlación entre la expresión contexto de conservación de la identidad y la secuencia para el 1-1 orthologs de S. Cerevisiae y C. Elegans, más que para dos más estrechos relacionados Metazoa. Así, algunas de las variaciones de nuestros resultados reflejan la calidad de los datos de microarrays para la función de predicción.

La correlación de la secuencia de identidad y de expresión contexto de conservación entre orthologs después de la duplicación de un gen

El caso más simple en la que podemos estudio de la divergencia de la duplicación de genes ortólogos dentro de los grupos es por 1-2 orthologs, donde se produjo la duplicación de genes en una de las dos especies hija desde la especiación evento. Llevamos a cabo un simple análisis de la frecuencia con que el conteo de genes con la más alta expresión contexto de conservación también tiene la mayor secuencia de identidad. Fig. 5 muestra la coherencia de la secuencia de evolución con expresión en el contexto evolución 1-2 ortólogos grupos.

Es sorprendente cómo inmediatamente poca diferencia hay entre el constante y observó incompatible bares observado en la Fig. 5. Para todas las especies de las comparaciones, no es significativa sobre-representación de las observaciones coherente, aparte de algunas excepciones (CE1-HS2 orthologs (es decir, 1 ortholog en C. elegans y 2 orthologs en H. sapiens, otras abreviaturas se componen de manera similar) y HS1 - SC2 orthologs; P <0,05, la distribución binomial). En general, todos los Pvalues son muy elevados, por lo que este análisis muestra que para 1-2 orthologs, la expresión contexto no es el mejor conservado en ortholog con la más alta identidad de secuencia.

Teniendo en cuenta la gran coincidencia entre la expresión contexto de conservación de las puntuaciones de las más conservadas de genes ortólogos par XX y los menos conservados XX orthologs (ver Fig. 2], que una fracción importante de casos incompatibles se espera sobre la base de esta superposición solo. Por lo tanto, examinó si las pequeñas diferencias observadas entre las frecuencias coherentes e incoherentes en la Fig. 5 el resultado de esta superposición. Para ello, hemos dividido la expresión contexto de la conservación de las puntuaciones de todos los grupos de ortólogos 1-2 en dos conjuntos de datos: uno que contiene el más alto (más conservadas) expresión contexto de conservación de las puntuaciones, el otro con el más bajo (menos conservados) las puntuaciones. Hemos calculado la espera máximo y mínimo compatible incompatible observaciones de la base de estos conjuntos de datos en consonancia con la conservación de la secuencia (ver Métodos). Los triángulos en la Fig. 5 muestran que muchas observaciones más coherente si se espera de los datos inicialmente se organizaron constantemente, incluso cuando las distribuciones de las más conservadas y menos conservadas XX orthologs tienen una gran superposición.

En este análisis, se observó que la diferencia en la secuencia identidad de los dos genes se duplican a menudo pequeñas. Esto puede ser debido en parte al hecho de que se compara evolutivamente divergentes especies, en donde las diferencias entre in-paralogs (dentro de las especies) son pequeñas en relación con las diferencias entre orthologs (entre especies). Para poder comparar la tasa de secuencia de la evolución con mayor precisión, se estudió en detalle la CE1-SC2 ortólogos grupos, e incluye el genoma de Ashbya gossypii, un hongo estrechamente relacionada con S. Cerevisiae. Cuando hemos observado una AG1-SC2 ortólogos grupo de los mismos dos S. Cerevisiae genes como en el acompañamiento CE1-SC2 ortólogos grupo, se calculó el K a / s K relación entre ambos pares de genes en el AG1-SC2 ortólogos grupo para determinar el ritmo de evolución de ambas S. Cerevisiae genes. La proporción de nonsynonymous (K a) a sinónimo (K s) de las tasas de sustitución de nucleótidos es un indicador de la presión selectiva sobre los genes [14]: un ratio mayor que uno indica genes que se encuentran bajo la presión de selección positiva a cambiar su secuencia, una proporción inferior Que indica una estabilización de la selección. Hemos encontrado que la expresión contexto se conserva de la más lenta evolución de S. Cerevisiae gen en no más de 50% de los casos. Estos resultados confirman que la secuencia genética y de expresión independiente contexto evolucionar después de un 1-2 en la duplicación de genes ortólogos grupos.

Divergieron expresión contextos en los dos subunidades β-de la incipiente complejo polipéptido-asociados en S. cerevisiae

Como ejemplo, hemos estudiado en detalle en un par de en-paralogs en S. Cerevisiae con una gran diferencia en el contexto de conservación de expresión: β 1 NAC (EGD1) y β 3 NAC (BTT1). Este ejemplo fue seleccionado debido a que la in-paralogs en S. Cerevisiae tiene una gran diferencia sobre todo en el contexto de conservación de expresión en relación con C. Elegans (pareja de esta especie, los microarrays de datos tiene la mayor relevancia predictiva de todas nuestras especies comparaciones; véase el apartado "Correlación de la secuencia de identidad y de expresión contexto conservación ortólogos entre los grupos" y Figs. 2d-f en [6]]. En general, uno debe estar alerta al interpretar los datos de los microarrays de un gen. Por ejemplo, su lugar puede no hibridizar bien y el nivel de expresión, la co-expresión o incluso el contexto de la expresión de genes será correspondientemente influido. Hemos comprobado, por tanto, estos dos genes y encontró que se comportan normalmente: la fracción de los experimentos en los que se sobre-expresó-y bajo es comparable a la media de los genes (no se muestra).

La subunidad β-de la incipiente polipéptido-Complejo Asociado (β NAC) está representado por dos copias en S. Cerevisiae: β 1 NAC (EGD1) y β 3 NAC (BTT1) [15, 16]. Otras especies tienen una sola copia de este gen: icd-1 en C. Elegans, BIC en D. Melanogaster y BTF3 en H. Sapiens. La comparación de la expresión de cada uno de estos tres genes a los dos S. Cerevisiae genes reveló que para todas las especies comparaciones, el contexto de la expresión EGD1 fue muy conservadas, mientras que el contexto de la expresión BTT1 había divergentes (véase cuadro 4]. En comparación con icd-1 en C. Elegans, la expresión de la correlación contexto BTT1 incluso negativo. Al comparar la secuencia identidad de los dos genes con sus orthologs único en las otras tres especies en este estudio, encontramos que BTT1 es de hecho más divergentes que EGD1 en todos los casos (ver Cuadro 4], es decir, la secuencia de divergencia y de expresión contexto divergencia son Completamente coherente.

La función de estos dos copias de genes aún no está claro. Hasta el momento, la única diferencia en función encontrado para estos dos genes de supresión viene de los experimentos. Perturbación de cualquiera de los S. Cerevisiae β NAC copias dado cepas viables, que se diferencian sólo en el nivel de GAL1 y GAL10 inducción después de la transmisión de un medio que contiene galactosa, en lugar de la glucosa [15]. La cruz criados doble negativa β NAC mutantes mostraron un aumento en la expresión de varios genes, incluyendo los genes GAL. Hu y Ronne (1994) sugirió que EGD1 y BTT1 tienen una función redundante, pero sobre la base de la divergencia expresión contexto, es probable que los dos genes que se expresan bajo circunstancias muy divergentes celular. Dada la consecuente pistas de la conservación diferencial de la expresión contexto y la secuencia de la proteína, que predicen que EGD1 es el verdadero ortholog de icd-1, bic y BTF3.

La correlación de la secuencia de identidad y de expresión contexto de conservación dentro de grupos de ortólogos después de múltiples duplicaciones de genes

También en comparación con la secuencia de conservación de expresión en el contexto de conservación más ampliado XX grupos de ortólogos, es decir, todos los grupos de ortólogos con cuatro o más genes en dos especies. En este sentido, consideró secuencia de identidad y de expresión contexto de conservación coherente si se correlacionó positivamente sobre todos los pares de genes ortólogos XX dentro de un grupo, y cuando son incompatibles correlacionó negativamente (tenga en cuenta que la realización de este análisis sobre el 1-2 orthologs daría a la Mismos resultados que en el apartado "La correlación de la secuencia de identidad y de expresión contexto de conservación entre orthologs después de la duplicación de un gen").

Fig. 6 muestra que estos resultados y los resultados del análisis simple de las duplicaciones (Fig. 5] son muy comparables. En casi todas las comparaciones de las especies, no existe una diferencia significativa entre el número de observaciones coherentes e incoherentes (P <0,05, la distribución binomial, excepto CE-HS orthologs donde P = 0,018). El predominantemente incompatible XX ortólogos entre grupos D. Melanogaster y H. Sapiens puede ser el resultado de la menor relevancia predictivo de la expresión de datos de estas especies (como se menciona en el apartado "La correlación de la secuencia de identidad y de expresión contexto conservación ortólogos entre grupos").

Si, en ambas especies, la más conservada orthologs XX son los dos únicos genes con una limitación selectiva para mantener la función ancestral, menos conservadas XX orthologs puede diferir al azar. Por lo tanto, es posible que la correlación negativa entre la secuencia de identidad y de expresión en el contexto de conservación de todo el XX ortólogos grupo surgió por casualidad. Para los grupos de ortólogos XX con una correlación negativa, por lo que verificó si había un par de genes que albergaba tanto contexto, la expresión más alta y la más alta de conservación de la identidad de secuencia. Sin embargo, este era el caso de sólo el 10% de estos grupos de ortólogos incompatible XX, por lo que debemos concluir que su correlación negativa entre la secuencia de identidad y de expresión contexto de conservación no es el resultado de uno de los pares de genes ortólogos XX que se conservan, y el resto De los genes divergentes al azar. Más bien, la conclusión es que, como en el 1-2 orthologs, la secuencia y la expresión contexto también evolucionan en forma independiente de otros, más ampliado XX ortólogos grupos.

Conclusión

En este trabajo, se introduce una definición de la expresión contexto basado en la expresión de genes de datos. Como equivalente de los tejidos o los experimentos no se pueden asignar entre especies alejadas, nuestro método utiliza para definir los genes ortólogos convertibles expresión contextos entre las especies. Representamos el contexto de la expresión génica una consulta como la co-expresión de perfil con una serie de genes, y no como la expresión de todo el perfil correspondiente condiciones experimentales. Aunque los microarrays se llevaron a cabo bajo condiciones muy diferentes en los cuatro Eukaryotes en este estudio (ver Fig. 1b en [6]], la expresión de un gen se basa en la expresión de correlación muchos valores, cada uno de los cuales, a su vez, integra una gran Colección de experimentos. Para probar la cobertura y la homogeneidad de los conjuntos de datos experimentales, se calculó la correlación de los valores de expresión de todos los pares de genes por separado más de dos mitades de la aleatorios experimentos de microarrays. En D. Melanogaster (r = 0,91) y S. Cerevisiae (r = 0,79), estos resultados están altamente correlacionados (la correlación no fue calculado para C. elegans y H. sapiens como estos conjuntos de datos son muy grandes). Por lo tanto, no esperamos que los sesgos en el microarray condiciones experimentales influir gravemente a la expresión en el contexto de las correlaciones. La aplicación de nuestro método revela que la expresión contexto se conserva orthologs entre pares a través de todas las especies, aunque son menos XX orthologs buen estado de conservación de 1-1 orthologs (ver Fig. 2]. También encontramos información de que los genes tienen una expresión más conservadas contexto operacional de los genes (véase la Fig. 4]. En conjunto, estos resultados muestran que la expresión contexto que aquí se presenta es una medida global de la expresión de un gen contexto.

El uso de este método, analizamos la correlación entre las tasas de evolución de la secuencia de la proteína y de la expresión. Una correlación que se podría esperar si el selectivo limitaciones en la secuencia y de expresión contexto se vincularon. En una comparación entre todos los grupos de ortólogos unexpanded, nos encontramos con que esta correlación es muy baja (véase el cuadro 3]. Este análisis compara los genes que se han ramificado aparte en el caso de la especiación, lo que significa que todas las diferencias en la secuencia de la conservación o de expresión contexto de conservación se deben a ortólogos grupo específico velocidad de evolución. Debido a la amplia gama de funciones llevadas a cabo por los diferentes grupos de ortólogos, es probable que también hay diferencias en la evolución entre los tipos de grupos de ortólogos. Para eliminar los posibles sesgos resultantes de la comparación entre grupos de ortólogos, también hemos comparado las tasas de secuencia y de expresión contexto evolución dentro de grupos de ortólogos, es decir, después de que uno (1-2 ortólogos grupos) o múltiple (grupos de ortólogos XX) la duplicación de genes. En estos análisis, no todos los genes en una comparación se originaron al mismo tiempo, pero debido a los sesgos ortólogos grupo específico velocidad de evolución están ausentes. Sin embargo, las conclusiones son las mismas que en la comparación entre grupos de ortólogos. Por 1-2 orthologs así como para los otros orthologs XX, el caso de que la secuencia de identidad y de expresión contexto de conservación no se correlacionaron significativamente sobre-representados (ver Figs. 5 y 6]. La única especie con un par de observaciones más coherente en ambos análisis se C. Elegans y H. Sapiens, aunque sólo la CE1-HS2 y no HS1-CE2 orthologs eran compatibles. La comparación de los tipos de microarrays experimentos llevados a cabo en estas dos especies pone de manifiesto que hay poca superposición [6]. Sin embargo, estas especies son casi la única pareja con una importante sobre-representación de la coherencia entre la secuencia de identidad y de expresión contexto de conservación.

El método empleado en esta investigación muestran que la expresión contexto se conserva en orthologs entre las especies. Secuencia de identidad y de expresión contexto de conservación no son correlacionados después de la duplicación de genes. Así, la anotación de los diferentes contextos de expresión orthologs no puede basarse en similitud de secuencias solo.

Muchas de las correlaciones de expresión que componen el contexto de expresión puede ser irrelevante. Según la definición de la expresión contexto presenta aquí, la expresión de la correlación de las puntuaciones de todos los 1-1 orthologs en el genoma añadir a la expresión contexto. Como pocos genes poseen una red funcional que contiene todos 1-1 orthologs, muchos co-expresión valores en el vector de la definición de la expresión contexto puede ser irrelevante. Como alternativa, también, por lo tanto, hemos realizado todos los análisis presentados en esta investigación utilizando otro método, que define la expresión contexto de conservación como el número de grupos de ortólogos superposición en el top100 co-expresó 1-1 orthologs entre dos genes. En otras palabras, este método el número de cuenta de la gran co-expresó 1-1 orthologs se comparten entre dos genes. Cualitativamente, los resultados encontrados mediante este método alternativo son idénticos, lo que indica la solidez de los resultados a las diferentes definiciones de expresión.

Anteriormente, hemos demostrado que un gen después de la duplicación, una de las en-paralogs tiene una tendencia a mantener la interacción ancestrales de reglamentación, mientras que este enlace se pierde en los otros [7]. No hemos podido encontrar pruebas fehacientes de tales parcial mediante la conservación mundial de la conservación funcional de las definiciones introducidas aquí. En otras palabras, a pesar de predecir de forma fiable de corregulación enlaces son asimétricamente conservadas después de la duplicación de genes, la co-expresión de la en-paralogs sigue siendo similar desde un punto de vista global. Esto se puede explicar si la divergencia (que se observa el estudio de pairwise enlaces) indica sub-funcionalización, mientras que la in-paralogs se mantienen dentro del mismo proceso celular (lo que resulta en un similar contexto mundial de expresión).

Métodos
Datos

La expresión de la correlación de más de 326 millones de pares de genes en un gran número de microarrays de ADN en C. Elegans, D. Melanogaster, H. Sapiens y S. Cerevisiae [6] se calculó utilizando uncentered correlación (véase la Fig. 1a]. Se utilizó este conjunto de datos como es, porque es la colección más grande de uniforme de la expresión génica de datos disponibles para Eukaryotes. Los genomas fueron descargados de Wormbase para C. Elegans [17], para Flybase D. Melanogaster [18], para Refseq H. Sapiens [19] y de la base de datos del Genoma de Saccharomyces S. Cerevisiae [20]. El genoma de A. Gossypii se descargan de la base de datos del genoma Ashbya [21].

Similitud y orthology

Se realizaron búsquedas en los genomas de homólogos usando el algoritmo de Smith-WatermanP [22] sobre una TimeLogic DeCypher en todas las consultas de base de datos de combinaciones (matriz: Blosum62; e-valor de corte: 100). En el caso de los falsos asimetrías en la similitud de búsqueda (por ejemplo, dando dos secuencias diferentes alineaciones en función de la consulta que fue), los resultados son la media de los dos valores, incluidos los experimentos recíproco. Inparanoid [9] se aplicó a los resultados de búsqueda (los parámetros por defecto; puntaje de corte: 50; afuera de corte: 50; secuencia superposición de corte: 0,5; confianza de corte: 0,05; grupo superposición de corte: 0,5; zona gris: 0). Sólo se incluyeron orthology genes en el análisis de microarrays si se dispone de datos. Para cada par de especies, el 1-1 ortólogos grupos (uno ortholog en cada especie, véase la tabla 1] se utiliza para definir el contexto de expresión de un gen (véase más adelante y Fig. 1]. El resto de los grupos eran considerados ortólogos de genes expansiones (XX ortólogos grupos, con más de un ortholog en al menos una de las especies). Hay aproximadamente el doble de 1-1 orthologs ya que hay grupos de ortólogos XX (véase el cuadro 1].

Expresión contexto

La expresión de un gen se estimó mediante el co-expresión con valores de los otros genes en el genoma. Para poder hacer una clara comparación entre dos especies, sólo se utiliza la co-expresión con los valores 1-1 orthologs (véase la Fig. 1b]. Sólo 1-1 orthologs incluido en la lista si se ha co-expresión de datos disponibles en ambas especies. La expresión contexto de conservación entre dos genes se define como el coeficiente de correlación de Pearson entre los dos vectores con co-expresión con los valores 1-1 orthologs.

El nivel esperado de coherencia entre la secuencia de la identidad y la expresión de conservación en un contexto por completo conjunto coherente de 1-2 orthologs se calculó por la separación de la expresión contexto de conservación de las puntuaciones en dos conjuntos de datos. Una figura la expresión más alta correlación contexto puntuación en cada grupo de ortólogos 1-2 (1-2 orthologs más conservadas, cf. Fig. 4], y el otro contenía los resultados son inferiores (1-2 orthologs menos conservados). A continuación, al azar, los valores de la alta, la mayoría se conserva el conjunto de datos a 1-2 pares ortólogos con la mayor secuencia de identidad, y los valores de la baja, menos se conserva el conjunto de datos a 1-2 pares ortólogos con el menor secuencia de identidad , Y la consecuente contados casos. Así, todos los grupos de ortólogos eran compatibles, en principio, incompatibles y observaciones sólo puede dar como resultado de la superposición de las distribuciones de la expresión contexto de conservación de las puntuaciones (véase la Fig. 2]. El número encontrado (triángulos en la Fig. 5] son, por lo tanto el máximo previsto en el número de observaciones coherentes y el mínimo previsto en el número de observaciones inconsistentes si los datos hubieran sido totalmente coherente, teniendo en cuenta la superposición de las distribuciones.

KOG clasificación

La lista de KOGs (euKaryotic grupos de Orthologous grupos de las proteínas) con genes asignado fue COG descargar de la página web [10].

K a / s ratio K

La K a / s coeficiente K se calculó utilizando la kaks función de la seqinr paquete de proyectos de la R de Estadística Informática [23]. Esta función hace una estimación objetiva de la relación de nonsynonymous (K a) a sinónimo (K s) de nucleótidos para la sustitución de un conjunto de secuencias alineados [24].

Contribuciones de los autores

BED llevado a cabo los análisis, participó en el diseño y elaboró el manuscrito. TAC y BS concebido del estudio, participó en el diseño y la coordinación y la ayudó a redactar el manuscrito.

Agradecimientos

Damos las gracias a Marc van Driel y Ludo Pagie de asistencia técnica.