Evolutiva conservación y el exceso de representación de red funcional enriquecido en los patrones de la levadura de reglamentación red
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.
Localizados los patrones de red se supone que representan un principio de diseño óptimo en las distintas redes biológicas. Un método muy utilizado para identificar los componentes funcionales biológicos en las redes es la red en busca de motivos - excesivamente representados los patrones de la red. Una serie de estudios recientes han socavado la afirmación de que estas excesivamente representados los patrones son indicativos de los principios del diseño óptimo y la cuestión de si la red localizada en efecto, los patrones funcionales de importancia. En este artículo se analiza el significado funcional de regulación de la red a través de sus pautas de anotación biológicos y evolutivos de conservación.
Estamos enumerar todos los 3-nodo de red en los patrones de reglamentación red de la levadura S. cerevisiae y examinar la anotación GO biológica y la conservación evolutiva de sus genes constituyentes. Específico 3-nodo patrones se encuentran funcionalmente a ser enriquecido en diferentes condiciones exógenas celular y, por tanto, pueden representar importantes componentes funcionales. Estas pautas funcionalmente enriquecido se componen principalmente de los genes recientemente evolucionado lo que sugiere que no hay presión evolutiva que actúe para preservar funcionalmente enriquecido tales patrones. No se encontró correlación entre el exceso de representación de red y los patrones funcionales de enriquecimiento.
Las conclusiones de enriquecimiento funcional de apoyo la opinión de que los patrones de red constituyen un importante principio de diseño de redes reguladoras. Sin embargo, el método utilizado salvajemente de un exceso de representación para la detección de motivos no es adecuado para la identificación de patrones funcionales enriquecidos.
Complejo funciones biológicas son realizadas por la actividad integrada de módulos funcionales altamente consistente en que interactúan los componentes celulares [1, 2]. Red de motivos se localizan los patrones de las interconexiones que se dan en números significativamente más alta que en redes seleccionadas al azar y, por tanto, puede representar los componentes de módulos funcionales [3]. Motivos señalados en la red de regulación transcripcional de la bacteria E. coli se encontró que tienen un papel importante en el procesamiento de la información realizado por la red y se utiliza para obtener una representación compacta de la red [4]. En concreto, un motivo llamado "feed-forward loop" que se encuentra en las redes de regulación transcripcional fue demostrado tener un importante papel en la regulación de genes en respuesta a estímulos persistentes en contraste con señales transitorias [4, 5]. Superfamilies de diversos biológicos y otras redes se han identificado a similar estructura local basada en la importancia de los perfiles de red patrones [6]. En general, los motivos de red se han convertido en un método ampliamente utilizado para identificar funcionalmente importantes componentes de la red.
Una serie de estudios recientes sugieren que el exceso de patrones representados red, es decir, red de motivos, no necesariamente han significado funcional: (i) Red de motivos se encuentran pruebas de una "hipótesis nula al azar", que compararon la abundancia de las pautas observadas en una red con las que se encuentran en un conjunto de redes al azar [3]. Recientemente se alegó que un mal-que plantea hipótesis nula puede conducir a la falsa identificación de patrones significativos de red, tales como un proceso de aleatorización no podrá representar correctamente evolucionado naturalmente redes [7, 8]. Por ejemplo, se alegó que la red de motivos se encuentran en la conectividad neural-red del nematodo C. elegans puede ser el resultado de utilizar una hipótesis nula que no cuenta para localizado agregación de las conexiones neuronales. (ii) Otro reciente trabajo [9], ha afirmado que la red localizada patrones pueden no reflejan necesariamente evolutivo de selección de componentes funcionales como la densidad de la pautas que determine la estructura global de la red, que se caracteriza por su grado de distribución y agrupación de coeficiente. (iii) Otros trabajos [10] afirma que la red motivos no parecen ser evolutivo o de importancia funcional. Ellos comparan la conservación evolutiva de los motivos a que escogido de forma aleatoria de red y los patrones de la conclusión de que los motivos no están sujetos a ninguna presión evolutiva que actúe para su preservación. Un examen detallado del motivo de los sucesos en lugares bien estudiado al servicio de vías específicas funciones biológicas es entonces empleado para demostrar que los motivos no desempeñan un papel regulador.
Estos resultados llamamiento en favor de un nuevo examen de dos cuestiones fundamentales relativas a las modalidades de red 'análisis: (i) ¿localizados red patrones constituyen un esencial principio de diseño de la red subyacente? (Ii) ¿Es un exceso de representación de red patrones de una adecuada medición de la presión y evolutivo por lo tanto, de importancia funcional?
Con la finalidad de responder a estas preguntas, llevamos a cabo a gran escala de análisis funcional de enriquecimiento y la conservación evolutiva de todos los 3-nodo en distintos patrones dinámicos redes reguladoras en la levadura S. cerevisiae. Dinámica de redes reguladoras son subconjuntos de la red de regulación estática que se activa bajo condiciones específicas celulares. Un estudio reciente [11], ha descubierto grandes cambios en la arquitectura de red subyacente entre la estática de reglamentación red de S. cerevisiae y "dinámico" subconjuntos de esta red. Propiedades estructurales de varias redes dinámicas fueron estudiados durante 5 celulares diferentes condiciones: (i) del ciclo celular, (ii) esporulación, (iii) diauxic cambio, (iv) los daños del ADN, y (v) la respuesta de estrés [11].
Funcionalmente enriquecido sucesos de red en los patrones de estas redes dinámicas pueden representar importantes módulos funcionales esenciales que reflejan los principios del diseño. Para medir el enriquecimiento funcional se define una media de puntuación de enriquecimiento funcional que se basa en los genes' GO anotación. La extensión de los trabajos de [10] que estudió la función de sobre-representados red patrones en el contexto de un pequeño número de bien conocidos módulos biológica, nuestro análisis examina la función de un conjunto de patrones de uso de red a gran escala anotación de datos. Un estudio anterior de [12] afirmó que más de una representación de red patrones son funcionalmente enriquecido sin tener en cuenta el enriquecimiento de la no excesivamente representados los patrones como un modelo de fondo. Para determinar que un determinado patrón es funcionalmente enriquecido nos tomamos un enfoque diferente y comparar el enriquecimiento de una pauta para que el resto de patrones.
Para medir la evolución de conservación de la red que los patrones de generalizar los resultados estándar de conservación de los genes individuales a 3-nodo a través de dos pautas conceptualmente distintas maneras:
1. "Bolsa de nodos" - la inspección de la conservación de las puntuaciones en cada aparición inducida por cada nodo 3-patrón. Se define la media de puntuación de conservación para cada nodo 3-patrón como la media de conservación de todos los genes que forman el patrón de sucesos (Métodos).
2. "Coherencia" - la inspección de la coherencia de conservación resultados dentro de cada suceso provocado por el nodo 3-patrón. Los genes que juntos forman un componente funcional se espera que sean conservadas coherente a través de la evolución. Se define la coherencia Resultado de conservación como el porcentaje de las ocurrencias del patrón coherente con la conservación (es decir, con todos los acontecimientos de los genes en una ocurrencia que tenga el mismo nivel de conservación; Métodos).
Una definición similar para la conservación de la coherencia ha sido utilizado en [13], donde estudio evolutivo de conservación de la red en los patrones de la proteína-proteína interacción red de la levadura S. cerevisiae. Otro estudio reciente realizado por [10] también ha medido la coherencia de la conservación evolutiva de los patrones de interacción en una red integrada de S. cerevisiae, que comprende transcripcional y proteína-proteína interacción de datos. Definen una "fragilidad" Resultado de un patrón de ocurrencia que refleja la tendencia de sus genes que constituyen a ser uniforme presentes o ausentes en un conjunto de organismos relacionados con la 4. Nuestra coherencia Resultado de conservación es diferente, ya que se basa en una gran escala de predicción de la presencia de genes en las especies ancestrales de S. cerevisiae (Métodos).
La aplicación de estas medidas a las distintas redes dinámicas, analizar si existen patrones funcionales enriquecidos que pueden representar los mecanismos de regulación específica, y examinar su conservación evolutiva. Por último, pasamos a responder a la segunda cuestión, es decir, si un exceso de representación de los patrones de red es un buen indicador de su importancia funcional.
Se buscaron todas las ocurrencias de los 13 posibles 3-nodo en todas las modalidades de redes dinámicas y encontró que sólo el 6 patrones se produjeron en al menos una red (Métodos, Figura 1]. Patrón 6 (en representación de un feed-forward loop con una interacción bidireccional adicionales) se encontró sólo en el estrés de una red con seis apariciones, que es demasiado pocos para detectar el enriquecimiento funcional significativo o las medidas de conservación y, por tanto, excluidos de un análisis más detallado. Plan 3 también se encuentra sólo en el estrés de una red con 36 apariciones, lo que sugiere que tanto los patrones 3 y 6 pueden representar las funciones que son específicas sólo para el estrés-respuesta. Patrón 1, lo que representa un factor de transcripción que regula dos genes objetivo, es significativamente más común que el resto de patrones, en todas las redes dinámicas.
Hemos calculado el exceso de representación de partituras para todos los patrones en cada una red dinámica y encontrar ese patrón 5 (feed-forward loop) es excesivamente representados (Z-score> 2) en el ciclo celular, esporulación y los daños del ADN-redes ( Métodos, Figura 2]. La sobre-representación de la alimentación de avance bucle está de acuerdo con los resultados anteriores en la estática redes reguladoras de la bacteria E. coli y la levadura S. cerevisiae [4, 14].
Se hicieron búsquedas en las redes dinámicas para funcionalmente enriquecido pautas que pueden representar los principios del diseño en los mecanismos de regulación específica. Para cada patrón en cada una red dinámica que la media calculada de enriquecimiento de puntuación funcional que mide la tendencia de los genes que componen un ejemplo de la pauta a tener el mismo GO anotación (Métodos, Figura 3]. Se encontró que el patrón 2 es funcionalmente enriquecido por daño en el DNA y las condiciones de estrés, mientras que la respuesta patrón 4 se enriquece en diauxic cambio y el estrés respuesta condiciones, que son todas las condiciones exógenas. Además, las pautas 1 se enriquece en el ciclo celular endógeno condición, mientras que en 5 patrón enriquecido en la condición endógena esporulación. Examinando el enriquecimiento funcional de la sobre-representados los patrones de red en las distintas redes dinámicas no reveló ninguna correlación significativa entre las dos medidas. Es decir, modelo número 5, que es significativamente más representadas en 3 redes dinámicas es funcionalmente enriquecido sólo en una única red dinámica, que no es estadísticamente significativa (hiper-geométricos valor de p = 0.28)
Hemos calculado la media de puntuación de la conservación y la conservación de la coherencia Resultado para todos los patrones en cada red dinámica (Métodos, Figura 4]. Plan 4 tiene una significativa baja puntuación media de conservación en ambos diauxic cambio y el estrés de respuesta dinámica de redes, y los patrones 2 tiene una puntuación baja significativamente en la respuesta de estrés red dinámica. La significativa baja puntuación media para la conservación de estos patrones sugieren que los genes que componen estos patrones son poco evolucionado. Las mismas pautas, 2 y 4, se han elevado significativamente la conservación de la coherencia en los resultados diauxic cambio y el estrés de respuesta dinámica de redes.
Un alto puntaje de conservación de la coherencia indica que los genes que componen el patrón de acontecimientos tienden a tener similares Resultado de conservación. En concreto, el 96% de los casos de patrones 2 y 4 en esas condiciones tienen una estrategia coherente de conservación Resultado de cero, lo que representa el 3 genes que no tienen orthologs en los ancestros directos de S. cerevisiae. El hecho de que no es coherente patrón se conserva durante más tiempo de tiempo es sorprendente teniendo en cuenta el hecho de que el 15% de los genes reguladores tienen las puntuaciones de conservación superior a 1. Esto puede sugerir que, si bien algunos de los genes reguladores de S. cerevisiae están altamente conservadas a través de la evolución no existe una presión evolutiva para mantener su patrón de interacciones con anterioridad a la ascendientes directos de S. cerevisiae. Esta observación está de acuerdo con anteriores trabajos de [15], donde se demostró que los sucesos de motivos en el marco regulador de las redes de E. coli y S. cerevisiae no es probable que hayan evolucionado a partir del mismo patrón ancestral de las sucesivas duplicaciones. En lugar de ello, los patrones de interacción han convergido con independencia de la interacción de los genes no vinculados a un proceso denominado "evolución convergente".
El examen de la conservación de la red funcionalmente enriquecido patrones nos encontramos con que funcionalmente los patrones han enriquecido significativamente baja puntuación media de conservación y alta conservación significativamente la coherencia Resultado (Z-score> 2). Estos resultados sugieren que los patrones específicos (tales como los esquemas 2 y 4 en la exógenos diauxic cambio y las condiciones de respuesta de estrés) puede representar componentes funcionales. Sin embargo, la estructura funcional de dichos componentes no pueden ser conservadas a través de la evolución a largo plazos, como no encontramos muy conservadas, funcionalmente enriquecido patrones. La distinción entre los mecanismos reguladores que operan en endógenas (del ciclo celular y esporulación) y exógenos (diauxic cambio, el daño del ADN, y el estrés de respuesta) se ajusta a las condiciones anteriores resultados muestran diferentes propiedades topológicas en estas condiciones [11].
Para saber si los patrones localizados red constituyen elementos esenciales principios de diseño de la red subyacente se estudió el enriquecimiento funcional y evolutivo de las pautas de conservación de los sucesos utilizando en gran escala de genes y anotación de datos para la conservación. Encontramos algunos funcionalmente enriquecido red patrones dinámicos en diferentes redes reguladoras, lo que apoya la opinión de que los patrones de red pueden desempeñar un papel funcional. El mismo funcionalmente han enriquecido significativamente los patrones de conservación de alta coherencia y resultados significativamente bajos de conservación de las puntuaciones medias en las condiciones exógenas, lo que representa poco evolucionado componentes funcionales. En un análisis similar de la estática de reglamentación red de todas las interacciones de reglamentación que no encontró correlación estadísticamente significativa entre funcionalmente enriquecido y evolucionado recientemente patrones (datos no presentados).
El exceso de representación de red patrones como un método para encontrar funcionalmente importantes componentes de la red ha atraído considerable atención en el sistema de biología comunidad y su examen es de primordial interés. Anteriormente, [10] que se han cobrado excesivamente representados los patrones de red (motivos) no desempeñan un papel regulador mediante el examen de una serie de puntos concretos biológicas bien conocidas módulos. Nuestros resultados extender sus hallazgos muestran que más de una representación de red patrones no tienden a ser funcionalmente enriquecido o conservadas evolutivo y, por tanto, no podrá representar importantes componentes funcionales.
En concreto, nos encontramos con que la sobre-representados patrón 5 (feed-forward motivo) no es funcionalmente enriquecido (en todas menos una condición dinámica) o conservadas. Sin embargo, un exceso de representación de red pueden convertirse en patrones valiosa si el modelo correcto de fondo se utiliza para generar al azar evolucionado naturalmente redes. Después de haber encontrado importante red utilizando patrones funcionales de enriquecimiento y criterios de conservación, puede ser posible revertir el uso de técnicas de ingeniería para encontrar un modelo correcto de fondo en virtud del cual excesivamente representados los patrones que representan importantes módulos.
Hemos utilizado la red de regulación de la levadura S. cerevisiae, que abarca todas las interacciones conocidas regulador construido a partir de factores genéticos, bioquímicos y chip experimentos [11, 14]. La red consta de 3420 nodos que representan a los genes blanco y 142 nodos que representan factores de transcripción. Contiene 7074 dirigida bordes de regulación en representación de las interacciones entre los factores de transcripción y genes blanco, o entre dos factores de transcripción. Todas las redes dinámicas se obtuvieron a partir de [11], que la poda de regulación estática de red basada en la expresión génica utilizando las "trazas-back" algoritmo. El número de genes en las distintas redes dinámicas es significativamente menor que la de la red y se sitúa entre 286 y 783. En consecuencia, el número de interacciones reguladoras oscila entre 481 y 1217.
Patrones de sucesos se encontraron subgraph utilizando el algoritmo de isomorfismo [16]. El exceso de representación de red patrones se determina mediante la comparación de su abundancia a la distribución de los valores correspondientes se encuentran en un conjunto de redes al azar [3]. El azar redes de preservar cada uno de los nodos de entrada y salida grado de distribución, así como el número de aristas bidireccionales. Para cada modelo que computa un Z-score que representa la diferencia entre la abundancia de observarse el patrón de la red y la abundancia esperada en las redes al azar, dividido por la desviación estándar de las abundancias en las redes al azar.
Evolutiva las tasas de retención de proteínas de levadura previamente calculado en [17], contando para cada proteína, el número de sustituciones de aminoácidos por sitio en orthologous secuencias de 21 genomas completamente anotada. Un enfoque alternativo fue utilizado por [18] estimar la propensión de los genes que se pierde en evolución (PGL) sobre la base de un árbol filogenético que consta de 7 de eucariotas, teniendo en cuenta las estimaciones de tiempo disponible para cada punto de divergencia. Para medir la conservación evolutiva de S. cerevisiae genes que definen la conservación evolutiva puntuación basada en un árbol filogenético que consta de 215 especies (sin divergencia estimaciones puntuales). La concentración en S. cerevisiae evolución hemos definido la conservación de puntuación como el número de S. cerevisiae antepasados que tienen más probabilidades de contener identificable orthologs. Para que utilizamos la KEGG la similitud de secuencia de bases de datos (SSDB) [19, 20] a la lista de probables orthologs S. cerevisiae genes en todos los 215 genomas secuenciados completamente en la base de datos. KEGG del SSDB utiliza un Smith-Waterman algoritmo de programación dinámica con una línea de corte umbral fijado a 200. Para cada gen se asignan valores binarios indicando la existencia de un ortholog a estas especies diferentes, que se encuentra en las hojas del árbol phylogenic en KEGG. Para predecir la presencia de orthologs en S. cerevisiae antepasados se les aplicó el algoritmo de máxima parsimonia PARS de PHYLIP paquete [21]. A continuación, utiliza el número de antepasados que contienen orthologs en el camino de S. cerevisiae a la raíz (puntuación 0-4) como la puntuación de conservación evolutiva. Un método para determinar la conservación evolutiva de presión ha sido utilizada en [13], que mide la presencia de orthologs en un conjunto de cinco eucariotas superiores (no teniendo en cuenta su filogenia). Tomamos nota de que existe una correlación estadísticamente significativa entre la conservación de nuestros resultados y de que [18].
Formular pautas de los resultados, en primer lugar definir C: N → 0 ... (4) como la conservación Resultado de los genes individuales, donde N = (1 ... n) denota la red de nodos. La j ª aparición de patrón i es un nodo triplete indicados por
OM TS y analizados los datos. OM, TS y ER escribió el documento.
Los autores agradecen a Tal Pupko por su ayuda en la conservación de la informática resultados de los genes. También damos las gracias a Omer Berkman, Isaac Meilijson, Alon Keinan, Ben banco de arena, Sarel Fleishman, y Uri Alon del laboratorio para comentarios sobre nuestro trabajo. TS da las gracias al generoso apoyo del Fondo de Tauber.