Journal of Biology, 2005; 4(2): 6-6 (más artículos en esta revista)

Motivos, temas y mapas temáticos de forma integrada la interacción Saccharomyces cerevisiae red

BioMed Central
V Lan Zhang (lan_zhang@student.hms.harvard.edu) [1], King Oliver D (ok@CSUA.Berkeley.EDU) [1], Sharyl L Wong (sharyl_wong@student.hms.harvard.edu) [1 ], Debra S Goldberg (debg@hms.harvard.edu) [1], HY Amy Tong (amy.tong @ utoronto.ca) [2], Guillaume Lesage (guillaume.lesage @ mail.mcgill.ca) [3] , Brenda Andrews (brenda.andrews @ utoronto.ca) [2], Howard Bussey (howard.bussey @ mcgill.ca) [3], Charles Boone (charlie.boone @ utoronto.ca) [2], Frederick P, Roth ( Fritz_roth@hms.harvard.edu) [1]
[1] Department of Biological Chemistry and Molecular Pharmacology, Harvard Medical School, Boston, MA 02115 USA
[2] Banting y Best Departamento de Investigaciones Médicas y el Departamento de Genética Médica y Microbiología de la Universidad de Toronto, Toronto, ON M5G 1L6, Canadá
[3] Departamento de Biología, Universidad de McGill, Montreal, PQ H3A 1B1, Canadá

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Estudios de gran escala han revelado las redes de interacción biológica de los diversos tipos, tales como la interacción proteína-proteína, la interacción genética, regulación transcripcional, de homología de secuencia, de expresión y de correlación. Patrones recurrentes de interconexión, o de los motivos de la red ', han revelado conocimientos biológicos de las redes que contienen uno o dos tipos de interacción.

Resultados

Para estudiar las relaciones más complejas con múltiples tipos de interacción biológica, hemos reunido a un red integrada de Saccharomyces cerevisiae en la que los nodos representan genes (proteína o sus productos) y de color diferente vínculos representan los mencionados cinco tipos de interacción biológica. Se examinaron tres y cuatro nodo de interconexión que contenga pautas de la interacción de múltiples tipos y encontró muchos enriquecido multi-color motivos de la red. Además, mostró que la mayoría de los motivos de la forma red de los temas "- las clases de orden superior patrones recurrentes de interconexión que abarcan múltiples ocurrencias de los motivos de la red. Red temas pueden estar vinculados a fenómenos biológicos específicos y pueden representar más fundamentales principios de diseño de red. Ejemplos de temas de red incluyen un par de complejos de proteínas con muchos complejos entre las interacciones genético - la "compensación complejos". Mapas temáticos - redes prestados en términos de tales temas - puede simplificar de otro modo confuso enredo de relaciones biológicas. Mostramos por esta cartografía de la S. Cerevisiae red en términos de dos temas específicos de las redes.

Conclusión

Enriquecido significativamente motivos de forma integrada S. Cerevisiae red de interacción son a menudo las firmas de la red de temas, de orden superior red de estructuras que se corresponden con los fenómenos biológicos. En representación de las redes en términos de red de temas proporciona una útil simplificación de las complejas relaciones biológicas.

Antecedentes

Un sistema celular puede describirse como una red de relaciones entre los genes, las proteínas y otras macromoléculas. Las proteínas pueden interactuar directa o indirecta a través de un contacto físico (en adelante, las interacciones proteína-proteína). También pueden interactuar genéticamente, por ejemplo, si una combinación de mutaciones en dos genes de las causas más severas de fitness defecto (o la muerte) que cualquiera de los dos mutación por sí sola, los dos genes tienen una enfermedad o sintético letal (SSL) de la interacción genética. Además, los dos genes pueden relacionar unos con otros por regulación transcripcional, de homología de secuencia, de expresión o de correlación. Solapamientos entre los diferentes tipos de interacción biológica se han señalado anteriormente. Por ejemplo, la interacción de proteínas son más propensos a tener similares patrones de expresión [1, 2]; correlacionada con la expresión de genes son más propensos a ser controlada por un factor de transcripción [3], y las interacciones genético sintético es más probable que se produzcan entre los genes homólogos [4]. Estos representan pairwise relaciones entre los diversos tipos de interacción biológica, sin embargo, la comprensión de la forma en que están organizadas en una red integrada sigue siendo una tarea difícil.

El concepto de motivos de la red (que se hace referencia a ellos simplemente como "motivos" de aquí en adelante) ha sido desarrollado para describir patrones simples de la interconexión en redes que se producen con más frecuencia de lo esperado en redes seleccionadas al azar [5, 6]. Se ha propuesto que los motivos de la red representan los bloques de construcción básicos de redes complejas [5 - 7]. Diferentes tipos de redes exhiben diferentes perfiles motivo, ofrecer medios para la clasificación de la red [8]. La red motivo concepto es extensible a una red integrada de muchos tipos de interacción (es decir, una "red multi-color ', de las interacciones con cada tipo representado por un color diferente). Multi-color motivos de la red caracterizar las relaciones entre los diferentes tipos de interacción biológica dentro de la red local de los barrios. Un reciente estudio examinó motivos de la red integradas en las redes celulares interacción de dos tipos - regulación transcripcional y la interacción proteína-proteína [9]. Otros genes de las relaciones de pareja también son importantes. Correlacionadas perfiles de expresión puede reflejar común celular reglamento o de una exigencia de acción contemporáneos. Homología de secuencia sugiere descender de un antepasado común y, por tanto, un aumento de la probabilidad de realizar una función relacionados. Genéticos describir las interacciones sinérgicas o antagónicas consecuencias de las mutaciones en dos o más genes. Por ejemplo, un reciente estudio sistemático [4] identificó un gran número de interacciones SSL, revelando pares de genes en un gen que compensa la pérdida de los otros, lo que sugiere una relación funcional entre los dos productos genéticos. A continuación, describimos descubierto motivos de la red desde una red de Saccharomyces cerevisiae que integra cinco tipos de interacciones biológicas o en sus relaciones: las interacciones proteína-proteína, las interacciones genético, regulación transcripcional, de homología de secuencia, de expresión y de correlación.

Se ha demostrado para la Escherichia coli y Caenorhabditis elegans transcripcional subgraphs red que se pongan en venta dos tipos de circuitos de regulación transcripcional motivo - feed-forward y bi-fan - se superponen entre sí y forman grandes grupos [6, 10, 11]. Esto sugiere que en lugar de representar a la red "bloques de construcción", los motivos deberían, en algunos casos, ser vistos como de las firmas más fundamental las estructuras de orden superior. Aquí se describe la red de temas' - recurrentes de orden superior que abarcan las modalidades de interconexión de múltiples ocurrencias de motivos de la red y reflejan un principio de organización. Nos muestran que la mayoría se encuentra en motivos de la red integrada de la S. Cerevisiae red puede ser entendida en términos de la red sólo unos pocos temas. Red temas pueden estar vinculados a fenómenos biológicos específicos y pueden representar más fundamentales principios de diseño de red. También sugiere una simplificación de los naturales de otro complejo conjunto de relaciones en una red integrada. Demostramos esta ofreciendo dos mapas temáticos integrados de la S. Cerevisiae red.

Resultados
Integrada de S. Cerevisiae red

Hemos construido un integrado S. Cerevisiae red mediante la combinación de cinco tipos de interacción biológica. Nodos de la red representan a los genes o las proteínas, y de diferente color de los vínculos biológicos representan diferentes tipos de interacción. Estos incluyen: 3060 SSL sintéticos derivados de las interacciones genético array (SGA) el análisis [4]; 40438 proteína relaciones de homología de secuencia de un genoma a escala BLAST búsqueda [12]; 57367 correlación expresión mRNA relaciones derivadas de los microarrays de datos [13]; 49537 estable Interacciones proteína compartido definido por la pertenencia a una proteína compleja [14 - 16], y 4357 de regulación transcripcional interacciones de un genoma en toda la inmuno-precipitación cromatina (ChIP) estudio [7]. Esta recopilación de datos resultó en una sola red integrada de 5831 nodos y enlaces 154759 en total (para la lista completa véase el archivo de datos adicional 1).

Tres motivos de la red y el nodo correspondiente temas en la red integrada

Redes de proteína-proteína sintética genéticos y la interacción se han notificado a ser libres de escala y 'small-world' [4, 17, 18]. Por tratarse de una pequeña red mundial implica la agrupación de barrio, donde los vecinos de un determinado nodo tienden a interactuar entre sí, lo que resulta en una abundancia de tres nodos de interconexión patrones - es decir, "triángulos". Además, como las relaciones de homología de secuencia y de expresión a menudo se correlacionan transitiva (es decir, si es un gen homólogo al gen B, y B es de genes homólogos a los genes C, entonces A es a menudo de genes homólogos a los genes C). Así, un triángulo motivo para cada uno de estos componentes se espera subredes. Con el fin de encontrar nuevos motivos de la interacción de múltiples tipos, que buscamos con frecuencia se producen en los patrones de interconexión de la red integrada, la evaluación de su importancia mediante la comparación con el observado adecuadamente aleatorizado red de redes.

En primer lugar, hemos probado de manera exhaustiva todos los tres nodos de interconexión patrones definidos por un solo tipo de relación que existe entre cada par de nodos (hay 50 estos patrones, y la de una completa figura en el archivo de datos adicionales 2). Muestra en la Figura 1 se presenta una lista de tres nodos enriquecido motivos de la red, cada uno describiendo una forma significativa (p <0,001) enriquecido topológico relación de las interacciones biológicas entre diversos tipos integrada en el S. Cerevisiae red. Hemos encontrado que la mayoría de los motivos puede ser explicado en términos de estructuras de orden superior, o de la red temas, que son representativas de los fenómenos biológicos. Hemos clasificado estos motivos en siete conjuntos (Figura 1a-g] de acuerdo con los temas que se mencionan a continuación. Hay cinco motivos que no se pudieron clasificar en los temas (Figura 1h]. Y que se tratan más a fondo en la discusión.

El primer motivo conjunto contiene la transcripción feed-forward motivo (Figura 1a], que se ha caracterizado en varios estudios anteriores de un solo color de las redes de regulación transcripcional [5 - 7, 11]. Debido a la regulación transcripcional enlaces a menudo se superponen co-expresión enlaces, que añade a esta serie otro motivo compuesto de dos genes correlacionados con la expresión de que son también indirectamente vinculados por lazos de regulación transcripcional intermedio a través de un gen. Nos hemos percatado de que se pongan en venta los genes tríadas feed-forward motivo en el S. Cerevisiae red a menudo se superponen unas con otras para formar grandes grupos, como en el E. Coli y C. Elegans redes de regulación transcripcional [6, 10, 11]. Por ejemplo, Swi4 y su activador transcripcional Mcm1 junto reglamentar una serie de células, genes relacionados con el ciclo (Figura 1a] [19 - 21]. La mayoría de genes se pongan en venta las tríadas feed-forward motivo de pertenecer a esos grupos, que nos conduce a la nota un "feed-forward" tema - un par de factores de transcripción, una regulación de los demás, y tanto la regulación de un conjunto común de genes diana que suelen participar En el mismo proceso biológico.

El siguiente conjunto contiene "co-señalando 'motivos, en la que un objetivo de genes está regulada por dos factores de transcripción que interactúan físicamente o compartir una homología de secuencia (Figura 1b]. Estas co-señalando los motivos de reflejar el hecho de que dos factores de transcripción que regulan la misma son a menudo objetivo de genes derivados de la misma ancestral de genes, o funcionar como una proteína compleja. Hemos encontrado que estos motivos también se superponen en gran medida, la formación de un co-apuntando tema, en el que múltiples factores de transcripción, conectados entre sí por interacción física o de homología de secuencia, regular un conjunto común de genes diana. Figura 1b muestra un ejemplo de ello, donde Hap2, Hap3, Hap4 y Hap5 la forma CCAAT vinculante factor complejo [22] que regula la meta común de genes, muchos de los cuales están involucrados en el metabolismo de hidratos de carbono [23].

Un tercer grupo de motivos contiene dos objetivos de la misma factor de transcripción salvarse mediante un enlace de correlación de expresión, la interacción proteína-proteína, o una secuencia de homología (Figura 1c]. Estos motivos indican que la co-regulación transcripcional es a menudo acompañada por la co-expresión, el número de miembros de la misma proteína, la descendencia de un ancestro común [3, 24], y sugieren un "complejo regulonic 'tema en el que co-regulados son proteínas A menudo los componentes de un complejo o por los genes relacionados con la duplicación y divergencia. Que ilustra este tema, seis miembros de la histona octamer, Hhf1, Hhf2, Hht1, Hht2, Hta1 y Htb1 están todos regulados por Hir1 y Hir2, histonas co-represores transcripcionales que se requieren para la represión periódico de la histona genes (Figura 1c] [ 25].

El cuarto motivo conjunto consta de cuatro motivos de tres nodos cada uno con las interacciones proteína-proteína o expresión enlaces correlacionados (Figura 1d]. Interacción proteína-proteína que se conoce a correlacionan positivamente con co-expresión [1, 2], y de las proteínas correspondientes a estos motivos a menudo residen en el mismo complejo. Así, dentro de este conjunto de motivos es probable que la firma de un "complejo de proteínas". Uno de los muchos ejemplos es la ATP sintetasa complejo [26, 27], cuyos miembros están vinculados entre sí en gran medida por la interacción proteína-proteína y la correlación de expresión (Figura 1d].

El quinto motivo conjunto contiene tres nodos enlazados por motivos SSL interacción o por homología de secuencia (Figura 1e]. En la red SSL, vecinos de la misma frecuencia de genes interactúan entre sí [4]. Esto se traduce en un triángulo motivo de tres enlaces SSL. Además, son a menudo las relaciones de homología transitiva (es decir, si es un gen homólogo al gen B, y B es de genes homólogos a los genes C, entonces A es a menudo de genes homólogos a los genes C). Estos fenómenos, junto con el hecho de que los genes intercambio de homología de secuencia, tienen una mayor tendencia a mostrar la interacción SSL, sugerir un tema de la agrupación en el barrio integrado SSL / homología de la red: SSL o homología de los vecinos de un nodo tienden a vincularse a uno Por otro SSL o interacción de homología de secuencia. Este tema se ejemplifica por Myo2 y una serie de genes relacionados a la interacción Myo2 por SSL o de homología de secuencia (Figura 1e] [4, 28, 29].

El sexto motivo conjunto describe motivos de la red que contiene dos nodos vinculados, ya sea por la interacción de SSL o por homología de secuencia, con un tercer nodo conectado a cada uno de ellos a través de la interacción proteína-proteína o expresión a través de correlación (Figura 1f]. Los tres proteínas (a, b, c, como en el diagrama esquemático en la figura 1f] pueden ser miembros del mismo complejo, ya sea con o b c ser suficiente para apoyar la función esencial del complejo. Proteínas byc puede residir en el complejo a la vez, o ser mutuamente excluyentes (es decir, que compiten por la misma posición de atraque en el complejo). Esto puede ser generalizado a la red de un tema complejo con proteínas parcialmente redundantes o compensatorios miembros. Como un ejemplo de este tema, tanto Ssn8 y Cdc73 asociarse con la ARN polimerasa II complejo [30, 31], y sólo uno de ellos es necesaria para la viabilidad (Figura 1f] [4].

Hemos encontrado el séptimo motivo conjunto especialmente interesante. Motivos en esta serie contienen dos nodos enlazados por la interacción proteína-proteína o correlación de expresión, con un tercer nodo conectados a la vez, ya sea por la interacción de SSL o por homología de secuencia (Figura 1g]. Teniendo en cuenta previamente observado correlaciones entre la interacción proteína-proteína y co-expresión [1, 2] y la interacción entre SSL y homología de secuencia [4], estos motivos indican que los miembros de una determinada proteína o complejo proceso biológico suelen tener una interacción común sintéticas genéticos asociados ( S) (Figura 1g]. Por ejemplo, cuatro de los cinco Gim complejo de proteínas [32] con la exposición sintética de letalidad Sec72 (Figura 1g] [4]. Una "compensación de proteínas complejas y / proceso" tema, en el que una proteína y un complejo de proteínas o procesos biológicos tienen función compensatoria, se traduce en enfermedad o sintéticas letalidad entre la proteína y cualquier miembro de la compleja / proceso esencial para la función de que Complejo / proceso. También es posible que la única proteína de ser parte de un complejo o un proceso, de manera que estos motivos pueden a su vez ser la firma de un concepto más amplio de "compensación complejos y procesos de tema, que examinamos más adelante.

Además de los conjuntos de motivos descritos anteriormente, existen cinco motivos que no categorizar (Figura 1h]. Estos son especialmente interesantes, ya que pueden representar fenómenos biológicos desconocidos (que se describe más adelante en la discusión).

Cuatro motivos de la red-nodo correspondiente a la "compensación complejos y procesos" en el tema de la red integrada

Hay más de 5000 diferentes conectado cuatro nodo de interconexión con los patrones de cada par de nodos en la mayoría de salvarse por un tipo de vínculo. En este sentido, nos hemos centrado en un subconjunto de los cuatro patrones de nodo de especial interés. Recordando la "compensación de proteínas complejas y / proceso" tema (Figura 1g], en la que una proteína ha función compensatoria con otras proteínas en un complejo o de un proceso, que se pregunta si también existe una red temática correspondiente a un par de complejos y procesos Con función compensatoria (conectados entre sí por muchos eslabones de SSL o de la interacción de homología de secuencia). Se realizaron búsquedas en los cuatro nodos de interconexión que se adapte a los patrones de esta "compensación complejos y procesos' tema (hay un total de 66 patrones de este tipo - para ver la lista completa de ficheros de datos adicionales 3). Cada modelo está compuesto por dos pares de nodos tal que una proteína-proteína interacción o correlación expresión vínculo existe dentro de cada pareja y de homología de secuencia SSL o ampliar los vínculos entre los dos pares (Figura 2]. Utilizando un mil aleatorizado para evaluar las redes de significado, el 48 de las 66 que corresponden a los patrones de este tema se consideraron motivos de la red definida por enriquecimiento significativo (p <0,001) en la red real (véase la figura 2 en el caso de algunos ejemplos y datos adicionales Archivo 3 para una lista completa). Esto apoya la hipótesis de que nuestros pares de compensatoria o complejos procesos son un tema integrado en el S. Cerevisiae red. El retículo endoplasmático (ER) subcomplex translocación de la proteína [33] y el Gim complejas [32], conectado por SSL muchas interacciones [4], junto ilustrar este tema. Este ejemplo también abarca la "compensación de proteínas complejas y / proceso" tema presentado en la figura 1g, en el que múltiples conexiones SSL o homología conectar Sec72 y el complejo Gim.

Un mapa temático de los complejos de compensatoria

Con el fin de identificar nuevos pares de complejos de proteínas con la superposición o la función compensatoria, que dictó un mapa de la red en términos de la "compensación complejos". Este mapa puede servir también como una guía de la 'redundantes de los sistemas integrados en el S. Cerevisiae red, en el que dos complejos de proporcionar al organismo a la robustez con respecto a la mutación al azar cuando cada complejo actúa como un 'mecanismo de fallos' de la otra. Para generar un mapa temático de compensatorios complejos, en busca de pares de complejos de proteínas con muchas inter-SSL interacciones complejas. Con este fin, que sólo considera los vínculos de interacción proteína-proteína y SSL interacción y la reducción de la red original a una en la que los nodos son los complejos vínculos y las interacciones son SSL (con múltiples enlaces entre permitió un par de 'colapsado' nodos). Para cada par de complejos de proteínas, se calculó el número de vínculos entre ellos y se evaluó la importancia de enriquecimiento (véase la sección de Materiales y métodos para más detalles). Entre los complejos de los 72 examinados (para obtener una lista de los complejos de ver más datos de archivo 1), se encontraron 21 pares de los complejos (en relación con 26 complejos; adicionales que figuran en el archivo de datos 4), que muestra el enriquecimiento significativo (p ≤ 0,05) para inter-SSL complejas interacciones . Estos complejos de compensación puede ser visualizada como un mapa temático en el que cada nodo representa una proteína compleja y cada uno de los vínculos de un par de puentes complejos conectados por un importante número de interacciones SSL (Figura 3].

Un mapa temático de regulonic complejos

Otros temas presentado en la figura 1, que podría ser explotado con provecho para generar un mapa simplificado de incluir la temática "regulonic complejo 'tema (Figura 1c], en el que un factor de transcripción (TF) regula varios miembros de una determinada proteína. Ese fenómeno se ha observado anteriormente [34]. Aquí, proporcionamos un procedimiento automatizado para dibujar el mapa en términos de esta red temática. Con este fin, se examinaron todas las posibles parejas de un factor de transcripción con una determinada proteína (en conjunto, un "complejo de la carretera TF-par '). Hemos reducido de la red integrada de la estabilidad de las interacciones proteína-proteína transcripcional y reglamentos a uno en el que los nodos son factores de transcripción o complejos y enlaces indicar regulación transcripcional (con múltiples enlaces permitido entre un par de nodos). Para cada par de la carretera TF-complejo, se calculó el número de vínculos entre ellos, y se evaluó la importancia de acuerdo a la probabilidad de obtener al menos el número de enlaces observó si cada factor de transcripción fueron a elegir sus objetivos al azar de reglamentación. Un total de 91 pares de la carretera TF-complejo mostró enriquecimiento significativo (p ≤ 0,05) para la regulación transcripcional enlaces. Estos importantes TF-complejas relaciones también pueden ser vistos como una red cuyos nodos son factores de transcripción o complejos y cuyos vínculos representan TF-complejo con pares enriquecido significativamente la regulación transcripcional (Figura 4a]. A juzgar por las pruebas experimentales, muchos de los enlaces que conectan los factores de transcripción y de los complejos de proteínas que participan en el mismo proceso biológico, y de los complejos relacionados con la función a menudo conectados a la misma factor de transcripción (Figura 4b].

Discusión

Motivos de la red han sido previamente tratado en simples redes [5 - 7, 10, 11] y, recientemente, en una red integrada de la regulación transcripcional y la interacción proteína-proteína [9]. En este estudio, tratamos motivos de la red en una forma integrada S. Cerevisiae red con cinco tipos de interacción biológica. Se identificaron muchos motivos considerablemente enriquecido, que se dividen en varias clases con distintas implicaciones biológicas, lo que demuestra la interacción de los diferentes tipos de interacción biológica en la red local de los barrios. Anteriormente, los motivos han sido descritos como bloques de construcción elementales de redes complejas [5 - 7, 9, 11]. Aquí se describe la red temas - recurrentes de orden superior que abarcan las modalidades de interconexión de múltiples ocurrencias de motivos de la red. Nos muestran que la abundancia de la mayoría de los motivos integrados en el S. Cerevisiae red puede ser explicado en términos de una red temática.

Red temas representan un nivel más fundamental de la abstracción que a menudo puede ser preferible a motivos de la red por varias razones. Motivos de la red se han definido con artificiales restricciones en el número de nodos y la interconexión de las pautas específicas, y de genes o tríadas tetrads correspondiente a estos motivos a menudo no existen en forma aislada en la red. Más bien, a menudo se superponen en gran medida entre sí para formar las estructuras de orden superior que corresponde en muchos casos a fenómenos biológicos conocidos, que es apoyada por observaciones de otros estudios [9, 10]. Este fenómeno sugiere que los motivos a menudo no son 'atómica' elementos de la red, sino que las firmas o síntomas de la más fundamental de estructuras de orden superior, o de la red temas. Aunque muchos motivos puede ser explicado en términos de temas de orden superior, algunos motivos de la red tiene una función elemental que se conserva aún cuando ese motivo se inserta dentro de un tema más amplio. Esto se demostró, por ejemplo, por Alon colegas y coherente para el feed-forward loop [35].

Además de la red de temas y motivos muestra en la Figura 1a-g, existen cinco motivos que no categorizar (Figura 1h]. Cada uno de estos motivos contiene: una regulación transcripcional enlace, con un tercer nodo de conexión al factor de transcripción y su objetivo a través de dos estables interacción física (motivo H1), dos enlaces de homología de secuencia (motivo H2), un vínculo de expresión y la correlación de homología de un vínculo , Respectivamente (motivo H3), un enlace y una homología correlación expresión enlace, respectivamente (motivo H4), o dos enlaces correlacionados expresión (motivo H5). Dado que la interacción física enlaces son en su mayoría transitivo, motivo H1 indica que factores de transcripción a menudo conjuntamente con el complejo de proteínas que regulan objetivo, y propone un mecanismo de retroalimentación a través de la regulación de la transcripción interacción proteína-proteína. Motif H2 implica homología de secuencia entre un factor de transcripción y su objetivo, teniendo en cuenta la casi transitividad de los vínculos de homología. Tal homología puede parecer inesperado, pero se puede explicar si hay frecuentes de serie la regulación de un factor de transcripción por otro, ya que a menudo comparten factores de transcripción de homología, por ejemplo, en su ADN vinculante dominios. Motif H5 puede ser simplemente debido a la superposición entre la regulación transcripcional vínculos y enlaces correlacionados expresión, y cerca de la transitividad de los vínculos correlación expresión. Las consecuencias de los motivos H3 y H4 son poco claras para nosotros; que podría representar desconoce en la actualidad las tendencias de mecanismo de regulación transcripcional. Abrigamos la esperanza de resolver algunas de estas cuestiones en el futuro mediante la investigación de las funciones de los genes en las subredes correspondientes a los motivos (por ejemplo, si el objetivo de genes en motivo H2 es a menudo un factor de transcripción).

Ambos motivos de la red y los temas representan características de las redes que pueden ser explotadas para predecir las interacciones individuales dado-a veces incierta evidencia experimental. Como recientemente se ha demostrado, la integración de múltiples tipos de pruebas [22, 36 - 38] puede ser utilizado con éxito para predecir las interacciones proteína-proteína y las interacciones genético sintético, o estratificar a ellos por la confianza. Además, el denso barrio local característica de la interacción proteína-proteína red pueden ser explotadas para predecir las interacciones proteína-proteína [39 - 42]. Esta idea, extendido a multi-color motivos de la red, que nos permite hacer predicciones sobre la base de relaciones topológicas participan múltiples tipos de enlaces. En particular, podemos predecir un determinado tipo de relación entre un par de nodos si su adición de una estructura completa equiparación enriquecer red motivo. Por ejemplo, dos genes comunes con SSL interacción socio pueden tener mayor probabilidad de interacciones proteína-proteína, debido a la adición de una proteína-proteína interacción vínculo entre estos dos genes resulta en una coincidencia con motivo G1 (Figura 1g]. Asimismo, un enlace SSL entre dos genes pueden completar una coincidencia con motivo G1 si los dos genes están conectados a un tercer gen de una proteína-proteína interacción y un vínculo SSL vínculo, respectivamente (Figura 1g]. Ese "dos-hop físico-SSL 'relación ha sido recientemente demostrado ser un fuerte predictor de la interacción SSL [38]. Una interacción también se puede predecir si su Además cabe en una red recurrente tema. Por ejemplo, hay considerablemente enriquecido SSL interacciones entre la proteína ER-subcomplex translocación Gim y el complejo (Figura 2]. Sin embargo, el SSL no se han observado interacciones entre Sec62 o Sec63, dos miembros de la translocación de la proteína ER subcomplex y cualquier proteína en el Gim complejo porque Sec62 y Sec63 no fueron utilizados como consultas en el SGA análisis [4]. Por lo tanto, la hipótesis que ha Sec62 o Sec63 SSL interacciones con muchos miembros de la Gim complejo.

Además, desde temas representan a la organización en red en el plano funcional, también pueden ser utilizados para predecir funciones de los genes implicados en un tema específico. Por ejemplo, en el feed-forward tema presentado en la figura 1 bis, la mayoría de los genes regulados por tanto Mcm1 y Swi4 participan en el control o la ejecución del ciclo celular. Por ello, postula que el Yor315w, una proteína de función desconocida, participa en el ciclo celular. Más refinado hipótesis que se puede lograr mediante la incorporación de otro tipo de información como la secuencia de datos y los perfiles de expresión. Las predicciones basadas en la red temas pueden ser robustas con respecto a los errores en los datos de entrada, ya que dependerá de los patrones de conectividad en red amplia barrios en lugar de uno o muy pocos enlaces.

Para evaluar si SSL interacciones de los genes son esenciales enriquecido en subgraphs que concuerden con los motivos, hemos contado, por cada motivo que contenga un enlace de SSL, la fracción de subgraphs con al menos un SSL que implican la interacción de genes esenciales. Los resultados se resumen en el archivo de datos adicional 2. En el análisis de SGA, 11 de los 132 genes de consulta son esenciales. Entre las interacciones 3060 SSL, 322 de ellos (10,5%) la participación de un elemento esencial de genes. Resultados de los motivos de la red son en su mayoría compatibles con esta frecuencia de la esencialidad: en la mayoría de los motivos (E1, E2, E3, G1, G4 y G5), aproximadamente el 10% de la correspondiente subgraphs contener SSL interacciones entrañe la participación de un gen esencial (véase el archivo de datos adicionales 2). Es interesante, sin embargo, que se pongan en venta subgraphs motivos F1 y F3 están especialmente enriquecida con SSL interacciones de los genes esenciales (36,4% y 24,4%, respectivamente). Esto sugiere que las interacciones SSL dentro de un complejo de proteínas pueden a menudo la participación de los genes esenciales.

Cada red tiene un tema diferente implicación biológica, y cada uno permite una simplificación natural de la red integrada. Para demostrar esto, nos produce mapas temáticos de compensatoria y de los complejos de regulonic complejos. El mapa de compensación de complejos de proteínas específicas de los complejos se identifican con la superposición o la función compensatoria. Muchos de los enlaces que conectan funcionalmente relacionadas complejos, como el apoyo de evidencia experimental anterior. Por ejemplo, el complejo de replicación, es "genéticamente conectado" a la Mre11/Rad50/Xrs2 complejas [43], la Rad54-Rad51 complejas [44], y la Rad17/Mec3/Ddc1 complejo [45]. Las dos primeras función en la reparación de ADN de doble filamento pausas [44, 46] y la tercera es necesaria para puesto de control del ciclo celular de control después de los daños del ADN [47], ambos de los cuales están asociados a la replicación del ADN. La histona deacetilasa B (HDB) complejo [48, 49] está vinculada a la SAGA complejo [50]; ambos afectan acetilación de histonas y son componentes importantes de la regulación transcripcional [51]. También hay algunos enlaces interesantes, pero no verificada, como la que entre el Gim complejo [32] y la CCAAT factor vinculante [22], que conecta dos aparentemente inconexas complejos (Figura 3]. El posible relación funcional entre estos complejos espera más experimental de validación.

Novela predicciones para enfermos o sintéticas letales interacciones se pueden realizar desde el mapa temático de compensatoria complejos. En concreto, podemos predecir cualquiera de las dos proteínas para tener una interacción SSL si son miembros de dos complejos de superarse mediante un enlace en el mapa. Hay 1134 tales pares de proteínas que no se habían probado previamente por el SGA estudio utilizada para obtener la indemnización compensatoria complejo mapa. Se buscaron validación independiente de estas predicciones publicadas entre los de menor escala estudios genéticos de la interacción. Estamos estimación conservadora de que el 10% de estas parejas se ha examinado de interacción genético (nota que Tong et al. [4], el mayor estudio sistemático hasta la fecha, examinadas sólo aproximadamente el 4% de todos los pares de genes). Por lo tanto, tal vez la única esperanza para encontrar validado unos 113 pares (10% de las predicciones 1134). Tong et al. [4] observó la tasa de referencia de la interacción que se SSL 0,5%, de modo que por casualidad se espera encontrar menos de una interacción SSL (0,5% del 10% de 1134). Nuestra búsqueda bibliográfica reveló diez pares de genes conocidos con SSL interacciones entre las predicciones: Arp2-Myo1 [52], Vrp1-Myo1 [53], Las17-Myo1 [54], Bem1-Myo1 [54], Rvs167-Myo1 [55], Rvs167-Myo2 [55], Smy1-Pfy1 [56], Rad50-Cdc2 [57, 58], Rad54-Cdc2 [57], y Rad51-Cdc2 [58]. A partir de esta estimación conservadora, una tasa de éxito de alrededor del 9%, lo que demuestra el valor del mapa temático en la predicción de nuevas interacciones SSL. Nuestro uso del mapa temático de predecir las interacciones genético difiere de la anterior predicción enfoque basado en dos-hop interacciones físico-SSL [38] en el que aquí nos exige una mayor abundancia de SSL interacciones entre dos complejos de proteínas que se esperaría por casualidad, Mientras que el trabajo previo no explotar el número de observaron dos-hop interacciones físico-SSL. Además, el mapa temático enfoque tiene el potencial genético para predecir la interacción entre dos genes si ni siquiera tiene algún gen previamente conocido SSL interacciones.

Con la elaboración de un mapa temático de la compensatorios complejos, el poder estadístico fue limitado debido a que sólo el 4% de los pares de genes de levadura que han sido examinados por las interacciones genéticas sintéticas [4]. Muchos compensatorios complejo pares han escapado a la detección porque muy pocos complejos de proteínas-entre pares han sido probados para SSL para alcanzar significación estadística. Esperamos que este mapa de crecer sustancialmente en gran escala como los estudios genéticos de la interacción proceder [59]. En organismos superiores para que exhaustiva determinación de la interacción genética es un objetivo más lejano, podemos avanzar en nuestra comprensión más rápida de la elección de un 'andamiaje' conjunto de genes de tal manera que cada uno sabe o hipótesis de proteínas complejas o vía está representada por al menos una consulta de genes SSL en una pantalla.

Materiales y métodos
La construcción de una estrategia integrada S. Cerevisiae red

Sintéticas genéticos interacciones entre los genes y 132 de consulta acerca de los genes gama 5000 se obtuvieron de una reciente gran escala en el análisis SGA S. Cerevisiae [4]. Genoma escala BLAST [12] se realizó con todas las secuencias de proteínas de levadura. Pares de proteínas E con valores de menos de 10 -3 fueron consideradas homólogas. Pearson coeficientes de correlación se calcularon para todos los pares de las proteínas de levadura basado en el compendio de Rosetta microarrays de datos [13]. Pares de proteínas con coeficientes de correlación mayor que 0,6 se consideraba que tenían una correlación de expresión. Complejos proteicos se obtuvieron del MIPS [14] y dos bases de datos a gran escala de purificación de afinidad estudios [15, 16]. Todos los pares de las proteínas que residen en el mismo complejo se considerarán estables interacciones proteína-proteína. Regulación transcripcional se infiere de todo el genoma de la ChIP estudios de la levadura de 106 factores de transcripción [7]. Si un factor de transcripción se une a la región promotora del gen B con un valor de p menor de 0,001, luego un regulador transcripcional dirigida vínculo se asigna de Aa B.

La detección de motivos de la red

Estamos todos conectados enumeró tres subgraphs nodo en la red como ha sido descrito previamente [5]. Para cada interconexión patrón definido por uno de los enlaces entre cada par de nodos, que registran el número de subgraphs coincide con este patrón en la verdadera red, así como en todas las redes al azar. Un subgraph se considera un 'match' a la pauta si el subgraph pueden transformarse en el patrón por cualquier combinación de nodo identidad permutaciones o vínculo mudanzas. El valor de p para el enriquecimiento de un modelo de interconexión es definida por la fracción de las redes de azar que tengan por lo menos el número de subgraphs como la equiparación real de la red.

La generación de redes de azar

Diferentes tipos de interacciones en la red integrada independiente fueron asignados en forma aleatoria, y luego superpuestas para generar un color aleatorio multi-red. Para cada tipo de interacción, hemos aplicado un método anteriormente descrito [60] a partir de la muestra aleatoria de un conjunto de redes con la propiedad de que el grado previsto de cada nodo es el mismo que su grado real en la red. Esas muestras de un método uniforme de las redes con la misma secuencia. El fugacities - control de los parámetros el grado previsto para cada nodo [60] - fueron obtenidos en la multidimensional método de Newton-Raphson.

Enlaces en la red de regulación de la transcripción son direccionales, procedentes de la regulador transcripcional y termina en la meta de genes. Hemos distinguido dos tipos de grado para cada nodo - en el grado (el número de enlaces que en el nodo final) y el de grado (el número de enlaces que se originan en el nodo). Luego de la muestra aleatoria de un conjunto de redes [60] tal que la espera-en el grado y en grado de cada nodo en el conjunto son los mismos que los correspondientes en-grado y grado de fuera, respectivamente, en la red real. Tal procedimiento de aleatorización preservado la direccionalidad de los enlaces de regulación transcripcional.

SSL nodos de la red se puede dividir en tres categorías mutuamente excluyentes - genes que se utilizaron como consulta y variedad de genes en el análisis de la SGA (señalados como "sugerencias / array 'genes), los genes que se utilizará tan sólo como consulta genes (marcadas Como "consulta-sólo los genes), y los genes que se utilizará tan sólo como conjunto de genes (señalados como" gama-sólo los genes) [4]. Dado que un vínculo SSL sólo puede existir entre una consulta de genes (es decir, ya sea una "consulta / array 'gen o una" consulta-sólo los genes) y de un conjunto de genes (es decir, ya sea una "consulta / array' o de un gen 'Array de sólo' de genes) [4], que se descompuso la red SSL en tres sub-redes - una "consulta / array ↔ consulta / array 'sub-red que contenga únicamente las« sugerencias / array' genes, una "consulta - Sólo ↔ consulta / array 'sub-red que contenga únicamente las «consulta-sólo los genes y' sugerencias / array 'genes, y una" consulta ↔ gama-sólo los sub-red que contenga sólo los vínculos entre' consulta 'genes (que se , En cualquiera de las opciones de consulta / array »o« sólo de consulta 'genes) y en "sólo" genes. Cuando se asignaron al azar a cada uno de los tres sub-redes, sólo vínculos entre los grupos especificados gen se permitió (por ejemplo, en la 'consulta ↔ gama-sólo los sub-red, sólo vínculos entre la' consulta 'los genes y en "sólo" genes Se permitió al azar en la red). Un estudio aleatorizado SSL red fue generado por superposición de tres sub-redes al azar, uno de cada tipo. El procedimiento que antecede a la inspección preservado sesgo de la SGA método, y prohíbe cualquier vínculo que nunca podrían ser observado basado en el diseño de experimento.

Creación del mapa temático de los complejos de compensatoria

Para generar un mapa temático de compensatorios complejos, la red integrada de la proteína que contiene enlaces SSL interacción de la SGA análisis [4] y estable proteína-proteína interacción de los vínculos de las MIPS complejo catálogo [14] se transformó de una red de complejos de proteínas mediante la fusión de múltiples Nodos pertenecientes a la misma proteína en un solo nodo. Los nodos que no pertenecen a ningún complejo de proteínas conocidas fueron retirados, junto con sus correspondientes enlaces SSL. Unos pocos errores en el complejo MIPS catálogo se corrigieron, y algunos complejos de la lista redundante se fusionaron (para la lista definitiva de los complejos de ver más datos de archivo 1). Esto generó un multi-gráfico en el que se permiten múltiples vínculos entre dos nodos. Para cada par de complejos, que registran el número de conexiones entre ellos, y calculó que la probabilidad de obtener un igual o mayor número de enlaces de cada proteína fueron de elegir su interacción SSL aleatoriamente entre todos los socios con derecho proteínas. Aquí dos proteínas son elegibles socios interacción el uno para el otro, si la pareja se ha puesto a prueba por el método SGA [4], y ambos tienen al menos un socio observó SSL transformado en la red. La naturaleza de la red SSL, presentó experiencias de la SGA, complica el análisis, porque sólo se probaron interacciones entre 'consulta' de genes y cada uno de los 5000 más o menos "en antena" genes [4]. Para cada complejo, por lo tanto, algunos vínculos originarios con una consulta de genes en el complejo y terminar con una pregunta fuera de los complejos de genes, algunos enlaces conectar una consulta de genes dentro de la compleja y no consulta fuera de los complejos de genes, mientras que otros no vínculo - Consulta de genes dentro de la compleja y una pregunta fuera del complejo de genes. Por lo tanto, cada complejo tiene tres tipos diferentes grados, y el número total de enlaces entre dos complejos sigue una distribución correspondiente a la suma de tres distribuciones hipergeométricas. Los valores de p se calcularon sobre la base de este compuesto distribución. Un par de complejos se conecta en el mapa si el valor p es inferior a 0,05 y hay dos o más compleja entre los enlaces SSL.

Creación del mapa temático de regulonic complejos

La red integrada de la proteína que contiene enlaces dirigidos regulación transcripcional del genoma a escala ChIP estudio (con un valor de umbral de p 0.005) [7], y estable proteína-proteína interacción de los vínculos de las MIPS complejo catálogo se transformó a una red de factores de transcripción y Complejos de proteínas por el colapso de nodos pertenecientes a la misma proteína en un solo nodo. Pares de complejos que se superponen en más de un 50% se fusionaron. Esto genera un multigraph en el que se permiten múltiples vínculos entre dos nodos. Para cada par de la carretera TF-complejo, que registran el número de conexiones entre ellos, y calculó que la probabilidad de obtener al menos el mismo número de enlaces de cada nodo de su interacción socios eligieron al azar. Se calcularon los valores de p de acuerdo a la distribución hipergeométrica acumulativo. Un par de la carretera TF-complejo está conectado en el mapa si el valor p es inferior a 0,05 y hay dos o más vínculos entre el regulador y el complejo TF.

Adicional de los archivos de datos

Los siguientes cuadros de motivos complejos de proteínas y se proporcionan como datos adicionales ficheros: fichero de datos adicionales 1 es un archivo comprimido que contiene los cinco tipos de interacciones biológicas integrado en el S. Cerevisiae red, así como las listas de MIPS complejos utilizados para generar la Figura 3 y Figura 4; adicional archivo de datos 2 enumera los tres nodos de interconexión patrones examinados; adicional archivo de datos 3 se enumeran los cuatro nodos de interconexión patrones examinados; archivo de datos adicional 4 enumera todos Complejos en la figura 3; adicional archivo de datos 5 se enumeran todos los factores de transcripción en la Figura 4; archivo de datos adicional 6 listas de todos los complejos de proteínas en la Figura 4.

Material suplementario
Adicional 1 archivo de datos
Un archivo zip que contiene los cinco tipos de interacciones biológicas en el integrado
S. cerevisiae
Red, así como las listas de MIPS complejos utilizados para generar la figura
3
Y Figura
4
Adicional archivo de datos 2
Los tres nodos de interconexión patrones examinados
Datos adicionales archivo 3
Los cuatro nodos de interconexión patrones examinados
Datos adicionales archivo 4
Todos los complejos en la figura
3
Datos adicionales de archivo 5
Todos los factores de transcripción en la figura
4
Adicional archivo de datos 6
Todos los complejos de proteínas en la figura
4
Agradecimientos

Damos las gracias a G. Berriz, F. Gibbons, M. y Z. Umbarger Wunderlich para observaciones críticas del manuscrito. LVZ fue apoyada por Fu y Ryan Becas. ODK, SLW, DSG y el apoyo de NRSA (NHGRI), Ryan, y las becas NSF, respectivamente. Además, esta labor fue apoyada por un subsidio del HHMI institucional (IFE), el Fondo de Milton de la Universidad de Harvard (SLW y FPR), y los subsidios del CIHR (BA y CB), Genoma Canadá (BA, BC y HB), Genoma Ontario (BA y CB), y de Genoma Quebec (HB).