Genome Biology, 2005; 6(4): R35-R35 (más artículos en esta revista)

Un evolutivo y evaluación funcional de regulación de motivos de la red

BioMed Central
Aurélien Mazurie (aurelien.mazurie @ oenone.net) [1], Samuel Bottani (bottani@paris7.jussieu.fr) [2], Massimo Vergassola (massimo@pasteur.fr) [3]
[1] Laboratoire de Génétique Moléculaire de la Neurotransmission et des procesamiento Neurodégénératifs CNRS UMR 7091, CERVI La Pitié, 91-105 Boulevard de l'Hôpital, 75013 París, Francia
[2] Groupe de Physique Modélisation Interfaces y Biología-CNRS UMR 7057 "Matières et Systèmes Complexes", Université Paris 7, 2 lugar Jussieu, 75251 Paris Cedex 05, Francia
[3] Unité Génomique des Microorganismes Pathogènes, URA CNRS 2171, el Departamento de Estructura y Dinámica de Genomas, Institut Pasteur, 28 rue du Dr Roux, F-75724 Paris Cedex 15, Francia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Cruz-especie de comparación y análisis funcional de los motivos más abundantes en una red integrada de transcripcional de levadura y proteína-proteína interacción de los datos demostró que la excesiva abundancia de los motivos de la red no tiene ningún inmediata homólogo funcional o evolutivo.

Antecedentes

Mundial de la interacción son sintéticamente los datos estructurados como redes, en representación de sus nodos de los genes de un organismo y sus vínculos algunos, generalmente indirecto, la forma de interacción entre ellas. Este tipo de schematization es claramente importante que conllevaría la desaparición de los aspectos detallados de la dinámica biológica, tales como localización en el espacio y / o tiempo, modificaciones de la proteína y la formación de multímeros complejos, que se han agrupado en un enlace. En vista de estas limitaciones, una importante cuestión abierta es la de si la columna vertebral de la red de interacción proporciona consejos útiles en cuanto a la organización de la red de interacciones celulares. Una primera observación en este sentido es que la topología de las redes de interacción biológica firmemente difiere de la de los gráficos al azar [1]. En particular, las redes de regulación transcripcional cuando se comparan con las versiones al azar, algunos subgraphs especial, denominado motivos, han demostrado ser estadísticamente más representadas [2, 3]. Un ejemplo de un motivo compuesto de tres unidades es el feed-forward loop, su nombre está heredado de redes neuronales, que este patrón es también abundante.

Factores de transcripción actúan a menudo en multímeros complejos y la formación de estos desempeña un papel crucial en la dinámica de reglamentación. Con el fin de capturar al menos una parte de esos efectos, transcripcional redes pueden ser integradas con las interacciones proteína-proteína que los datos disponibles se han convertido recientemente en [4 - 7]. Un ejemplo de ello en la red mixta construida en [8]. La red es mixta en el sentido de que incluye tanto la dirección y no los bordes, perteneciente a la transcripción y las interacciones proteína-proteína, respectivamente. Los motivos para las redes mixtas fueron investigados en [9].

La dinámica de los motivos ha sido investigado a fondo los estudios in vitro e in silico, es decir, en ausencia del resto de la red y la interacción de nuevos mecanismos de regulación [10 - 12]. Por ejemplo, el feed-forward loop tiene notables propiedades de filtrado, con el río abajo de genes regulados activada sólo si la activación de la mayoría de regulador de aguas arriba-es lo suficientemente persistente en el tiempo. El motivo esencialmente actúa como un filtro pasa bajos, con un tiempo de escala comparable a la demora para producir la proteína intermedia. Además, la misma estructura se encuentra también en la rapidez para ayudar a la desactivación de los genes, una vez que el regulador de aguas arriba se apagará. Sobreabundancia de motivos y su interpretación como la información básica de las unidades de procesamiento popularizó la hipótesis de una selección evolutiva de los motivos [2, 13].

En los circuitos de la ingeniería eléctrica, una abundante estructura es probable que corresponden a un módulo que realiza una tarea específica y funcional de los actos de una manera independiente en gran parte del resto de la red. El punto es discutible para redes biológicas. En una reciente observación es que algunos de los motivos encontrados en transcripcional redes son también encontrados en las redes aleatorias artificial [14, 15], en la que no está actuando de selección. Sin embargo, la lista de motivos no coinciden plenamente para los dos casos [16]. Un hecho llamativo visualmente es esencialmente que ninguno de los motivos existe en el aislamiento y que hay muy mucho de borde de compartir con otros patrones (ver [17] para la red de Escherichia coli). La función de los motivos podría ser fuertemente afectado por su contexto. El uso de algoritmos genéticos para explorar la posibilidad de que las estructuras orgánicas realizar una determinada tarea, de hecho, ha mostrado una amplia variedad de posibles soluciones [18].

Por lo tanto, es de interés para abordar la cuestión de la función de los motivos in vivo, que se encuentra dentro de la totalidad de la red, y examinar las consiguientes limitaciones evolutivo. En el siguiente, vamos a demostrar que las instancias de los motivos de la red no están sujetos a ninguna presión evolutiva que debe ser conservado y analizar la información biológica disponible sobre las vías en que algunos casos de motivos se encuentran.

Resultados
Lista y anotación de los motivos de la red

El primer paso en el análisis de los motivos de la red es su identificación, tal como se describe en detalle en Materiales y métodos. Los patrones cuyo número de cuenta en la red real se encuentra significativamente a desviarse de los valores típicos encontrados al azar en el conjunto de la red se muestra en la Figura 1 (a la representación genérica de todos los genes de tres patrones, independientemente de su importancia estadística se da Datos adicionales en el archivo 1). El orden de los patrones que hemos examinado son n = 2 y n = 3, donde n es el número de genes del patrón (ver Materiales y métodos para el caso de la libre interacción).

La lista incluye la transcripción puramente feed-forward loop, investigado en [10 - 12], y su versión ampliada con una interacción proteica [9]. La lista general es bastante similar a la que se encuentra en [9], con la única excepción de la libre interacción proteica, que no se tuvieron en cuenta. Información general sobre los motivos se obtiene buscando en los procesos biológicos, funciones moleculares y celulares que los componentes de los genes que se encuentran en sucesos de la Figura 1 se han anotado motivos (ver archivos de datos adicionales 1 y 2].

Vamos a primera observación que los diversos motivos de los casos el 25% de todos los genes como factores de transcripción anotada en el MIPS / FunCat y GeneOntology bases de datos (GO). Las anotaciones obtenidas utilizando la antigua base de datos indican que el 34% de los genes implicados en motivos son anotado como implicados en la regulación transcripcional y el 31% en el control directo de la transcripción, y que el 51% de los genes tienen sus productos localizados en el núcleo.

Estos valores deben ser comparado con el 5% de todos los genes anotados de control transcripcional en cualquiera de los dos o FunCat GO y el 30% de localización nuclear para todos los genes anotados. Otra observación relevante es que los factores de transcripción se encuentran en 93% y 11%, respectivamente, de los nodos con un saliente y un enlace ingoing transcripcional. Esto es, de hecho, el comportamiento esperado de los genes en una red transcripcional. Estos resultados demuestra la coherencia de la transcripción y la interacción proteína-proteína de datos utilizadas para la búsqueda de los motivos y las anotaciones publicadas.

En cuanto a la función de los genes que componen la red de motivos, la lista de los más representados los procesos biológicos, como anotada en la base de datos de MIPS, es el siguiente: el 50% de los genes están involucrados en el metabolismo, el 34% en la transcripción, en el 21% Ciclo celular y el ADN de procesamiento, el 12% en la interacción con el medio ambiente celular (10% en la detección y respuesta celular), el 10% en el transporte celular y el 9% en el rescate y defensa.

Como se muestra claramente en la figura 2, los motivos son por lo general más grandes en la interacción combinado sub-redes. Entre los 504 casos de los motivos en la Figura 2, sólo cuatro se producen en forma aislada, mientras todos los demás comparten genes y / o bordes. Esto también es evidente si tenemos en cuenta que sólo 256 genes diferentes componen el motivo 504 casos; 1487 genes diferentes sería posible si los casos son disjuntos. Compartidas bordes y / o de los genes y las formas de interacción no está incluido en nuestra base de datos es probable que fuertemente afectan a la función de los motivos, que plantea la cuestión de su papel in vivo. Este será el objeto del análisis presentado en un nuevo documento.

Filogenético perfiles de los motivos de la red

Para determinar la presencia de cualquier presión evolutiva especiales que actúan para preservar excesivamente representados los patrones, hemos realizado un análisis comparativo entre la proteína Saccharomyces cerevisiae y los cuatro hemiascomycetes Candida glabrata, Kluyveromyces lactis, Debaryomyces hansenii y Yarrowia lipolytica, recientemente secuenciado en [19]. El hecho de que los cuatro organismos comparten muchas similitudes funcionales con S. Cerevisiae y, sin embargo, abarcan una amplia gama de distancias evolutivas, comparable a la de todo el filo cordados, les hace ideales para la proteína comparaciones. Detalles de la comparación de secuencias se presentan en Materiales y métodos.

Anteriores estudios sobre la evolución motivos han explorado la presencia de antepasados comunes en diferentes casos de los motivos. El resultado fue que los diversos casos, no es probable que hayan surgido por las sucesivas duplicaciones de un patrón ancestrales [20]. En este sentido, consideramos que otra basada en la estadística de los perfiles filogenéticos [21] de los genes dentro de los motivos. Los perfiles se construyen teniendo en cuenta un conjunto de organismos y mirando el co-ocurrencias en la comparación de los genes de los organismos que componen el patrón de interacción. Esto es cuantificado por la fragilidad evolutivo, M i (tal como se define en los materiales y métodos), de la interacción patrón i. Un pequeño valor de la fragilidad indica que los genes que componen el patrón de co-tienden a ocurrir en el otro frente los organismos, indicando a una presión evolutiva para preservar la estructura y en su importancia funcional. Vamos a comparar las estadísticas de evolución de la fragilidad de las diferentes clases de los patrones de interacción, lo que constituye una prueba de la importancia evolutiva de la sobreabundancia de criterio utilizado para identificar motivos de la red.

Concretamente, en la figura 3 que el informe normalizado histogramas de las fragilidades F i evolutivo de tres clases diferentes de los patrones de interacción integrada por tres nodos: los patrones que son los casos de los motivos, y todos los patrones de interacción, independientemente de su abundancia, y compuesto por los patrones Genes tomadas al azar. Hay 481 casos de motivos en un número total de 9962 patrones en la que había tres nodos. Restando los 481 del conjunto global no modifica las conclusiones extraídas de la Figura 3. El histograma de los genes tomadas al azar es claramente diferente de las otras dos, como se esperaba. El punto que nos interesa aquí es que no hay diferencias estadísticamente significativas entre las dos primeras clases de los patrones, como se cuantifica por un test χ 2, que da χ 2 = 4,454 y una probabilidad de 0,348 de cola. Esto apoya claramente la hipótesis de que la serie de datos de los dos histogramas proceden de la misma distribución. La conclusión de nuestro análisis comparativo es que los casos de motivos de la red especial no se someten a la presión evolutiva en comparación con un patrón de interacción genérica.

Función en vivo de las realizaciones de los motivos

Biológica información actualmente disponible no es suficiente para determinar la función in vivo de todas las ocurrencias de los motivos anteriormente encontrados. Algunas de ellas son, sin embargo, coloca bien estudiados dentro de las vías y, en particular, en algunos de ellos se encuentran en el interfaz entre dos bloques, uno responsable de la transmisión de una señal y el otro para la transformación. Dos ejemplos son las sub-redes de la síntesis de la metionina (MET) y nitrógeno represión catabólica (NCR), que se muestra sombreada en la figura 2, y con más detalle en la figura 4. El primero, que participa en la síntesis de metionina, recibe una señal de la concentración de la S-adenosylmethionine (AdoMet), un metabolito final de la vía de aminoácidos de azufre, y los controles de genes que codifican enzimas que participan en el itinerario. La sub-red de NCR, que participan en el metabolismo de nitrógeno, recibe una señal a través de la proteína Gln3p, que se pone a disposición ricos en nitrógeno cuando se agotan las fuentes, y los controles de genes que codifican enzimas y transportadores capaces de explotar fuentes alternativas.

La importancia de estas vías ha hecho biológico detallada información sobre sus funciones disponibles. La interfaz de localización de los casos identificados de los motivos plantea la esperanza de que pudieran estar implicados en la dinámica del procesamiento de la información y, en particular, que el tiempo de filtro de las propiedades mencionadas anteriormente puede ser explotado para controlar el tiempo de respuesta de procesamiento de la Señal externa. Conocer este comportamiento fue nuestro motivo de la investigación del funcionamiento detallado de cada una de las vías. Presentamos aquí los principios básicos de regulación de los mecanismos involucrados en los caminos elegidos, en referencia al lector a la literatura citada para un tratamiento detallado. Aquí estamos interesados en la identificación de la posible función de los motivos en las funciones biológicas.

La vía de la metionina

Sub-red MET en los gráficos 2 y 4 bis gráfico muestra la interacción del grupo de genes que interactúan centrado en CBF1, MET4 y MET28. En el gráfico que incluye tres motivos de tipo II.2, cinco de tipo III.5 y III.7 uno de tipo (véase la figura 1 motivo de tipos). La biosíntesis de metionina red ha sido investigado a fondo [22 - 25] y un detallado modelo biológico de la vía ya está disponible. Cbf1p, Met4p y Met28p formar un heterotrimer objetivo que activa los genes de la vía de azufre (MET genes). En el interior del complejo, sólo ha Met4p transcripcional de acción directa, con Cbf1p participar en la cromatina reordenación Met28p la inmovilización y el complejo de la DNA. El MET genes son activados por el complejo, pero son reprimidos cuando uno de los metabolitos final de la vía, AdoMet, aumenta. Dos bucles conducir la compleja dinámica de la disponibilidad, esbozado en la Figura 4 bis. Uno de ellos es un bucle: el complejo Met4p regula la transcripción de MET28, su producto estimular la inmovilización de los complejos de ADN. Este lazo es responsable del aumento de la respuesta dinámica cuando la concentración intracelular de AdoMet es baja (la transcripción de MET4 es constitutiva). El otro es un bucle negativo: Met4p controla su propio destino mediante la regulación de la transcripción de MET30. El producto de este último es un ubiquitin ligase, que provoca la degradación de Met4p cuando AdoMet aumentos. Este bucle se espera que el control de alta perjudicial acumulación de AdoMet.

Tenga en cuenta que este último mecanismo post-transcripcional es, por definición, no capturados por la red, que se limita a los reglamentos transcripcional. Además, una limitación intrínseca de las estructuras de la red hay que señalar: los tres proteínas Cbf1p, Met4p y Met28p siempre como un acto complejo. Esta información no sin ambigüedades salir de la topología de la red (Figura 4 bis, izquierda), como la topología también es compatible con los tres proteínas que actúan por separado. En conclusión, las características principales de la vía de síntesis de la metionina no parecen depender de la regulación transcripcional a través de los motivos de los casos se muestra en la Figura 4 bis.

Nitrógeno represión catabólica (NCR) sistema

El sistema de NCR se muestra en las figuras 2 y 4 ter es usado por la célula para controlar la síntesis de proteínas capaces de manejar mal las fuentes de nitrógeno. NCR sensibles a los genes son activados cuando no se dispone de fuentes ricas, que obtienen cuando sólo expresó pobres son fuentes de la izquierda. Dos II.1 y uno II.4 motivos están incorporados en este sistema.

DEH1 y DAL80 son parte de la familia de genes GATA y son conocidos represores transcripcionales, la regulación de represión catabólica de nitrógeno a través de su unión a las secuencias GATA NCR-aguas arriba de los genes sensibles. Durante varios objetivos, los dos represores están en competencia con Gln3p y Gat1p, que son vinculantes transcripcional activadores de las mismas secuencias.

La aceptado mecanismos de NCR son los siguientes ([26 - 28], y véase la figura 4b]. En primer lugar, en presencia de ricas fuentes de nitrógeno (amoníaco y / o glutamina), Gln3p y Gat1p son secuestradas en el citoplasma y puede activar ni NCR sensible a los genes ni DEH1 y DAL80. La consecuencia de la baja concentración de Gln3p en el núcleo es un bajo nivel de expresión de DEH1, DAL80 NCR y sensible a los genes. En segundo lugar, cuando los pobres sólo se dispone de fuentes (como la urea, prolin, o GABA), Gln3p y Gat1p se liberan en el núcleo. La primera activa GAT1 y de las dos proteínas de NCR junto activar genes sensibles. Después de un retraso (debido a la duración de la transcripción y la traducción), Dal80p y Deh1p se expresan y inhiben competitivamente estos mismos genes.

Interesante comportamiento dinámico se lleva a cabo durante una transición de ricos a pobres fuentes de nitrógeno, cuando la célula debe emitir acerca de las fuentes alternativas, lo que implica la síntesis de nuevas proteínas. El importe de estas proteínas sintetizadas debe ser suficiente para garantizar la utilización de nuevas fuentes, sino que, debido al agotamiento de las fuentes de nutrientes, que no debe ser demasiado alto. NCR-sensibles, por lo tanto, los genes son activados sólo por el período de tiempo limitado cuando Gln3p y Gat1p están presentes pero Dal80p y Deh1p no lo son. La retroalimentación negativa de DAL80 sobre su activador GAT1 es el mecanismo que asegure que el comportamiento oscilatorio.

En resumen, la función de los motivos señalados en el sistema de NCR no es evidente y todo el mecanismo de la NCR, en el modelo actualmente aceptada sobre la base de los conocimientos actuales, se puede describir sin hacer referencia alguna a ellos.

Pseudohyphal crecimiento / MAPK sistema de apareamiento

La sub-red HYPHE en la Figura 2 y Figura 4c está formado por un motivo de tipo III.5, con la participación de los dos genes STE12 y TEC1. Estos genes tanto el código de un factor de transcripción y se encuentran aguas abajo de la mitogen-activated proteína quinasa (MAPK) vía de transducción de señales que controla tanto el pseudohyphal crecimiento de la levadura y su apareamiento respuesta a las feromonas. Estas señales transductions constituyen un ejemplo de una vía de señalización compartidos por dos señales diferentes y, sin embargo, responder específicamente a cada uno de ellos. Por lo tanto, es el objeto de investigación detallada y mucho se dispone de datos [29]. La fenomenología del proceso regulador se resume de la siguiente manera: en respuesta a las feromonas, Ste12p se une específicamente a la respuesta de los elementos de feromonas (PRE) de los genes involucrados en el proceso de apareamiento, en condiciones de hambre, un heterodimer compuesto por Tec1p y Ste12p une a los genes Pseudohyphal participan en el crecimiento.

El hecho de que STE12 regula TEC1 plantea la posibilidad de que el cambio entre las dos comparten vías de respuesta a las feromonas y el crecimiento pseudohyphal ser realizada por el ejemplo de la alimentación de avance III.5 motivo HYPHE en la sub-red. Sin embargo, hay pruebas muy claras de que éste no es el caso, la indicación más directa que se presta en [30], donde se demuestra que el nivel de expresión de TEC1 no se correlaciona con el crecimiento pseudohyphal. Trabajo reciente indica que el interruptor está en lugar realizado a través de la fosforilación transcripcional después de los efectos, el control de las dos quinasas Fus3p y Kss1p, y que afectan a la multimerization de Ste12p. Fus3p y Kss1p constituyen la capa final de la MAPK sistema y se activan diferencialmente en las dos vías (véase, por ejemplo [31]].

Reglamento de los primeros genes meióticas

La sub-red en todo IME1 en la Figura 2 y Figura 4 quinquies se II.1 de uno, dos y uno III.5 y III.6 motivos está implicado en la activación de genes temprana meióticas. El proceso de regulación de la entrada en la meiosis y la pronta activación de los genes se ha estudiado con gran detalle y se resume en [32]. En resumen, la vía meióticas en la levadura se inicia con la expresión y la activación de IME1, que sirve como maestro de reglamentación para cambiar la meiosis [33]. Expresión de IME1 requiere de la integración de una señal genética, lo que indica que la célula es diploide, y una señal de nutrición, lo que indica que la célula se moría de hambre. El punto de interés aquí es determinar si el tratamiento de estas señales se lleva a cabo en el nivel transcripcional por las instancias de los motivos en la sub-red. Este no parece ser el caso. El procesamiento de la información es más bien ejecutado por las rutas alternativas y el panorama de las interacciones que aparece en la sub-red CCYCLE en la Figura 2 y Figura 4 quinquies (a la izquierda) parece ser insuficiente y engañosa.

La represión de IME1 por RME1 tiene un importante papel en la celda de tipo de control, y IME1 expresión no implica la regulación de RME1 por el complejo Ume6p-Sin3p, como sugiere el sub-red CCYCLE en la figura 2. Esta se realiza a través de las células de tipo específico a1 y α 2 proteínas, que se combinan en las células diploides y se unen específicamente a los sitios web de la promotora de RME1 para reprimir su expresión [32, 33].

La integración de la señal se procesa de nutrición tanto por IME1 y IME2 y es mucho más compleja de la regulación de tipo de células, sus principales medidas que se están examinado en [34]. Por ejemplo, el promotor IME1 ha separado al menos 10 elementos de regulación. IME2 también está regulada por varias señales, integrados en un único elemento regulador, la represión sitio URS1 aguas arriba, que está obligado por la Ume6p factor de transcripción, en todas las condiciones probadas. La activación de IME1 y IME2 depende de la multimerization de Ume6p con varias otras proteínas reguladas, ya sea positiva o negativamente por al menos dos kinasas, Rim11p y Rim15p. Otros no-transcripcional de genes de los mecanismos de control (como la degradación orientados) parecen también estar implicados en la regulación de este proceso [35]. Los motivos en la sub-red CCYCLE dejar de capturar la complejidad de estas interacciones entrelazadas.

Pleiotrópica resistencia a los medicamentos (PDR) sistema

El PDR sistema es usado por la célula para contrarrestar la acción de un amplio espectro de sustancias tóxicas, mediante la activación de las bombas de eflujo de membrana y la modificación de la composición de la membrana, la concentración de estas sustancias es entonces disminuyó. Dos genes, PDR1 y PDR3, homóloga codifican factores de transcripción [36, 37], que multirresistencia en coche mediante la activación de los genes que participan activamente en el transporte y metabolismo de los lípidos [38, 39].

La sub-red correspondiente (PDR nombrado en la figura 2 y 4 sexies] se compone de ocho motivos de tipo III.1 (el llamado feed-forward loops) y uno de tipo II.1, que muestra una estrella-al igual que con la configuración y PDR1 PDR3 en una posición central.

In vivo, estos dos genes tienen aparente redundancia funcional: apuntan a los mismos genes y la supresión de cualquiera de PDR1 o PDR3 no afecta significativamente el sistema PDR; un efecto sólo se muestra cuando ambos se suprimen [40, 41]. Sin embargo, estos dos factores se utilizan en la respuesta de dos señales diferentes de células: PDR3 es sensible a la actividad mitocondrial, que no es PDR1 [42 - 44]. Por el contrario, PDR1 supresión mutantes son bastante hipersensible de drogas, mientras que PDR3 mutantes no son [41].

Además de esta respuesta de los distintos PDR1 y PDR3 a las señales celulares, el vínculo entre ellos la regulación es débil, y no se ha demostrado la cooperativity para la regulación de sus objetivos se destacó.

Es la RDP sub-red, la III.1 motivos formado por PDR1, PDR3 y sus objetivos son comunes al parecer no explotados por el celular porque PDR1 y PDR3 no son obligatoriamente activos al mismo tiempo y de los requisitos previos para la dinámica específica de la alimentación - Con interés de que no se cumplan los bucles (suficiente regulación de PDR3 por PDR1 y cooperativity sobre los objetivos comunes).

Discusión

La idea detrás de la motivación de la mayoría de los debates sobre los motivos es la posibilidad de capturar la lógica esencial de la regulación genética de un pequeño conjunto de los circuitos de interacción funcional de la realización de algunas tareas específicas. Si bien esta hipótesis es, en principio, comprobables experimentalmente, trabajo experimental y teórico que hasta ahora ha considerado esencialmente motivos de forma aislada, es decir, extirpados de la biológicos entorno en el que los motivos de los casos se insertan.

Se estudiaron en detalle el papel de los motivos en el caso de la mejor documentados genéticos sub-redes y funciones biológicas tales motivos en que se encuentran. En la mayoría de los casos, los motivos no parecen tener una función reguladora en los procesos biológicos asociados con cada ocurrencia. La lista de ejemplos en los que es suficiente la información biológica disponible es, por supuesto, limitados, y otros ejemplos puedan ir en esta foto. En la actualidad, es un hecho que todos los ejemplos estudiados de relieve el alto nivel de integración de los diferentes mecanismos de regulación que actúan en conjunto. La recepción y procesamiento de señales celulares no puede reducirse a la regulación transcripcional y la interacción proteína-proteína cambia. Otros mecanismos, como fosforilación, provocó la degradación, el secuestro y el transporte de proteínas, y de orden superior multimerization son fundamentales a la lógica de las sub-redes. Disentangling información de los circuitos de procesamiento de la transcripción de las reacciones e interacciones entre los factores de transcripción de todo el medio ambiente celular no parece ser posible que los casos examinados. Una impresión cualitativa inferirse a partir de la agregación y visible de anidación de los motivos con el resto de la red es que una "mera" modular comportamiento funcional no es muy probable que se produzca. Esta impresión no se limita a S. Cerevisiae: en trabajos anteriores [17], otros investigadores han demostrado que una agregación similar de motivos estructurales se produce por un organismo más simple, E. Coli, lo que sugiere un cierto nivel de generalidad.

Algunas observaciones sobre la estructuración de la interacción de datos en forma de redes topológicas vale la pena hacer. El gráfico es, en efecto, una abstracción construido a partir de bases de datos disponibles y su significado está influenciada por varios factores. Por ejemplo, la gráfica es una proyección de las posibles interacciones. El análisis de los procesos normativos distintos en el espacio y el tiempo requiere información adicional, no suele incluirse en la topología de las redes biológicas. De hecho, la propia representación, en forma de una red única supone la integración en el espacio y el tiempo de las interacciones que tienen lugar durante la vida celular. Algunos de los patrones de interacción podría ser falsamente debido a un efecto de proyección, mientras que en realidad tienen lugar en diferentes momentos y / o lugares dentro de la célula. Esto ocurre, por ejemplo, en el sistema de RDP: PDR1 y PDR3 en la base de los ocho III.1 responder a motivos diferentes señales y el control independiente de sus productos (sin la cooperación de los objetivos comunes). Estos motivos aparecen en la red debido a las condiciones diferentes en diferentes momentos se proyectan en el mismo plano.

Por otra parte, los patrones en la red puede ser una consecuencia directa de los modelos de datos en las bases de datos actuales, y representan incorrectamente el contexto biológico. Transitorio asociaciones macromoleculares como los complejos de proteínas y las interacciones entre un conjunto complejo de proteínas y son, en efecto un objetivo perdido, y en la mayoría de los representados de los vínculos entre cada uno de los componentes y el objetivo. Esto es lo que ocurre con la Met4p/Met28p/Cbf1p heterotrimer, que aparece en la red como tres componentes independientes que interactúan junto con tres III.5 motivos que en realidad no existen.

El sistema de NCR es un interesante ejemplo en el que se identifican claramente los motivos y parece inequívoca. Sin embargo, a lo mejor de nuestro conocimiento que no desempeñan ningún papel importante. En particular, el papel de la interacción mutua entre DAL80 y DEH1 (II.4 mantener un motivo) no es claro. Un intrigante hipótesis es que la presencia de las interacciones podría remontarse a la fuerte similitud de secuencia entre DAL80 y DEH1. Los productos de estos dos genes de forma homodimeros e inhibir su propia expresión. La presencia de los motivos podría ser debido a un reciente caso de la duplicación, que se ha conservado, por lo tanto, las interacciones.

La evolución divergente también parece ser el origen de la aparición de motivos en el sistema de RDP. En este caso, los dos genes divergentes PDR1 y PDR3 han adquirido diferentes funciones independientes. El motivo ejemplo, que forman junto aparentemente sin explotar es la consecuencia de su origen común.

Conclusión

Los resultados presentados aquí indican que la estadística abundancia de motivos de la red no tiene contrapartida evidente en la evolución y el nivel funcional in vivo. Los casos de motivos de la red, efectivamente, se han demostrado poseer la misma fragilidad evolutivo, es decir, cuando se comparan los diferentes organismos, los genes que componen el motivo similares han co-ocurrencia como perfiles de los genes en los patrones de interacción con una abundancia normal.

El punto parece ser confirmado por el análisis del papel funcional de los ejemplos de los motivos ocurrencias. Estos se encuentran en el interfaz entre dos bloques - un responsable de la recepción de una señal y el otro para su tramitación - y se han seleccionado porque detallada información biológica sobre los itinerarios está disponible. El número de casos es limitado, pero en ninguno de ellos son las principales medidas de la señal de procesamiento de la información que tienen lugar en el nivel transcripcional a través de la aplicación de los motivos. Rutas alternativas de regulación post-transcripcional y compartimentación intracelular parecen ser explotada para este fin.

Estos resultados, naturalmente, llevar la cuestión en cuanto a la función de los motivos. Algunos acontecimientos han demostrado falsamente surgir de la representación de la interacción de datos en la forma de una red y la consiguiente proyección de los efectos en el espacio y / o tiempo. No obstante, parece justo asumir que los efectos debe limitarse a unos pocos casos. El metabolismo de la producción de proteínas de los costos y el hecho de que algunos de los motivos de los casos examinados se activa en condiciones de hambre, es probable que las proteínas codificadas por los genes que componen estos motivos hacen desempeñar un papel. ¿Qué es, sin embargo, muy claro en la Figura 2, y nuestro análisis es que la gran mayoría de los casos son motivo de hecho integrados en las estructuras más grandes y enredado con el resto de la red. Sólo una pequeña minoría se ha aislado y probablemente para realizar una tarea específica funcional que no depende del contexto.

Esta agrupación es importante ya que indica que la elección de la nula modelo utilizado para evaluar la importancia estadística de la abundancia de los patrones de interacción podría ser delicado. De hecho, el contexto de orden superior no es tenido en cuenta en el proceso de aleatorización utilizado para generar el modelo de redes nulo, y hemos demostrado que esto no es manifiestamente una elección garantizar una sólida y evolutiva (en vivo) importancia funcional. Contabilización de los distintos niveles de organización biológica de las redes parece crucial para identificar correctamente los elementos funcionales responsables de la información que permite la transformación de las células vivas para hacer frente a sus condiciones ambientales muy variables.

Materiales y métodos
Conjuntos de datos

El regulador transcripcional de red utilizado para el análisis es el que construye y el investigado en [45]. Se prefirió el más extendido una ChIP derivados de chips de datos en [46] como la fracción de enlaces donde el papel regulador de las diversas interacciones está documentado es mayor para los primeros. La proteína-proteína interacción de datos en la base de datos de Interactuando Proteínas (DIP [47]] son una gran colección de los dos híbridos y TAP-etiqueta de los datos. La red resultante tiene 476 nodos, 905 aristas dirigidas transcripcional y 221 no proteína-proteína bordes.

Identificación de motivos y de la red aleatorización

La detección de n-nodo motivos de la red se realiza a lo largo de líneas similares a los utilizados en [2]. El método explora exhaustivamente el barrio de todos los eslabones de la red para buscar el motivo de interés y, a continuación, la lista de purgas patrones repetidos.

Aleatorios versiones de la red se generan de la siguiente manera. Enlaces intercambian como en la cadena de Markov algoritmo utilizado en [48], es decir, dos enlaces entre las parejas de nodos (X 1 S 1) y (X 2 Y 2) se sustituirán por (X 1 Y 2) y ( X 2 Y 1). En nuestro caso, en que los vínculos podrían ser transcripcional o de la interacción proteína-proteína, los enlaces que se intercambian deben ser del mismo tipo. Este procedimiento se garantiza a preservar el solo punto de conexión en cada nodo de la red.

En cuanto al procedimiento de asignación al azar para n = 3 motivos, queremos evitar la posibilidad de que los motivos de orden superior falsamente heredar significación estadística de la reducción de los pedidos. En otras palabras, el azar red debería tener las mismas estadísticas para todos los patrones de orden n = 2, como la verdadera red. Esto está garantizado por la convergencia recocido simulado, en donde los pasos son los elementales swappings de los enlaces anteriormente descrito. La transición probabilidades son ponderadas de acuerdo a la diferencia:

Donde la suma se extiende sobre todos los patrones de orden n = 2 y c i los valores indican el número de patrones en los dos tipos de redes.

Estadísticamente significativas en los patrones son aquellos en los que el número de cuenta tiene una baja probabilidad de ser observado en el conjunto de las redes obtenidas por la aleatorización. En concreto, es necesario que el número de cuenta observada , Tiene una cola de probabilidad:

-- O de lo contrario la desigualdad si el patrón no está suficientemente representada en la red real - que se produzca en el conjunto azar. Las probabilidades son de un estimado de Monte-Carlo de muestreo de 10000 ensayos aleatorios conjunto de la distribución y los resultados son sensibles ni para el número de juicios ni de los umbrales elegidos. La probabilidad de distribución de las funciones se encuentran a menudo a apartarse de una curva de Gauss y el de cola, por lo tanto, las probabilidades son directamente medidos a partir del histograma normalizado sin depender de las puntuaciones z.

Tenga en cuenta que las modalidades de la participación de la libre interacción son algo especial, ya que su fin n, que controla el tipo de redes de azar deben ser comparado con, no coincide con su número de genes. Por ejemplo, un solo gen libre interacción es tratado como un patrón de n = 2. La razón es que una forma sensata de la evaluación de la importancia de este patrón es por tener un número fijo de enlaces total proteico y el estudio de la fracción de ellos que son la libre interacción. En otras palabras, la libre interacción se intercambian a lo largo del procedimiento de aleatorización con proteica vínculos entre dos diferentes proteínas y su fin es, por tanto, n = 2.

La comparación de secuencias

BLAST búsquedas se realizaron utilizando BLASTP 2.2.6 [49] con la matriz BLOSUM 62 y afín brecha penas de 11 (brecha) y 1 (prórroga). Putativo orthologs se infiere de la secuencia principal y de mantenimiento de sólo bidireccional mejores éxitos para reducir el efecto de la gran cantidad de levadura en paralogs genomas. Tablas bidireccionales de las mejores éxitos se construyeron mediante la identificación de los pares de proteínas en comparación los dos organismos que son los mejores alineaciones de reciprocidad. La importancia de las alineaciones fue cuantificado por el e-BLAST valores umbrales y se consideraron diferentes, que van desde 10 -1 a 10 -10. Su elección no afecta a los resultados presentados en el cuerpo del documento.

Evolutiva fragilidad de los patrones de interacción

Vamos a examinar todos los patrones de interacción, indexados por i, compuesto por la interacción de los genes de S. Cerevisiae y cada uno de los otros cuatro hemiascomycetes, indexados por α. La variable booleana f i α para el patrón i se toma igual a cero en caso de los genes que componen el plan son todos los presentes y ausentes en el otro organismo α y de la unidad es otra cosa. Presencia / ausencia se mide mediante el uso de la lista de mejores canciones bidireccional discutido en la sección anterior. La presión selectiva para preservar el modelo i se cuantifica por la fragilidad:

Los dos casos extremos son F i = 0 y F i = 4 (el número de microorganismos en comparación). Los dos casos corresponden a los genes que componen el patrón de co-ocurren en la totalidad o en ninguno de los organismos en comparación, respectivamente. Como otro ejemplo, considere el caso en que los tres genes que componen una interacción patrón son todos los presentes en C. Glabrata, K. Lactis y D. Hansenii (que son evolutivamente más cerca de S. cerevisiae) sino uno (o dos) de ellos no se da en Y. Lipolytica. El valor correspondiente de la fragilidad es F i = 1.

Adicional de los archivos de datos

Datos adicionales están disponibles con la versión en línea de este documento. Datos adicionales archivo 1 es una cifra que muestra general de tres patrones de genes. Adicional archivo de datos 2 es un cuadro con motivo de los sucesos. Adicional archivo de datos 3 es un cuadro que muestra las funciones de los genes en motivo de los sucesos.

Material suplementario
Archivo Adicional 1
Izquierda: los dos posibles topologías de conectividad entre los tres genes. Cada línea de color gris pueden ser cualquiera de los siete tipos de interacción representado a la derecha. Derecha: los diferentes tipos de interacción entre dos genes y sus productos. Cajas: genes; flechas verdes: regulación transcripcional únicamente; líneas de puntos con los círculos: la interacción proteína-proteína de los genes de los productos. 1-3: sólo sin regulación transcripcional conocido ppp en la interacción, (1 y 2 se distinguen de dar cuenta de diferentes combinaciones en los diagramas de la izquierda). 4: interacción proteína-proteína. 5-7: regulación transcripcional y la interacción entre los genes de los productos (sin detalles sobre la función de la interacción compleja ppi). El conjunto de todas las posibles pautas de tres genes se obtiene con todas las combinaciones de los tipos de interacción de la derecha en las topologías que figuran a la izquierda. La forma estadísticamente significativa los patrones de un subconjunto, de 8 de tres genes motivos muestra en la Figura
1
Archivo Adicional 2
La lista de los casos el motivo para encontrar la levadura Saccharomyces cerevisiae. Cada línea corresponde a una realidad diferente y contiene los más utilizados no ambiguo nombre de los que participan genes, ordenados de acuerdo a su posición en el motivo. Primera columna contiene los motivos de tipo de acuerdo con la figura
1
; Columnas 2 a 4 corresponden, respectivamente, a las posiciones de los genes a, b, c, como se indica en la figura
1
Archivo Adicional 3
El archivo de Excel contiene la lista de genes que se encuentran en realizaciones con motivo de sus funciones biológicas como dado por la base de datos utilizando el MIPS FunCat ontología, y en función de diferentes estadísticas de los sucesos y la distribución. Los datos se presentan en tres hojas con diferentes puntos de vista:
Primera hoja, "Funciones de los genes":
Da una lista de genes que se encuentran en todos los casos con motivos norma, y principal alternativa nombres, los motivos y las posiciones dentro de los motivos en que estos genes se encuentran (de acuerdo a los tipos y posiciones, tal como se definen en la figura
1
) Y, por último, las funciones biológicas.
Segunda hoja, "Funciones de posiciones":
Da motivos y las posiciones dentro de los motivos agrupados de acuerdo a las funciones. Para cada función representada en FunCat, las tres primeras columnas indican el número, la fracción y el nombre de los genes que se encuentran en los casos que tengan motivos de esta función. Las siguientes columnas indican los detalles para cada tipo de motivo: el número de genes implicados en el dado con motivo de la función dada, la fracción de los genes dentro de los motivos de esta posición y de esta función, la fracción de los genes para esta función que se encuentran en Esta posición, y la fracción de los genes en esta posición de tener esta función.
Tercera hoja, "Genes de posiciones":
Da estándar y el nombre de dominio de los genes que se encuentran en cada posición
Agradecimientos

Agradecemos a B. Dujon, P. Glaser y F. Képès útil para los debates. MV de la investigación fue financiada en parte por la Fundación Nacional para la Ciencia en virtud de la subvención no PHY99-07949.