PLoS ONE, 2006; 1(1): (más artículos en esta revista)

A Bayesian enfoque impulsado por la Red para el Modelo de respuesta transcripcional a óxido nítrico en Saccharomyces cerevisiae

Biblioteca Pública de la Ciencia
Jingchun Zhu [1], Ashwini Jambhekar [1], Aaron Sarver [1], Joseph DeRisi [1]
[1] Departamento de Bioquímica y Biofísica de la Universidad de California San Francisco, San Francisco, California, Estados Unidos de América
[2] Howard Hughes Medical Institute, University of California San Francisco, San Francisco, California, Estados Unidos de América
Resumen

La respuesta transcripcional a exógena suministrados óxido nítrico en Saccharomyces cerevisiae se basa en la utilización de un marco integrado de aprendizaje Bayesiano red experimental y retroalimentación. Una red bayesiana algoritmo de aprendizaje se utilizó para generar los modelos de red transcripcional de salida, seguido por el modelo de verificación y revisión a través de la experimentación. El uso de este marco, hemos generado un modelo de red de la respuesta transcripcional de levadura para el óxido nítrico y un grupo de otras señales ambientales. Hemos descubierto dos factores desencadenantes del medio ambiente, la diauxic cambio y de glucosa en la represión, que afectó a la observada el perfil transcripcional. El método de cálculo previsto el control transcripcional de levadura flavohemoglobin YHB1 de glucosa en la represión, que posteriormente fue verificado experimentalmente. A la libre disposición aplicación de software, ExpressionNet, fue desarrollado para obtener modelos de redes bayesianas a partir de una combinación de la expresión génica perfil de las agrupaciones, la información genética y condiciones experimentales.

Introducción

El óxido nítrico (NO) es un mediador crítico de la célula de la respuesta inmune innata que defiende contra las infecciones causadas por una gran variedad de patógenos incluyendo hongos, bacterias, protozoos parásitos y virus [1] - [5]. De este modo, una crítica contra el biológicos medida incluiría la capacidad para descontaminar o limitar los daños de NO. Sin embargo, el mecanismo por el cual la defensa contra agentes patógenos de óxido nítrico no es bien entendido. Recientemente, los estudios de genómica NO desencadenó transcripcional respuestas se han llevado a cabo en varios organismos de hongos (S. cerevisiae, H. capsulatum, y C. albicans), utilizando microarrays [6] - [8]. En S. cerevisiae, cinco genes fueron identificados como los de desintoxicación NO grupo de genes que se activan a través del factor de transcripción Fzf1p cuando se expone a exógena suministrados NO. Los cinco genes son la levadura flavohemoglobin YHB1, cuya E. coli homólogo Se ha demostrado que el NO a convertir nitrato como un posible mecanismo para el NO de desintoxicación, una supuesta bomba SSU1 sulfito, y otros tres uncharacterized marcos de lectura abierta [8].

Además de la desintoxicación grupo de genes activados a través de Fzf1p, los microarrays de datos reveló también alteraciones de la abundancia de ARNm para muchos otros genes durante la ausencia de tratamiento [8], incluidos los genes implicados en la levadura tensión ambiental respuesta [9]. La pauta de perfiles de expresión de levadura se agrava por el uso de una variedad de mutantes genéticos y las condiciones que dieron lugar a un complejo y superposición serie de respuestas celulares. Estos incluyen grandes variaciones en la densidad de cultivo celular, fuente de carbono, y los genotipos. Aunque un análisis preliminar de la agrupación jerárquica simple era suficiente para identificar el grupo de desintoxicación NO, tratamos de aprovechar la complejidad del conjunto de datos para seguir adicionales diseccionar los mecanismos de regulación que operan en estos experimentos.

Bayesiano creencia de redes, una forma de gráfico de codificación de modelos probabilísticos de la dependencia de relaciones entre variables que interactúan como distribuciones de probabilidad, ofrecen una prometedora estrategia computacional a fin de elucidar las aportaciones ocultas en la regulación de óxido nítrico [10], [11]. A Bayesian nodos de red utiliza para modelar las variables de interés como la activación de genes o de perturbación del medio ambiente. La relación entre variables, como el NO-tratamiento desencadenado la activación de genes, puede ser modelada como distribuciones de probabilidad condicional. Dado un conjunto de datos observados, como un conjunto de datos de microarrays, un probabilístico Resultado pueden ser asignados a cada modelo de red. Los mejores modelos se pueden derivar automáticamente a partir de datos experimentales utilizando una red de aprendizaje procedimiento [10], [11], y los derivados modelo puede considerarse como una interpretación de los datos biológicos. Similar Bayesiano red impulsada por enfoques se han aplicado con éxito al modelo de señalización en las redes primaria humanos células del sistema inmunológico, identificar los módulos de regulación y su condición específica de los reguladores en S. cerevisiae, descifrar el código subyacente combinatoria la expresión génica, y deducir las redes de regulación génica mediante el uso de los niveles de expresión de genes individuales como los nodos de la red [12] - [19].

Además de modelado de sistemas multivariable, una red bayesiana proporciona una plataforma natural para la incorporación de conocimientos biológicos antes. Por ejemplo, el conocimiento del estrés-transcripcional inducible respuestas pueden ayudar a explicar parte de la transcripción NO desencadenó perfil. A Bayesian red puede incorporar tales conocimientos biológicos antes de la codificación de las variables biológicas tales como la presencia de estrés como los nodos de la red y relaciones biológicas conocidas como distribuciones de probabilidad [20].

El objetivo de este trabajo fue antes de combinar los conocimientos biológicos, el modelado computacional, experimental y comentarios en un ciclo iterativo de generación de hipótesis y las pruebas para construir un modelo de red para descifrar la relación de NO, el factor de transcripción Fzf1p y otras señales del medio ambiente mediante la genoma-transcripcional gran medida la producción de microarrays. En lugar de simplemente recordar lo que ya era conocido, trató de desarrollar y utilizar una red bayesiana enfoque impulsado a descubrir previamente no reconocidos mecanismos de control que operan en este sistema. Como resultado, hemos descubierto poco apreciado anteriormente dos variables ambientales que afectan a la regulación de YHB1 (flavohemoglobin) mRNA abundancia. A través de nuevos experimentos, demostraron que flavohemoglobin expresión, que es el principal efector de óxido nítrico de desintoxicación, se rige por la represión de glucosa. Por lo tanto, YHB1 transcripción no puede considerarse simplemente como constitutiva, o incluso únicamente un interruptor controlado por el óxido nítrico exposición, sino como una combinatoria de recibir las aportaciones de muchas señales. Como parte de este proceso, hemos elaborado un libre disposición paquete de software, ExpressionNet, para explorar complejas bases de datos utilizando redes bayesianas.

Materiales y Métodos
Experimentos de microarrays
Fuente de datos y red de preprocesamiento para el aprendizaje
Nodo estados y el aprendizaje de datos

Los estados discretos para los nodos de la red en el cuadro 1 -- 3 se define como la siguiente: Nodo estados de "ningún tratamiento" se definieron como los intervalos de tiempo que mejor trazada, la dinámica de la expresión de genes de respuesta tras el tratamiento. Los intervalos fueron los siguientes: 0-5 minutos (muy poca respuesta transcripcional), 5-15 minutos (el aumento de la respuesta transcripcional), 15-45 minutos (los cambios sostenidos transcripcional), y> 45 minutos (disminución de la respuesta transcripcional).

Estados de la expresión génica nodos se define como sobre regulación, baja regulación y expresión sin cambios, con un 2 veces umbral para convertir microarray lecturas a los valores discretos.

Nodo para los estados "galactosa" se define como "utilizado" y "no utilizados" en función de si el sustrato se introdujo en los medios de comunicación. Estados similares se definieron para el nodo "agente oxidativo".

Los nodos de "diauxic cambio" se define con tres estados: la respiración aeróbica, anaeróbica el crecimiento y el metabolismo sin cambios; dependiendo de la presencia y dirección del cambio. Similar nodo estados se definieron para el nodo "de glucosa en derepression".

El aprendizaje de datos se recopilaron por medio de 1) la expresión génica media veces el cambio de cada grupo de genes convertidos en valores discretos mediante un 2 veces umbral, y 2) manual de anotación de los valores restantes (las perturbaciones experimentales, FZF1 genotipo y Fzf1p actividad) sobre la base de la condiciones experimentales y cepa genotipos (los valores no se permitió). El aprendizaje completo de datos de genes y de miembros de cada grupo están disponibles en http://derisilab.ucsf.edu/network .

Bayesiano red de aprendizaje y la implementación de software

Una aplicación de software, ExpressionNet, fue desarrollado para llevar a cabo la red de aprendizaje Bayesiano. Se utilizó un Bayesiano función de puntuación para asignar una puntuación de probabilidad para un modelo de red. La camarilla de árboles-técnica y la variable de eliminación técnica se llevaron a cabo más eficiente de inferencia y de aprendizaje [11], [20], [25]. El proceso de aprendizaje se inició con borde combinaciones aleatorias, mejorando gradualmente la topología de la red utilizando una estrategia de búsqueda codiciosa hasta la partitura alcanzó un máximo local. La codiciosa búsqueda se itera a generar una colección de redes de alta puntuación. Alta puntuación redes fueron sometidos a los pequeños cambios de topología única ventaja adición, supresión o reversión de ampliar la colección. El aprendizaje se repitió con dos distribuciones de probabilidad antes de los parámetros de red (priores), ambos establecidos en la distribución de Dirichlet: Dir (1,1,…, 1) y Dir (α P 0, P 0 α,…, P 0 α), donde P 0 es una distribución uniforme sobre la probabilidad de espacio de cada CPD y α = 5. Redes de puntuación en un percentil de corte (15% para el inicial y el segundo modelos, el 25% para el tercer modelo), utilizando ambos priores se utilizaron para construir promedio Bayesiano red modelos. Hemos definido todos los del medio ambiente y el genotipo nodos como nodos de raíz y todos los nodos del cluster de genes como nodos hoja. Faltan los valores han sido manipulados mediante una estructurales Expectativa-Maximización algoritmo [26]. ExpressionNet está disponible en http://expressionnet.sourceforge.net/ . La red de deriva modelos de probabilidad y parámetros están disponibles en http://derisilab.ucsf.edu/network .

Citometría de flujo

El YHB1-GFP es una cepa C-terminal de fusión GFP obtenidos a partir de un genoma en toda la biblioteca de etiquetas [27]. La cultura fue aumentado a comienzos de la fase de registro en los medios de comunicación sintética con un 2% de glucosa, galactosa o raffinose, lavados con PBS, luego fue trasladado a medio sintético con un 2% de glucosa (de raffinose o galactosa), o raffinose o galactosa (a partir de la glucosa). La intensidad de fluorescencia de células se midieron en un Becton Dickinson LSR II citómetro de flujo a 0, 2, 4,5, 6, 8,25, y 12 horas después de que el azúcar se ha cambiado. Para cada punto del tiempo, un mínimo de 100000 células se midieron para obtener el promedio de intensidad de las buenas prácticas agrarias. TUP1 se ha eliminado con KanMX en la YHB1-GFP cepa. Idéntico experimentos se realizaron como se describe anteriormente. Cell intensidades de fluorescencia se midieron a los 0, 2, 4, 6 y 18 horas después de que el azúcar se ha cambiado.

Resultados
Algoritmos

Nuestro enfoque itera a través de cuatro pasos: la recogida de datos y preprocesamiento, la generación de hipótesis, el modelo experimental de evaluación y retroalimentación (Figura 1].

En la recopilación de datos y preprocesamiento paso, la expresión de genes agrupaciones fueron identificados a partir de una base de datos de microarrays de expresión y el grupo los niveles se convirtieron en los valores discretos. Cada serie fue anotado con la cepa genotipos, las condiciones experimentales, proteínas y funciones. Los valores discretos de la categoría y la expresión anotada array atributos se combinaron para formar el aprendizaje conjunto de datos.

En la hipótesis de la generación posterior paso, de expresión agrupaciones, las señales del medio ambiente y genotipos fueron definidos como nodos de la red. Un procedimiento automático de aprendizaje se utilizó para encontrar las conexiones de red que mejor se ajusten a la serie de datos de aprendizaje, medido por una puntuación de probabilidad. Redes con las calificaciones más altas fueron recogidos. El modelo derivado (Bayesiano media red) es la media de todas las redes de alta puntuación obtendrá por el proceso de aprendizaje (Materiales y Métodos]. En la media derivados Bayesiano modelo de red, cada borde se asoció con una puntuación de confianza (c), calculado como porcentaje de su presencia en la alta puntuación de recogida [18], [21]. Como parte del proceso de aprendizaje, la probabilidad condicionada de distribución (CPD) para cada nodo también se infiere automáticamente.

En el tercer paso, se obtendrá una modelo se comparó con la actual hipótesis biológicas y las nuevas predicciones fueron analizadas experimentalmente. En la última etapa experimental comentarios, los nuevos datos experimentales se compararon con los datos en que el modelo anterior. Si los nuevos datos es incompatible con el modelo anterior, los nuevos nodos de la red como una nueva variable ambiental o un suplente de genes agrupación se propuso tratar de explicar la discrepancia. Los experimentos también podrían mostrar el nuevo predicciones a ser incorrectas. En cualquier caso, iniciamos una nueva iteración del proceso para obtener un mejor modelo, probablemente con una serie revisada de los nodos de la red a 1) explicar el conflicto en los datos, 2) predecir el papel de las nuevas variables ambientales sobre la expresión génica, y 3) eliminar cualquier predicción incorrecta.

En las siguientes secciones, se describen tres repeticiones del algoritmo se aplica a un conjunto de datos de microarrays de medición de óxido nítrico la respuesta transcripcional, generando cada vez mejores modelos de transcripción red.

El óxido nítrico inicial de una red

Con el fin de medir el S. cerevisiae transcripcional respuesta a NO y nitrógeno reactivo intermedios, y para examinar el papel del factor de transcripción Fzf1p, estamos expuestos de tipo salvaje y fzf1 Δ químicamente a cepas generadas NO (E1 experimento, Materiales y Métodos]. Para determinar si Fzf1p de expresión podría imitar la respuesta NO inducible, hemos realizado experimentos similares con el tipo salvaje y GAL1p: FZF1 cepas en galactosa. A continuación, mide los niveles de mRNA mundial a través del tiempo utilizando microarrays de DNA (experimento E2, Materiales y Métodos]. Estos datos se combinaron con la publicación de un conjunto de datos de una perturbación experimento de la levadura tratados con agentes oxidantes comunes a la modelo oxidativo o la tensión ambiental respuesta (ESR) [9].

Un subconjunto de 130 genes con importantes cambios en la expresión combinada de los datos fue seleccionado (Materiales y Métodos]. Hemos definido cinco grandes grupos de genes: los que anteriormente se habían desintoxicación grupos de genes [8] se dividieron en Fzf1p temprana y tardía respuesta de los grupos (que fueron hasta reguladas por NO Fzf1p en una forma dependiente, pero difieren en su fase inicial el tiempo de respuesta), el ESR grupo, la fosforilación oxidativa grupo, y la galactosa respuesta clúster.

Estamos posteriormente se definen diez nodos de la red y sus estados discretos para modelar la respuesta transcripcional de microarrays de datos, que incluía cinco nodos del cluster de genes, tres nodos de perturbación experimental, un genotipo nodo, y un nodo de la función de las proteínas, a la modelo a escala del genoma respuesta transcripcional a nítrico óxido (Tabla 1].

Habida cuenta de los nodos definidos, el aprendizaje conjunto de datos fue creada por combinación de valores discretos de medio de expresión y el grupo anotación manual experimental de las características de cada variedad. Entre ellos, los valores de Fzf1p actividad en el aprendizaje de datos se infiere sobre la base de FZF1 genotipo y las condiciones experimentales. Por ejemplo, si la cepa se fzf1 Δ, el valor se asignó a "inactivo". Cualquier valor que no puede deducirse directamente u obtenido se fijó como valores que faltan (sin entradas de datos) en el aprendizaje conjunto de datos.

El modelo inicial de derivados (10 bordes con c> 0,9) se muestra en la Figura 2 bis. Según este modelo, la exposición a NO generó dos transcripción de firmas. El núcleo NO respuesta específica (Fzf1p temprana y tardía respuesta de las agrupaciones), a diferencia de otros transcripcional respuestas, fue controlado a través de la activación del factor de transcripción Fzf1p. NO también desencadenó una respuesta de estrés ambiental, que fue compartida por la exposición a agentes oxidantes. Estas previsiones son coherentes con la actual comprensión de la respuesta transcripcional a NO [8].

El borde confianza resultados (c) muestra una distribución bimodal en la confianza Resultado histograma (figura 2b]. Desde la confianza Resultado fue una medición de los datos de apoyo para una ventaja, esta distribución mostraron una clara separación de las relaciones que fueron muy apoyados (c> 0,9) o no (c = 0) de los datos. Esta distribución bimodal fue significativamente diferente (Kolmogorov-Smirnov prueba de normalidad; P & lt; 0,001) de la distribución normal de las redes generadas con el azar, las conexiones de red (Kolmogorov-Smirnov prueba de normalidad; P = 0.35), en el que todos los bordes mostró un bajo nivel de apoyo por parte de los datos (c = 0,395 ± 0,105).

Como parte de la red proceso de aprendizaje, las distribuciones de probabilidad condicionada (CPDS) fueron también a partir de los datos (datos complementarios). Esto incluyó un CPD del nodo "Fzf1p actividad", que tenía un 80% los valores en el aprendizaje conjunto de datos. El CPD de derivados "Fzf1p actividad" (la posibilidad de Fzf1p actividad en cualquiera de los dos "activos" o "inactivo" dado el estado FZF1 genotipo y la duración de la ausencia de tratamiento) predijo que la actividad se Fzf1p transitoriamente activado por la ausencia de tratamiento (Figura 2 bis CPD cuadro]. La predicción es compatible con la hipótesis biológica que NO o NO derivados activa Fzf1p conduce a la inducción transcripcional de un grupo de genes objetivo de que la función de proteger a la célula de NO mediada por estrés [8].

Dos muy apoyado bordes (c> 0,9) en el modelo fueron inesperados. Uno de ellos fue dirigido desde "galactosa" a "Fzf1p pronta respuesta" y el otro de "galactosa" a la "fosforilación oxidativa" (Figura 2 bis, los bordes de color rojo]. La conexión de galactosa a Fzf1p pronta respuesta nodo predijo que la expresión de este grupo (que contiene YHB1 y SSU1) sería hasta reguladas en respuesta a la galactosa (tal como se predijo en la distribución de probabilidad para la pronta respuesta nodo), lo que sugiere otra señal de entrada a algunos de los genes NO desintoxicación sin pasar por el factor de transcripción Fzf1p. Un examen más detallado de los microarrays de datos mostró que era hasta YHB1 reguladas por la galactosa en la ausencia de Fzf1p de expresión (Figura 3a]. FZF1 niveles en el medio silvestre tipo de levadura no se vieron afectados por el crecimiento en los medios de comunicación galactosa. Aunque nuestro modelo predice una Fzf1p independiente sobre regulación de la YHB1 de galactosa, que sigue siendo una posibilidad formal de que la galactosa es endógeno a través de Fzf1p hasta YHB1-regular.

Experimental comentarios y una segunda respuesta óxido nítrico red

Para verificar la inesperada YHB1 inducción en respuesta a la galactosa y la independencia de esta relación en Fzf1p, microarray adicionales se realizaron experimentos para vigilar el cambio de nivel de mRNA a la galactosa en la inducción de tipo salvaje y fzf1 Δ cepas (experimento E3). De hecho, la expresión de YHB1 se incrementó en 2-4 veces a cambiar a la galactosa que contienen medio (Figura 3b]. Esto confirmó la predicción de que afecta a la galactosa YHB1 expresión independiente de Fzf1p.

Sin embargo, hemos detectado una incoherencia en el conjunto de datos. Los dos experimentos de inducción de la galactosa (experimento E2 vs E3) se llevaron a cabo experimentalmente en un modo similar, sin embargo, muchos genes que son regulados hasta en un experimento se redujeron reguladas en la otra y viceversa (datos complementarios). Por ejemplo, los genes en la respuesta Fzf1p grupo (excepto YHB1) se incrementaron en un reguladas en E2 y hacia abajo-regulada en E3 (Figura 3a wt wt vs 3b]. En contraste, muchos genes galactosa utilización como GAL2, GAL3, GAL7 y GAL10 mostró coherente sobre regulación en todos los experimentos de inducción de la galactosa (Figura 3a y 3b]. La mayoría de los genes con entre-experimento desacuerdo función a utilizar la glucosa, como las cuatro subunidades de la succinato deshidrogenasa tetramer SDH, acetil-CoA sintetasa ACS1, y la clave gluconeogenic enzimas FBP1 y PCK1. La expresión se oponen a los cambios (E2 vs E3, tipo silvestre) en estos glycolysis componentes de la gluconeogénesis y también altamente correlacionado con sus perfiles de transcripción durante el diauxic cambio, el interruptor de crecimiento para anaerobios respiración aerobia al agotamiento de la glucosa [9], [22 ]. Un examen de la pre-experimental de las condiciones de crecimiento, las densidades de células durante el experimento, y la duración del experimento (12 h) señaló que la diauxic cambio podría tener lugar en los dos experimentos de inducción de la galactosa (E2, E3).

Tomando ventaja de lo anterior antes de conocimiento biológico sobre la levadura diauxic cambio, hemos añadido otro nodo de perturbación del medio ambiente ( "diauxic cambio"). Además, hemos mejorado la agrupación de genes por 1) la combinación de los anteriores fosforilación oxidativa grupo y la galactosa respuesta grupo para formar el grupo de energía, 2) re-agrupación de los cinco genes NO desintoxicación en YHB1 y la respuesta Fzf1p grupo que incluía el resto de los genes de desintoxicación, y 3) separar la galactosa utilización de genes para formar el grupo utilización de la galactosa (Cuadro 2].

El segundo modelo Bayesiano red se amplió para tener en cuenta la respuesta transcripcional a la diauxic cambio (figura 2c]. El nuevo modelo mantiene la sub-red de la NO-respuesta específica mediada por Fzf1p y la relación de galactosa dirigido a YHB1. Además, puso de manifiesto la conexión previamente ocultos entre la diauxic cambio y el grupo de energía.

Derepression la regulación de la glucosa YHB1 y el tercero de óxido nítrico de una red

Con el fin de evitar complicaciones debido a la diauxic cambio en la galactosa experimentos de inducción (12 hr), la galactosa experimentos utilizando inducción de tipo salvaje y fzf1 Δ cepas (experimento E3) fueron repetidos usando raffinose que la primera fuente de azúcar (experimento E4). Esto permitió una inducción mucho más rápido y un tiempo más corto curso (4 Horas). Los resultados mostraron que la utilización de genes galactosa como GAL7 y GAL10 se incrementaron en un reguladas, sin embargo, YHB1 inducción no se observó (Figura 3c]. Este resultado fue inesperado ya que el anterior galactosa inducción experimentos han demostrado que YHB1 fue inducida por 2-4 veces (Figura 3a peso, 3b]. La diferencia no puede ser explicado por el cambio diauxic u otras variables consideradas hasta el momento.

El crecimiento de glucosa rico en medios de comunicación reprime la transcripción de un gran número de genes como las enzimas en el ciclo TCA, la cadena respiratoria, esporulación genes y los genes necesarios para la utilización de azúcar menos eficientes fuentes, como la galactosa [23]. Para hacer frente a la posibilidad de que YHB1 está parcialmente controlada por la represión de glucosa, un nodo "de glucosa en la represión" fue agregado a cuenta de este efecto en un tercer modelo (Figura 2e, Tabla 3]. Posteriormente, el tercer modelo derivado apoya firmemente la relación entre la glucosa derepression y YHB1 la expresión génica y, al mismo tiempo la estructura general de la red incluyendo el Fzf1p mediada NO-respuesta específica sub-red se mantuvo. El CPD de nodo "YHB1" YHB1 predijo que la expresión de genes fue hasta reguladas por cualquiera de glucosa derepression o Fzf1p, pero no por la galactosa.

Para verificar la predicción de glucosa derepression para YHB1, los niveles de expresión de proteínas de las buenas prácticas agrarias con etiquetas Yhb1p fueron controlados en virtud de glucosa en la represión y derepression condiciones de uso de citometría de flujo. La represión resultados mostraron que los niveles Yhb1p disminuyó inmediatamente después de que el azúcar se cambió la fuente de cualquiera de raffinose o galactosa en glucosa, y siguió disminuyendo hasta 2-3 veces después de 12 horas. Este resultado fue confirmado por el experimento recíproco de glucosa derepression de cambiar la fuente de azúcar a partir de la glucosa o galactosa raffinose, en la que Yhb1p aumento de los niveles de 2-4 veces después de 12 horas (Figura 4a]. La proporción y la cinética de la YHB1 derepression medido por nivel de proteína eran compatibles con las mediciones de microarrays (Figura 3a, 3b]. De glucosa en la represión de YHB1 no se observó en un tup1 Δ cepa, lo que indica que el efecto del azúcar en YHB1 expresión se produjo a través de la represión canónica de glucosa vía (Figura 4b].

Discusión

Hemos desarrollado un marco formal para mayor red de aprendizaje Bayesiano y experimental comentarios a un determinado modelo de la respuesta biológica en la levadura. Hemos sido capaces de utilizar este enfoque integrador para lograr dos objetivos. En primer lugar, hemos descubierto una capa adicional de regulación que actúan a YHB1 transcripción, un mediador clave de óxido nítrico defensa. En segundo lugar, nuestro enfoque disecados específicas frente a las respuestas inespecíficas a NO y nitrógeno reactivo intermedio exposición. La estructura básica de la Fzf1p dependiente de NO-respuesta específica sub-red (óxido nítrico, FZF1 genotipo Fzf1p actividad, y Fzf1p respuesta clusters) se predijo y mantenido a lo largo de los tres modelos. La respuesta transcripcional a otros factores ambientales se fueron aclarados por el aumento de repeticiones del proceso.

Estudios anteriores han sugerido que YHB1 es importante para la supervivencia de la levadura en virtud de nitrosative oxidativo y el estrés [28], [29]. Nuestros resultados muestran YHB1 es transcriptionally regulados por tanto NO exposición Fzf1p mediada a través de la represión y la glucosa mediada por Tup1p. En conjunto, estos datos indican que YHB1 se rige por muchas señales del medio ambiente, destacando la combinatoria de control de este gen. Si bien la glucosa derepression causado un 2 a 3 veces mayor en Yhb1p los niveles de proteína, algunos estudios han demostrado a 10 veces más por la ausencia de tratamiento, lo que sugiere un papel más destacado de Yhb1p NO a la desintoxicación [8].

En el contexto de nuestro modelo Bayesiano, hemos sido capaces de utilizar el conocimiento biológico disponible para estudiar sistemáticamente la respuesta al óxido nítrico por el refinamiento de las variables aleatorias utilizadas. Es evidente que, antes de la incorporación de conocimientos biológicos tiene el efecto de que nuestros resultados se hará con preferencia hacia nuestra actual comprensión del problema. Si bien este hecho representa una advertencia, todos los modelos de hacer suposiciones, y el conocimiento biológico en este caso es sumamente útil para descubrir las relaciones. En efecto, el conocimiento previo en este caso puede ser considerado como una propiedad fundamental del proceso, desde la debida definición de las variables aleatorias utilizadas para el modelo de datos es esencial para llegar a una conclusión biológicamente significativo.

Una práctica común en estadística es de aprendizaje para seleccionar un solo modelo que mejor se adapte a los datos. Pero en muchas situaciones, otros modelos también Resultado muy bien aunque no necesariamente los mejores. Utilizando un único modelo de puntuación más alta para derivar una conclusión biológica es potencialmente riesgoso. Para sortear este problema, hemos utilizado la media de todas las redes de alta puntuación obtendrá por el procedimiento de búsqueda [21]. Un beneficio adicional de este enfoque es que la confianza se obtiene un Resultado asociados con cada borde respecto [18]. La puntuación de confianza es especialmente útil para el filtrado a cabo bajo la confianza en las conexiones de una red compleja, por lo tanto, simplificar lo que de otro modo podrían ser una confusa red.

Desde Bayesiano red bordes representan estadística en lugar de relaciones causales, es posible que un borde derivados no representa una conexión directa biológica. Por ejemplo, dos grupos de genes reparto de información mutua que probablemente estará conectado. Un método para eliminar las conexiones de este tipo es la fusión de los grupos altamente correlacionados en un solo nodo. Además, las limitaciones estructurales que pueden ser utilizados para definir la expresión génica nodos como nodos hoja y la variable ambiental como nodos raíz nodos.

Gene grupos se definieron a través de una agrupación jerárquica automática algoritmo con intervenciones manuales. Aunque no es puramente automática, esta medida se ha incorporado en las que antes los conocimientos biológicos para interpretar el conjunto de datos de expresión génica. Por lo tanto, es fundamental para garantizar la definen los nodos del cluster de genes que verdaderamente representan los perfiles de expresión génica.

El marco computacional y experimental enfoque que aquí se presenta esencialmente representa un supervisada sistema de exploración de datos. La metodología general es una simple hipótesis de generación, las pruebas y el ciclo de perfeccionamiento. Sin embargo, la complejidad de datos con un gran número de mediciones cada vez más difícil de representar y puntuación con respecto a una determinada hipótesis. La creación y el uso de redes bayesianas, la incorporación de conocimiento previo, permite que para un control sistemático de calificación de una determinada hipótesis y, además, ofrece una oportunidad para el aprendizaje automático, lo que a su vez puede facilitar el descubrimiento de nuevas relaciones entre los datos.

Damos las gracias a Manuel Llinás, Amy Kistler, Leslie Spector, Sean O'Rourke y los miembros de la DeRisi laboratorio para la lectura crítica del manuscrito y reflexivo debate.