Theoretical Biology & Medical Modelling, 2005; 2: 23-23 (más artículos en esta revista)

Predicción de factor de transcripción de las actividades combinadas de microarray y análisis de datos ChIP: un enfoque parcial de los mínimos cuadrados

BioMed Central
Anne-Laure Boulesteix (anne-laure.boulesteix @ stat.uni-muenchen.de) [1], Korbinian Strimmer (korbinian.strimmer @ lmu.de) [1]
[1] Departamento de Estadística, Universidad de Munich, Ludwigstr. 33, D-80539 Munich, Alemania

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

El estudio de la red entre los factores de transcripción y de sus metas es importante para la comprensión de los complejos mecanismos de regulación en una celda. Lamentablemente, los experimentos con microarrays estándar no es posible medir el factor de transcripción actividades (TFAs) directamente, ya que sus propios niveles de transcripción están sujetas a modificaciones después de la traducción.

Resultados

Aquí proponemos un enfoque estadístico sobre la base de mínimos cuadrados parciales (PLS) de regresión para deducir la verdadera TFAs de una combinación de expresión mRNA y DNA-proteína vinculante mediciones. Este método también es estadísticamente sólida para muestras pequeñas y permite la detección de interacciones funcionales entre los factores de transcripción a través de la noción de "meta" de factores de transcripción. Además, permite a los falsos positivos que se identifican en ChIP datos y la activación y represión actividades que se han distinguido.

Conclusión

El método propuesto funciona muy bien tanto para datos simulados y reales para la expresión y ChIP datos de la levadura y E. Coli experimentos. Que supere las limitaciones de los métodos utilizados anteriormente para la estimación de TFAs. La estimación de los perfiles también puede servir como insumo para otros estudios, tales como la periodicidad de las pruebas o la regulación diferencial. Un paquete R "plsgenomics" la aplicación de los métodos propuestos se encuentra disponible para su descarga desde el CRAN archivo.

Antecedentes

La transcripción de los genes está regulada por las proteínas ADN obligatorias que conceden a regiones específicas de ADN promotor. Estas proteínas se conocen como los reguladores transcripcionales o factores de transcripción y contratar a la modificación de la cromatina de los complejos de la transcripción y aparatos para iniciar la síntesis de RNA [1, 2].

En los últimos años, se han hecho esfuerzos considerables por las dos biólogos experimentales y computacionales para identificar factores de transcripción, los genes y su meta la sensibilidad del mecanismo de regulación a los cambios en el medio ambiente [3 - 5]. Una importante técnica para la identificación de los genes diana obligado en vivo por conocidos factores de transcripción es la combinación de una modificación de la cromatina immunoprecipitation (ChIP) ensayo con la tecnología de microarrays, en la forma propuesta por Ren et al. [1]. Por ejemplo, en la levadura Saccharomyces cerevisiae en ciernes, ChIP experimentos se han utilizado para dilucidar la interacción entre vinculantes 6270 genes y 113 preseleccionados factores de transcripción [2]. Sin embargo, como física vinculante de factores de transcripción es necesaria pero no una condición suficiente para iniciar la transcripción, ChIP datos normalmente sufren de una gran proporción de falsos positivos.

Varios han sido los intentos realizados para recuperar la estructura de la red entre los factores de transcripción y sus objetivos utilizando sólo los niveles de expresión génica de los factores de transcripción y las metas, ya sea con [6] o [7] sin asumir un subconjunto de los reguladores putativo. Estos planteamientos asumir implícitamente que el medido los niveles de expresión génica de los factores de transcripción de reflejar su actividad real. Sin embargo, debido a diversos complejos modificaciones después de la traducción, así como a las interacciones entre los factores de transcripción propios, regulador de la transcripción son generalmente niveles inadecuados de apoderados para las actividades de factor de transcripción (TFA).

En algunos recientes documentos, de integración de análisis de la expresión génica de datos y conectividad de datos ChIP ha sugerido como una manera de superar estas dificultades [8]. Más destacada, Liao y compañeros de trabajo han desarrollado la técnica de "análisis de componentes de red" (NCA) [9, 10], un enfoque de la dimensión de reducción de deducir la verdadera actividades reguladoras. En una autoridad nacional de competencia puede también incorporar nuevos conocimientos a priori cualitativos acerca de la transcripción de genes de las interacciones [11]. Lamentablemente, un gran inconveniente de la autoridad nacional de competencia original método es que para motivos de identificación muy fuerte que impone restricciones a la topologías de red permite, que hace que la aplicación de la autoridad nacional de competencia clásico difícil, en muchos casos prácticos. Alter y Golub [12] presenta un enfoque para la integración de ChIP y datos utilizando microarrays pseudo-proyección inversa. Como autoridad nacional de competencia, este método se basa en la descomposición algebraica matriz (en este caso la descomposición de valor singular). Sin embargo, esto hace caso omiso de los errores de medición y biológicos presentes en la conectividad de datos y la expresión de los genes. Kato et al. [13] propone otro enfoque integrador que consta de varios pasos que combina datos de la secuencia, ChIP datos y los datos de expresión génica. Sin embargo, aquí la expresión de genes se utiliza solamente para comprobar la coherencia de los perfiles de expresión de genes comunes con secuencia de motivos, y no para estimar factor de transcripción actividades. Por último, Gao et al. [14] sugirió que se "MA-Networker" algoritmo, que emplea multivariado de regresión para estimar TFAs y hacia atrás variable de selección para identificar los factores de transcripción activa. A diferencia de los otros enfoques, que tenga plenamente en cuenta el error estocástico. Sin embargo, para la teoría clásica de regresión sea válida es necesario no sólo que el número de genes blancos es mucho mayor que el número de muestras y el número de factores de transcripción, sino también los factores de transcripción que son independientes uno de otro. Esta última condición, en particular, es evidente que no mostraron en general satisfechos con los datos del genoma.

En este sentido, sugieren una alternativa marco estadístico para resolver el problema de componente de red y regulador de análisis. Nuestro enfoque se centra en multivariantes de mínimos cuadrados parciales (PLS), de regresión, una conocida herramienta de análisis de datos de alta dimensión con muchas variables de respuesta continua que se ha aplicado ampliamente, en particular a los datos quimiometricos [15 - 17]. Usando PLS somos capaces no sólo de integrar las dos anteriores y generalizar NCA enfoques, pero también de superar sus respectivas limitaciones. En particular, PLS red basada en el análisis de componentes ofrece una alta eficiencia computacional y estadísticamente de manera racional para deducir TFAs cierto para cualquier matriz de conectividad. Además, permite la evaluación estadística de la conectividad de la información disponible, y también el descubrimiento de las interacciones y las agrupaciones naturales entre genes reguladores (correspondiente a la "meta" de factores de transcripción).

Resultados
Red modelo

Supongamos que los datos de expresión de genes y los genes n muestras de m (= arrays, tipos de tejido, el tiempo de puntos, etc) se recogen en un m × n matriz de datos . Por otra parte, y mucho Denotar la llamada conectividad matriz con n filas y p columnas. Cada columna en Describe la fuerza de interacción entre uno de p y de los factores de transcripción de genes n considera objetivos. Las entradas de Puede ser binaria (0-1) o numéricos (por ejemplo, datos ChIP), con un valor cero, indicando física no vinculante entre un factor de transcripción y un objetivo.

Con el fin de relacionar a la conectividad de datos de expresión se considera el modelo lineal

Donde A es una constante m × n matriz, Es un p × m matriz de los coeficientes de regresión y E es una matriz de m × n que contiene los términos de error. A contiene la m diferentes compensaciones, y Puede interpretarse como la matriz de las actividades de cierto factor de transcripción (TFAs), de los factores de transcripción p para cada una de las m muestras.

Cabe señalar que en esta configuración, a diferencia de en la mayoría de los estudios de análisis de la expresión génica, el número de genes n es considerado como el número de casos más que el número de variables. En el presente caso, este último se corresponde con el número de factores de transcripción p (por lo que, en general, p <n).

NCA y MA-Networker algoritmos

El anterior modelo la vinculación de TFAs tanto con la expresión génica de los genes regulados y externos de la conectividad de información ha sido objeto de una serie de estudios recientes.

En el análisis de componentes de red clásico enfoque [9, 10] compensar la matriz A se fija en cero y el resto de modos de ecualización. 1 es interpretado como una dimensión que los proyectos de reducción de la capa de salida Con m muestras a un "oculto" capa de p <m factores de transcripción. En el algoritmo original de la autoridad nacional de competencia coeficientes Se obtienen a través de una nueva matriz de la descomposición que se respete la limitación cero patrón determinado en la matriz de conectividad . Lamentablemente, esta vez también impone estrictas condiciones de identificabilidad. Como consecuencia, la autoridad nacional de competencia clásico sólo podrán ser empleados con ciertas clases de "autoridad nacional de competencia compatible" [9].

En cambio, el "MA-Networker" algoritmo por Gao et al. [14] emplea a nivel de múltiples mínimos cuadrados de regresión en relación con el paso por paso variable de selección para estimar el verdadero factor de transcripción actividades . Esto requiere que el número de genes objetivo es mucho mayor que el número de factores de transcripción y el número de muestras. Más importante, sin embargo, es que el modelo por etapas procedimiento de selección empleado sólo es poco adecuado si el regulador de los genes son propios interactuar unos con otros. Se trata de un gran inconveniente, ya que biológicamente es bien sabido que los factores de transcripción suelen trabajar en conjunto con otros reguladores, y rara vez actúan de forma independiente.

Parcial regresión de mínimos cuadrados

Aquí proponemos a emplear el método de los mínimos cuadrados parciales de regresión [15] para inferir cierto TFAs y las interacciones funcionales de los reguladores.

PLS es una conocida herramienta de análisis de datos de alta dimensión con muchas variables de respuesta continua que se ha aplicado ampliamente, en particular a quimiometricos datos [17]. PLS es especialmente adecuado para el caso de no predictores independientes y para los pequeños-muestra los ajustes de regresión [16, 18 - 20]. Es computacionalmente muy eficiente, que no requiere la variable de selección, y que, además, deduce de componentes estructurales significativos.

Por estas razones PLS está siendo adoptado como una herramienta estándar de análisis de datos multivariados microarray, en particular en los problemas de clasificación [21 - 24]. Creemos que PLS también proporciona un excelente marco para el análisis de redes de integración, ya que combina con la reducción de la dimensión de regresión y variables de selección, los dos elementos clave tanto de la autoridad nacional de competencia y la MA-Networker enfoques.

En pocas palabras, el algoritmo PLS consta de los siguientes pasos consecutivos:

1. En primer lugar, las matrices de datos Y Se centran en la columna significa cero, por lo que las matrices X e Y, con el fin de estimar y eliminar la compensación A. Además, es práctica común en el análisis PLS (y recomendó también aquí) a la escala de entrada a la unidad de las matrices de varianza.

2. En segundo lugar, mediante la reducción de la dimensión lineal T = XR, en la p predictores X son mapeadas a c ≤ rango (X) ≤ min (p, n) latente componentes en T (una matriz n × c). Vea la sección "SIMPLS algoritmo de" abajo para el procedimiento preciso empleadas en el presente documento. La idea clave importante en PLS es que las ponderaciones R (ap × c matriz) se eligen con la respuesta Y explícitamente tomados en cuenta, por lo que la predicción El rendimiento es máxima, incluso para las pequeñas c.

3. A continuación, suponiendo que el modelo Y = TQ '+ E, Y es retrocedido por mínimos cuadrados ordinarios contra la latente componentes T (también conocida como X-puntuaciones) para obtener las cargas Q (una matriz m × c), es decir, Q = Y' T (T 'T) -1.

4. Posteriormente, el PLS estimación de los coeficientes en Y = B + E RE se calcula a partir de estimaciones de la matriz R peso y el Y-Q cargas a través de B = RQ '.

5. Por último, los coeficientes De la original Eq. 1 son calculadas por la reescalamiento B.

Tenga en cuenta que es el paso 2 que distingue a la mayoría de los relacionados con el PLS bilineal de regresión como componentes principales e independientes de regresión (PCR / ICR) y la pseudo-inversa basada en el método de Alter y Golub [12]. En este último se acerca a los resultados de T se calculan solamente sobre la base de la matriz de datos X sin tener en cuenta la respuesta Y [16].

Otros consideran a menudo en cantidades PLS incluyen, por ejemplo, el X-P cargas que se obtienen por regresión X contra T, es decir, X = TP 'y P + F = X' T (T 'T) -1.

SIMPLS algoritmo

PLS pretende encontrar variables latentes T que simultáneamente explicar tanto la predictores X y Y la respuesta. La motivación de las ideas originales PLS descomposición fueron totalmente heurístico. Como resultado, una amplia variedad de diferentes, pero en términos de poder predictivo equivalente, algoritmos PLS han surgido - para obtener una visión general véase, por ejemplo, Martens [17].

Por la presente solicitud para inferir cierto TFAs, recomendamos el uso de la SIMPLS ( "Estadísticamente Inspirado Modificación del PLS") algoritmo, que tiene las siguientes propiedades atractivas [18 - 20]:

• produce ortogonales, es decir, no empíricamente, latente componentes;

• que permite una respuesta multifactorial, y

• Optimiza es una simple estadística criterio.

Otra ventaja adicional de SIMPLS es que es también una de las más eficientes computacionalmente los algoritmos PLS.

Tomamos nota de que PLS otras variantes descritas en la literatura tienen poder predictivo comparable a SIMPLS. Sin embargo, estos proporcionan ortogonal cargas en lugar de componentes ortogonales latente T (Martens PLS), o que no se extienden desde elegantemente 1-dimensional a m-dimensional Y las respuestas en términos de su función objetivo optimizado (NIPALS).

En SIMPLS, la latente componentes t 1, t 2 ,..., t c de las columnas en T se infiere secuencialmente por la estimación de la columna de los vectores r 1 ,..., r c R de acuerdo a los siguientes criterios [20] :

1. R 1 es la unidad de vectores (con | r 1 | = 1) aumentar al máximo la duración | Y 'Xr 1 | de la m × 1 vector de covarianza cov (Y, t 1).

2. Para todos los j = 2 ,..., c, r j son los vectores unitarios (con | r j | = 1) aumentar al máximo la duración | Y 'Xr j | del vector cov (Y, t j) sujeto a la ortogonalidad Limitación Para todos los i = 1 ,..., j - 1.

SIMPLS real en el procedimiento, los pesos y las derivadas de I cantidades T y Q son obtenidos por un Gram-Schmidt-tipo algoritmo [18].

En una nota práctica, queremos mencionar que en muchas implementaciones de SIMPLS (por ejemplo, en la "pls.pcr" R paquete por Ron Wehrens, de la Universidad de Nijmegen), convenios distintos de los indicados se utilizan. En particular, el X-puntuaciones T * regresado a menudo será ortonormales (y no ortogonales) y, en consecuencia, los pesos R * no tendrá unidad de la norma como en nuestro caso. Para la conversión, definir M = diag (| |,...,| |,) Y el conjunto T = T * M -1, R = R * M -1, Q = Q * H, y P = P * M. Esto proporciona resultados ortogonal y unidad norma pesos-como se supone en nuestra descripción de SIMPLS.

Las estimaciones resultantes de las matrices B, T, R y ahora son fáciles de interpretar en términos de regulación transcripcional. B (y ) Dar la inferirse actividades de los factores de transcripción p en cada una de las m experimentos. El inferirse latente componentes T describir "meta" de factores de transcripción que se combinan los grupos de factores de transcripción. R refleja la participación de cada uno de los p reguladores en el meta-c factores.

La determinación del número de componentes PLS

Un resto de los aspectos de análisis de regresión PLS es una buena opción de c el número de componentes latente. Si el valor máximo rango max = c (X), es elegido, entonces se convierte en PLS equivalente a la regresión de componentes principales (PCR) con el mismo número de componentes, y además, si n> p tanto PLS y PCR se convierten en mínimos cuadrados ordinarios múltiples Regresión.

Por lo tanto, con PLS es conveniente elegir el menor valor de c como sea posible sin sacrificar demasiado poder predictivo. Un sencillo procedimiento estadístico para estimar este valor mínimo min c es el método de validación cruzada, que procederá en la forma siguiente (véase también refs. [25] y [26]):

1. Dividir el conjunto de n genes al azar en 2 juegos: un aprendizaje conjunto que contiene 2 / 3 de los genes y un conjunto de pruebas que contiene el resto de los genes.

2. Utilice el aprendizaje conjunto para determinar la matriz de los coeficientes de regresión B para diferentes valores c = 1, 2 ,..., c max.

3. Predecir la expresión de genes de la n / 3 genes de la prueba B con el uso de diferentes valores de c.

4. Repita los pasos 1-3 K = 100 veces y calcular el cuadrado medio del error de predicción para cada c.

Posteriormente, el valor de c produciendo la menor cuadrado medio del error de predicción es seleccionado.

Alternativamente, el número óptimo de componentes también puede ser determinado por el valor de considerar el criterio i = Z | Y 't i | latente para un determinado componente i t. Si Z i cae por debajo de un determinado umbral, a priori, entonces c = min i es alcanzado.

Discusión
Conjuntos de datos

A continuación, se expone la versatilidad de la propuesta PLS enfoque de la red de análisis de componentes a través del análisis de varios conjuntos de datos biomoleculares real.

En primer lugar, con el fin de validar el método de regresión lineal (Eq. 1) reanalizamos hemoglobina datos de Liao et al. [9]. En segundo lugar, analizamos dos S. Cerevisiae la expresión de genes en los conjuntos de datos junto con un regulador de blanco de la matriz de conectividad a gran escala ChIP experimento de Lee et al. [2]. La expresión de levadura datos investigados comprenden una serie de tiempo de experimento Spellman et al. [27] y una recopilación de levadura respuesta de los experimentos de estrés Gasch et al. [6, 28]. Por último, analizamos expresión y de la conectividad de datos para una E. Coli regulador de red que contiene 100 genes y factores de transcripción 16 de Kao et al. [10]. Las características generales de estos cuatro conjuntos de datos se resumen en la Tabla 1.

Los datos fueron investigados que se procesan de la siguiente manera. La levadura ChIP conjunto de datos [2], contiene proteínas de ADN interacción datos para 6270 y de 113 genes de factores de transcripción. Incluye desaparecidos valores que no corresponden a la interacción entre genes y factores de transcripción pares. Aunque los datos son esencialmente ChIP continua, es práctica común dicotomía a ellas de acuerdo con el p-valores discretos en los niveles de interacción (0 o 1). En este estudio, hemos utilizado los datos obtenidos en un p-valor umbral de 0,001, según lo sugerido por Lee et al. [2]. Sin embargo, tenga en cuenta que en contraste con la autoridad nacional de competencia método, dicotomización de la ChIP datos es opcional en nuestro enfoque.

El Spellman et al. [27] microarrays de datos contenía originalmente la expresión génica de los genes 4289 en 24 puntos durante el tiempo del ciclo celular. A partir de estos genes, un subconjunto de 3638 también figuran en el Lee et al. [2] ChIP conjunto de datos. Nuestro análisis se basa en estos genes 3638. Del mismo modo, la expresión Gasch conjunto de datos [6, 28] contiene la expresión de 2292 genes para 173 arrays correspondientes a diferentes condiciones de estrés (por ejemplo, choque térmico, aminoácidos inanición, el agotamiento de nitrógeno). 2292 de estos genes, un subconjunto de 1993 se superponen a los genes considerados en el ChIP datos.

La matriz de conectividad para el E. Coli datos fueron compilados principalmente por Kao et al. [10] de la RegulonDB base de datos [11]. Además, se incorporan algunas correcciones utilizando datos de la literatura. El temporal E. Coli expresión de datos para 100 genes a través de 25 puntos de tiempo se introdujo también en Kao et al. [10] y está a disposición del público en http://www.seas.ucla.edu/ liaoj ~ /.

Validación de la regresión enfoque

Los datos utilizados en la hemoglobina Liao et al. [9] para la validación de la autoridad nacional de competencia clásico enfoque tiene la ventaja de que la verdadera coeficientes De la red en el modelo Eq. 1 se conocen, y por lo tanto se pueden comparar directamente con los valores inferidos.

Reanalyzing estos datos, es sencillo para mostrar (véase la figura 1] que el verdadero coeficientes de regresión se puede recuperar exactamente multivariado por regresión (de los cuales PLS es un caso especial). Según Liao et al. [9], esto también es cierto en el caso de NCA clásico, pero no para PCA e ICA interpretación de Eq. 1. Esta discrepancia puede explicarse por el hecho de que ni la ACC ni explícitamente ICA tiene en cuenta la respuesta de Y, en tanto que autoridad nacional de competencia y PLS.

PLS componentes y las cargas Y -

Posteriormente, se determinó el número mínimo de componentes PLS para la levadura y E. Coli conjuntos de datos utilizando la validación cruzada. Los resultados se representan gráficamente en la Figura 2 (arriba) después de la normalización (el promedio de error de validación cruzada con un componente PLS está ajustado a uno). Como puede observarse en la Figura 2, la mínima media de error de validación cruzada se obtiene con 5 componentes PLS para el Spellman datos, el 8 de PLS componentes para la Gasch datos PLS y 2 componentes para la E. Coli datos. Por comparación, el (normalizado) criterio objetivo | Y 't i | SIMPLS del algoritmo también está representado en la figura 2 (abajo) para un número variable de componentes PLS. Estos resultados están en buen acuerdo con la cruz a la validación de error: cuando aumenta PLS componentes con un bajo criterio objetivo se añaden.

El Y-cargas contenidas en la matriz m × c Q dar la proyección de la c "meta" de factores de transcripción para cada uno de los m experimentos. Como puede observarse en la Figura 3 para el Spellman datos, tanto la primera y la tercera meta-factores explican el periódico parte de la expresión de datos, pero con diferentes fases. La segunda meta-factor corresponde a pequeñas oscilaciones con período muy corto, mientras que la cuarta y quinta meta-factores que reflejan las tendencias de largo tiempo (lento y por etapas cada vez más, respectivamente). Uso de Fisher-g de prueba, como se propone en Wichert et al. [29], que hemos detectado estadísticamente relevante periodicidad de los cuatro primeros factores meta-. En la Figura 3, el Y-también están representadas las cargas para el E. Coli datos. Considerando que la proyección de la primera meta-factor es aproximadamente constante en el tiempo, la proyección de la segunda meta-factor aumenta fuertemente y (casi) de manera uniforme. Así, en los dos conjuntos de datos, el algoritmo PLS nos permite extraer factores de los meta-datos correspondientes a las distintas tendencias latentes.

A los datos Gasch, el m experimentos no corresponden a diferentes puntos de tiempo, pero a 13 diferentes condiciones de estrés (ver Gasch et al. [28] para más detalles, y en la Tabla 2 para la lista de condiciones). En este caso, el Y-curiosamente las cargas pueden ser analizados mediante el Wilcoxon suma en la clasificación de la prueba. K para cada condición y cada meta-factor j, H 0 a prueba la hipótesis de que la mediana de la proyección de la j-ésimo factor meta-es la misma en condición de k como en todas las demás condiciones ((1, ... , K - 1, k + 1 ,..., 13)). En esta situación, la suma de Wilcoxon en la clasificación de la prueba es preferible a la conocida muestra de dos t-test, porque algunas de las condiciones de incluir sólo un número muy pequeño de experimentos. Los resultados obtenidos con un valor de p de 0,05 umbral se muestran en la Tabla 2. Las entradas 1 y 0 corresponden a significativas y no significativas (FDR ajustado) los valores de p, respectivamente. Como puede observarse en el Cuadro 2, PLS cada componente tiene un patrón particular de las condiciones asociadas significativo, lo que indica que la meta-factores de la captura de una dirección distinta de los datos.

Inferirse factor de transcripción actividades

Uno de los principales objetivos de nuestro enfoque basado en PLS es estimar el verdadero factor de transcripción actividades (TFAs). Aunque todos los TFAs se puede calcular de la misma forma para los tres conjuntos de datos, se muestra sólo la evolución en el tiempo de unos pocos TFAs interesante para los dos conjuntos de datos de series de tiempo (es decir, el Spellman y datos de la E. coli).

Los TFAs (arriba) y los perfiles de expresión (en la parte inferior), de 4 de conocido los reguladores del ciclo celular se muestra en la Figura 4 para el Spellman datos. Los TFAs de MCM1, SWI4, SWI5 y ACE2 muestran patrones altamente periódico, que es coherente con el conocimiento biológico común. En contraste, la expresión de los perfiles MCM1 y SWI4 no son periódicos (esto puede ser confirmado por Fisher-g de prueba [29]]. Por otro lado, los perfiles de expresión de ACE2 se SWI5 y periódicos, aunque no con la misma etapa como la inferirse TFAs. Esto puede indicar tanto una inhibición o de un cambio de fase-efecto de los factores de transcripción en los genes regulados.

El resto de la TFAs y los genes regulados también se realizarán las pruebas de uso de la g periodicidad de los ensayos [29]. Después de FDR ajuste de la p-valores, encontramos que el 62 de los 113 factores de transcripción (= 55%) en el Spellman / Lee datos han TFAs periódico en el nivel 0,05. En contraste, sólo 804 de los 4289 genes (= 19%) presentan significativamente periódico perfiles de expresión.

Por el E. Coli datos de los perfiles de tiempo de las estimaciones de TFAs de los 16 factores de transcripción están representados en la Figura 5. Los TFAs de ArcA, GatR, Lrp, PhoB, PurR, RpoS disminuir con el tiempo, los de la DIS, CysB, FadR, IcIR, NarL, RpoE, TrpR y TyrR permanecer aproximadamente constante y los de FruR y LeuO aumentar fuertemente. Esto es coherente con los resultados previos obtenidos por autoridad nacional de competencia [10]. Se señala, no obstante, la autoridad nacional de competencia que, a diferencia de nuestro enfoque puede ser aplicado a cualquier arbitraria topología de la red, mientras que la actual E. Coli red se eligió específicamente para satisfacer los criterios de compatibilidad autoridad nacional de competencia [9].

Como puede verse ya algunos ejemplos de la muestra en la Figura 4, los TFAs no siempre se correlaciona con los respectivos perfiles de expresión. Hemos probado este para todos los factores de transcripción de los perfiles de la expresión que también se incluyeron en los conjuntos de datos. Para el Gasch datos, se observa que sólo 63 de los 90 factores de transcripción exposición disponibles los perfiles de expresión que se correlacionan con TFAs (en el nivel 0,05 con FDR p-valor de ajuste). Para el Spellman series temporales de datos, ninguno de los 78 disponibles TFA-expresión perfil pares están correlacionados. Estos resultados indican claramente que la investigación de métodos de regulación transcripcional de expresión con datos como su única base es probable que se pierda la regulación de actividades potencialmente importante.

Gene-regulador de los factores de acoplamiento

Otro tema de interés es la identificación de los falsos positivos en ChIP datos. Tras Gao et al. [14] que investigar este problema utilizando la prueba de correlación de Pearson. Por supuesto cada factor de transcripción de genes-par (según los datos dichotomized ChIP) que si la prueba inferirse TFA es significativamente correlacionado con el perfil de la expresión de genes regulados. Para el Gasch datos, encontramos que el 73% de los 1495 genes de factor de transcripción pares son correctos (es decir, el TFA se correlacionó significativamente con la expresión perfil en el nivel de 0,05 con FDR p-valor de ajuste). La concordancia con la conectividad ChIP información es mucho peor para los datos Spellman, en la que sólo el 32% de los 2535 genes de factor de transcripción pares son significativamente correlacionado.

Nos gustaría añadir como una advertencia de que la falta de correlación entre la TFA y de genes objetivo tiene que ser visto como específicos de los microarrays estudio investigó. Otros experimentos de expresión puede activar diferentes vías y, por tanto, producir diferentes modelos de correlación en relación con la información ChIP conectividad.

Conclusión

Red componente combina análisis con microarrays de datos ChIP datos con el fin de mejorar la estimación de regulador de las actividades y ventajas de la conectividad. En este trabajo hemos presentado un enfoque de la autoridad nacional de competencia basado en los mínimos cuadrados parciales, un computacionalmente eficiente herramienta de regresión estadística.

Nuestro marco PLS permite varios inconvenientes, inherentes tanto en el clásico NCA métodos basados en la matriz de la descomposición y en la MA-Networker algoritmo, que hay que superar. Su simplicidad (no iterativo paso, ninguna variable de selección, no estocásticos de búsqueda) y su flexibilidad (de distribución no suposiciones, no topológico limitaciones, sin condiciones sobre las dimensiones), en comparación con enfoques hacen especialmente atractivo como un método de integración para el análisis de complejas redes reguladoras . Además, el algoritmo PLS no sólo extrae información sobre gen regulador-y sobre-expresión TFA perfil pares, pero también se identifican coherente meta-factores que reflejan las direcciones principales de la variación de los datos, teniendo en cuenta tanto la expresión ( ) Y de la conectividad de la información ( ).

Nuestro análisis de datos biológicos muestra la versatilidad de nuestro enfoque PLS, y al mismo tiempo de manera espectacular, confirma la necesidad de una expresión combinada de ChIP análisis para inferir la reglamentación. Especialmente llamativo son las veces drásticas diferencias entre la medición de los niveles de transcripción y la PLS-inferirse transcripción actividades. Según Segal et al. [6], algunos factores de transcripción también puede no estar activo en todas las condiciones. Tenga en cuenta que esta hipótesis también es automáticamente tomado en cuenta por nuestro enfoque.

Autoridad nacional de competencia, en general, y en el presente PLS variante basada, en particular, puede ser criticado por depender de un simple modelo lineal - véase BUCHLER et al. [30] y Setty et al. [31] para la contra-ejemplos. Por lo tanto, más elaborado de regresión, como los modelos lineales generalizados (GLMs) o modelos aditivos generalizados (GAMs) podrían ser necesarias para mejorar aún más nuestra actual comprensión de la mejor manera a modelar las complejas estructuras que rigen las redes genéticas.

[Nota añadido en la prueba: Véase Yang et al. [32] para un estudio relacionado con este tema en la hermana revista BMC Genomics.]

Contribuciones de los autores

A.-LB realizado todos los análisis de datos y simulaciones. Ambos autores desarrollaron conjuntamente la metodología, escribió el manuscrito, y aprobó la versión definitiva.

Apéndice: Programa informático

Todos los algoritmos se han implementado en el lenguaje de I [33]. Un paquete correspondiente R "plsgenomics" desarrollado por los autores se encuentra disponible para su descarga desde el CRAN archivo http://cran.r-project.org.

Agradecimientos

Damos las gracias Eran Segal y James Liao de la amabilidad de proporcionar los datos de Saccharomyces cerevisiae y la hemoglobina de datos, respectivamente. También damos las gracias a los árbitros anónimos para útiles comentarios. Este trabajo recibió el apoyo de la Deutsche Forschungsgemeinschaft (DFG) a través de un Emmy Noether beca de investigación a KS y la Sonderforschungsbereich 386.