Genome Biology, 2005; 6(4): R33-R33 (más artículos en esta revista)

Promotor características relacionadas con la especificidad tisular, medido por la entropía de Shannon

BioMed Central
Jonathan Schug (jschug@pcbi.upenn.edu) [1], Winfried-Paul Schuller [2], Claudia Kappen [2], Michael J Salbaum [2], Maja Bucan [3], Christian J Stoeckert [1]
[1] Center for Bioinformatics, University of Pennsylvania, Philadelphia, PA 19104, USA
[2] Department of Genetics, Cell Biology and Anatomy, University of Nebraska Medical Center, Omaha, NE 68198, USA
[3] Department of Genetics, University of Pennsylvania, Philadelphia, PA 19104, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Un amplio análisis del genoma-de los promotores se llevó a cabo en el contexto de los patrones de expresión génica en tejidos humanos mediante encuestas y EST microarrays de expresión basada en datos. El estudio reveló que la mayoría de los genes muestran estadísticamente significativa de tejidos que dependen de las variaciones del nivel de expresión y de los componentes identificados de los promotores que distinguen a los tejidos específicos de los genes de la ubicuidad.

Antecedentes

El desarrollo de un adulto a partir de la única célula de un óvulo fertilizado requiere una compleja orquestación de los genes que se expresen en el momento oportuno, el lugar, y el nivel. Básica funciones celulares requieren la expresión de ciertos genes en todas las células y los tejidos (es decir, de una manera ubicua), mientras que requieren funciones especializadas Restringido expresión de otros genes en un único o pequeño número de las células y los tejidos (es decir, los tejidos específicos). Ambos tipos de genes pueden ser necesarios para el desarrollo embrionario, así como para la función de las células y los tejidos adultos. Si bien los detalles de los mecanismos de regulación varían para los distintos genes, las características generales de los promotores (y aquí vamos a limitar nuestro campo de acción para la RNA polimerasa II (pol II) promotores) puedan facilitar si un gen se expresó ampliamente o de manera restringida . Por ejemplo, sobre la base del número limitado de genes disponibles en el momento del análisis, con los promotores de las islas CpG se han asociado a los genes de limpieza [1, 2]. Es conveniente volver a examinar este hallazgo en el contexto de completa de los genomas humano y del ratón y situarlo en el contexto posterior a los resultados, como la asociación de islas CpG con embriones expresión [3].

Por otra parte, también sería informativo para examinar la relación de islas CpG de la base de la composición de los promotores, y la distribución de los motivos que se consideran vinculados por factores estrechamente vinculado con (o parte de) el complejo basal de transcripción. La distribución de los componentes principales del núcleo promotor, la caja TATA (TBP / TFIID sitio de unión) y el elemento iniciador (Pol II sitio de unión, Inr) [4], y proximal elementos como Yin-Yang 1 (YY1) sitio [5 -- 8], entre los genes aún no es bien comprendida. Además, la correlación funcional con la especificidad tisular y promotor estructura son, en gran medida desconocida fuera de la isla CpG asociación. Nuestro objetivo es poner estos componentes juntos, en general, los modelos de la especificidad tisular mediante encuestas en todo el genoma de expresión en muchos tejidos.

Los investigadores han buscado combinaciones de los factores de transcripción-que confieren el carácter de unión de los tejidos específicos de expresión en particular, como los tipos de células musculares [9] o el hígado [10] en los mamíferos, en el cuerpo o en el plan de especificación de la mosca de la fruta [11, 12] (Ver [13] para una revisión). En apoyo de estos esfuerzos, los análisis de todo el genoma de los datos de expresión han centrado en gran parte en la identificación de patrones comunes para determinados tejidos, la enfermedad o los estados de señalización insumos. Para datos de microarrays, los investigadores han comenzado a definir estos patrones, en gran medida mediante la aplicación de los algoritmos de clustering [14, 15]. Nuestro enfoque consiste en clasificar los genes en el espectro de la especificidad tisular que va de la expresión limitada a un tejido uniforme a la ubicuidad de expresión. Podemos estudiar en detalle la distribución de los genes humanos y de ratón en todo el espectro de la especificidad tisular y el uso de este para identificar puntos comunes y las diferencias de sus promotores con la secuencia completa del genoma disponible [16], las bibliotecas enriquecido de ADNc de larga duración [17 - 19 ] Y de las encuestas a escala del genoma de la expresión génica mediante microarrays [14, 20 - 24], [25] SAGE, mRNAs [18] y las etiquetas de secuencias expresadas (EST) [26]. Validamos patrones descubiertos en secuencia humanos y de expresión en comparación con datos similares obtenidos en ratones.

Las medidas se han desarrollado para la general de la especificidad tisular [3, 27, 28] que ascienden a contar el número de tejidos que expresan un gen. Estos son realmente de medida de restricción de los tejidos, ya que no consideran ningún sesgo en la expresión a través de los tejidos que expresan el gen. La mayoría de medidas de carácter específico para un determinado tejido son equivalentes a la expresión relativa en un tejido en comparación con el total de expresión en todos los tejidos considerados, (véase, por ejemplo [29]]. Afirmamos que, en general, la especificidad tisular medidas deberían tener en cuenta los niveles de expresión en diferentes tejidos, y no sólo la presencia y la ausencia, y que la especificidad de determinados tejidos medidas debe considerar la distribución de expresión entre todos los tejidos además de los tejidos de interés. Estas medidas permitirían a la correcta identificación de los genes específicos como para un pañuelo de papel al tejido que no es el sitio principal de expresión, pero sólo hay unos pocos otros tejidos donde se expresa el gen.

Una métrica para caracterizar la amplitud y la uniformidad de los patrones de expresión de un gen que cumpla nuestro criterio de Shannon es la medida de la entropía de información teórica. Aunque la entropía se ha utilizado anteriormente para determinar los posibles objetivos de medicamentos [30, 31] considerando la entropía de la variación de los niveles de expresión y al grupo microarrays de datos [32], nuestra aplicación directa de la entropía para medir la especificidad tisular es única. Entropía (H) mide el grado de general de la especificidad tisular de un gen, pero no indica si se trata de un determinado tejido. Cuantificar categórica la especificidad tisular, introducimos una nueva estadística (Q), que incorpora general de la especificidad tisular y nivel relativo de expresión. Se demuestra que H y Q son eficaz métrica para la clasificación y selección de los genes de acuerdo a la especificidad tisular y, a continuación, proceder a utilizarlos para investigar las características de promotor (islas CpG, base de la composición, el factor de transcripción motivos) que se pueden utilizar distinguir los tejidos de genes específicos de inespecífico Genes. La asociación promotora de características con una evaluación cuantitativa de la especificidad tisular usando H y Q es un paso importante hacia el desarrollo de modelos para la función de promotor.

Resultados
La definición de la especificidad tisular

Comienza por definir la medición de dos tipos de tejido especificidad, 'global' y de la especificidad tisular 'categórica' la especificidad tisular. (Para evitar confusiones vamos a utilizar siempre las palabras' especificidad 'y' concretas' para referirse al grado de expresión tejido-Restringido un gen exposiciones y nunca como un sinónimo de la palabra 'particular'.) En general la especificidad tisular filas según un gen Al grado en que su patrón de expresión difiere de la ubicuidad uniforme expresión. Nosotros utilizamos el término "ubicuidad" expresión en el sentido de la expresión a cualquier nivel por encima de fondo en todos los tejidos. Categórico especificidad tisular hace especial hincapié en un tejido de intereses y un gen filas según el grado en que su patrón de expresión es sesgada hacia la expresión particular, que sólo en el tejido. En ambos casos, un gen de la especificidad a un tejido, el tipo de células o de otra condición es reducido como el gen está expresado de manera más uniforme en una variedad más amplia de condiciones. Además, el tejido categórico especificidad debería disminuir como el tejido de intereses se convierte en un componente más pequeño de la pauta general de la expresión génica.

Dada una expresión de múltiples tejidos perfil de un gen, hay al menos dos dimensiones a lo largo de la cual podemos evaluar el perfil a la medida de la especificidad tisular. La primera dimensión es el número de tejidos que expresan el gen encima de algunos antecedentes. Se puede argumentar que esta dimensión de las medidas de restricción de los tejidos, es decir, un gen muestra restringida de expresión, si éste se expresa sólo en un subconjunto de los tejidos. La segunda dimensión es la uniformidad de expresión sobre todos los tejidos que expresan el gen. Una muestra significativa de genes que no se exhiben uniformes expresión tejido-dependiente reglamento, además de cualquier restricción de tejidos que puedan estar ocurriendo. Suponemos que un gen que no exhibe una regulación específica del tejido se expresó en el mismo nivel en todos los tejidos. Nosotros no afirmamos que dichos genes no están regulados, sólo que están regulados de una manera que no es sensible a los tejidos.

El término "la mayoría de los tejidos específicos" se referirán a la variedad de genes que están más cerca de los extremos de expresión en un solo tejido que hasta el extremo de la ubicuidad uniforme expresión. Nos referiremos a los genes cerca de la final uniforme y ubicuo como "menos tejido-específico 'o' inespecífica 'aunque este último término puede no ser estrictamente cierto. El rango en el medio se denomina "semi-tejidos específicos". El término "limpieza" se ha aplicado a los genes que están ampliamente expresadas y pueden demostrar poco tejido-específico cambios en la expresión. Podemos utilizar esos genes, como un ejemplo de los genes que tienden a ser doquier y expresó de manera uniforme y, por tanto, debería ser inespecífico en promedio. Haremos uso de la frase 'el intercambio de genes' para referirse a la situación que se produce cuando un gen es tejido-específica, y se expresa en un pequeño número de tejidos que se puede decir de compartir el gen.

Medición de la especificidad tisular con la entropía

Hemos utilizado dos bases de datos de expresión de genes-para evaluar nuestros métodos; Affymetrix basado en datos de la Expresión Génica GNF Atlas (GNF-PGE) [22] y la distribución de tejidos para la fuente EST bibliotecas de las agrupaciones y asambleas de las tecnologías ecológicamente racionales en la DoTS ratón Y el índice de genes humanos [33]. Como se describe en Materiales y métodos, el GNF-PGE de datos se utilizaron como siempre; EST cuenta en el índice DoTS gen se ajustaron con pseudocounts y normalizado para tener en cuenta las diferentes tecnologías ecológicamente racionales número de la muestra de cada uno de los tejidos a través de todas las bibliotecas. Habida cuenta de los niveles de expresión de un gen en tejidos N, definimos la relativa expresión de un gen en un tejido g t como t p | g = w g, t / Σ 1 ≤ tN w g, donde w t g, t es El nivel de la expresión de genes en el tejido. La entropía [34] de la expresión de un gen es la distribución H g = Σ 1 ≤ tN - p t | g log 2 (p t | g). H g tiene unidades de bits, y oscila entre el cero de los genes expresados en una sola Tejido a log 2 (N) de los genes expresados de manera uniforme en todos los tejidos. El valor máximo de H g depende de la cantidad de tejidos por lo que considera este número informe cuando proceda. Debido a que el uso de la entropía relativa expresión de un gen no es sensible a los niveles de expresión absoluta. Para medir la especificidad tisular categórico definimos Q g | t = H g - log 2 (p t | g). La cantidad-log 2 (p t | g) también tiene unidades de bits y tiene un mínimo de cero que ocurre cuando un gen se expresa en un solo tejido y crece unboundedly como expresión de la relativa baja el nivel a cero. Así Q g | t está cerca de su mínimo de cero bits cuando un gen es relativamente altamente expresado en un pequeño número de tejidos incluyendo el tejido de interés, y se convierte en lo más alto, ya sea el número de tejidos que expresan el gen es mayor, o como la relativa Contribución de los tejidos a los genes del patrón general se reduce. Por sí misma, el término-log 2 (p t | g) es equivalente a p t | g. Agregar la entropía sirve para favorecer la expresión de genes que no son altamente expresado en el tejido de interés, pero se expresan sólo en un pequeño número de otros tejidos. Como se describe anteriormente, queremos considerar categóricamente tales como los genes específicos de tejido, ya que su patrón de expresión es muy restringido. La figura 1 muestra ejemplos de los patrones de expresión GNF-PGE de datos para diferentes valores de H y g Q g | t. Los cinco genes específicos de ratón amígdala, ganglios linfáticos, hígado y según la evaluación de estos datos figuran en la Tabla 1. Tablas de H y g Q g | t valores para todos los genes en todos los tejidos en los PGE-GNF conjuntos de datos están disponibles en los archivos de datos adicionales 1 y 2.

Para comparar los resultados de los microarrays y EST basada en datos de expresión estudiamos los tejidos de los PGE-GNF estudio a la jerárquica vocabulario controlado de términos anatómicos utilizados por DoTS y eligió un conjunto de 45 términos de tejidos agrupados en 32 grupos se muestra en el Cuadro 2. En ambos casos, la gran mayoría de los genes son ampliamente expresada, medida por H g, como se muestra en la Figura 2 bis. 7714 de la sonda fija en el GNF-PGE de datos con un valor medio normalizado de intensidad superior a 50 unidades arbitrarias (AU), 6167 (80%) de los genes habían H g ≥ 4 bits, lo que implica la expresión en por lo menos 16 tejidos y normalmente corresponde A la más amplia, pero desigual, de expresión. Sólo 87 (2%) de los genes habían H ≤ 1,5 g bits, lo que corresponde a la expresión en tan sólo tres tejidos. Tanto los microarrays-EST y basado en datos resultantes general de las curvas similares. La EST curva llegaron a un máximo de un menor H g de la curva de microarrays. Esto se debe al reducido número de secuencias EST en algunos de los tejidos que hemos considerado; EST cuenta de los tejidos varió de 1933 en la glándula suprarrenal a 331582 en el sistema nervioso central (SNC). Los genes que son expresados doquier pueden no tener las tecnologías ecológicamente racionales de varios de los tejidos ligeramente secuenciado, lo que parece tener más restringida de expresión, y por lo tanto menor entropía, que lo que realmente hacen. Figura 2b muestra la correlación entre las estimaciones de H g derivados de microarrays y datos de EST. La inspección visual de la trama revela que, si bien no existen fuertes contradicciones entre los dos métodos, cuantitativos acuerdo es limitado. Análisis detallado muestra que la desviación estándar de la diferencia de los pares de valores de H es 0,61 g bits. Bajo la hipótesis nula de que las estimaciones de las dos fuentes de datos no son totalmente de la media, desviación estándar, resultó ser 0,91 bits. Podemos rechazar la hipótesis nula (P <10 -5 estimado por métodos de Monte Carlo). La distribución de Q g | t para determinados tejidos se muestra en la Figura 2c. Estas curvas se pueden utilizar para caracterizar los tejidos en cuanto al número de genes específicos de tejido y la cantidad de intercambio de genes, por ejemplo, el hígado tiene un número relativamente grande de genes compartidos con un pequeño número de otros tejidos. En cambio, no hay en este conjunto de genes que se expresan en forma exclusiva la amígdala.

Es importante determinar qué tan bien el H y g Q g | t estadísticas pueden ser estimadas a partir de un conjunto de datos a fin de determinar la menor diferencia significativa en las puntuaciones y para orientar la interpretación de los rankings de genes. Para evaluar las desviaciones de la norma y H y g Q g | t, de la réplica de la muestra en el GNF-PGE microarrays de datos para calcular un gran número de H g valores establecidos para cada sonda. Se encontró que la desviación estándar para H g fue de menos de 0,2 bits para el 97% de los genes. Q g | t no se estima así, la desviación estándar fue de 1 bit o menos para el 95% de los pares de genes y tejidos. Esto se debe probablemente a la alta desviación estándar de la-log 2 (p t | g) del plazo para la expresión de genes de baja tejido pares. Hemos encontrado mucho más cuando se mide la variación de reproducibilidad por considerar que los genes tienen dos o más conjuntos de la sonda (y, por tanto, dos o más diferentes transcripciones) en los datos de microarrays. En este caso, la desviación estándar de las estimaciones H g fue tan alto como 1 bit para el 97% de los genes, pero menos de 0,3 bits por alrededor de 70-80% de los genes. Elegimos un mínimo de 1 bit para H g papeleras y 2 bits para Q papeleras en el resto de los análisis que requieren hurgar en la basura. Esta bin tamaño posible que la mayoría de los genes están en el adecuado y, por tanto, el bin bin fiable podría ser utilizado para determinar la asociación con el tejido específico de una clase de genes.

Evaluación de un conjunto de genes de limpieza

Una prueba de la H y g Q g | t estadísticas es determinar los valores de un conjunto de genes inespecíficos como limpieza genes. Una lista de 797 genes humanos de la casa [35], se evaluó el uso de estas estadísticas basadas en el GNF-PGE de datos utilizando RefSeq números de acceso adecuados para identificar sonda fija. Los genes de la casa había una media de H = 4,6 g ± 0,27 bits en un conjunto de 27 tejidos con un máximo H = lg (27) = 4,75 bits, por lo que son inespecíficos como se esperaba. Curiosamente, un pequeño número de estos genes mostraron algún grado de especificidad tisular aún se expresó doquier. Por ejemplo, la mediana de expresión NM_021983 el complejo principal de histocompatibilidad de clase II DR beta 4 genes (32035_at) es de aproximadamente 200 AU, pero se nota mucho más alta expresión en un pequeño conjunto de los tejidos (bazo, timo, pulmón, corazón y sangre total ), Que redujo su entropía. Un caso extremo es más NM_001502 glicoproteína 2 (zymogen gránulo de proteínas de membrana 2), que se expresa entre 250 y 1000 la Unión Africana en todos los tejidos excepto páncreas, en el que se expresa a la Unión Africana 34183. Se trata de un gen que expresó doquier la entropía clasifica como específicas, ya que mostró tan extremas en tejidos específicos de la inducción. Los genes de la casa había una media de Q g | t = 9,5 ± 0,14 bits en el mismo conjunto de los tejidos. La espera para un valor Q de manera uniforme y expresó doquier gen es de 2 lg (27) = 9,5 bits. Así, la g y H Q g | t estadísticas consiguió tomar la espera propiedades de la expresión de genes de limpieza.

La mayoría de los genes están regulados en una forma dependiente de tejido -

Aunque la limpieza encima de los genes evaluados han entropies relativamente alto, que muestran algunos de los pequeños grado de general de la especificidad tisular. Por lo tanto, trató de determinar el número de genes que muestran pruebas de los tejidos que dependen de la reglamentación. Desde azar biológico y experimental variación introducir variaciones en la expresión de genes, se hizo una probabilidad modelo de los efectos de estas fluctuaciones observadas en la entropía. La variabilidad experimental se estimó a partir de la GNF-PGE de datos utilizando todos los tejidos normales. El azar de tejido a tejido variabilidad biológica fue modelado por el supuesto de que cada gen tiene un nivel medio de expresión a través de todos los tejidos y que el registro de la base 2 de los tejidos que dependen de las veces los cambios de nivel medio siguen una distribución normal con media igual a cero Y algunos desconocidos, pero "pequeños", la desviación estándar (s). Se obtiene una estimación conservadora del número de genes que muestran pruebas de los tejidos que dependen de la regulación de la utilización de s = 0,5, que permite una relativamente gran cantidad de variación, de hasta 1,4 veces el tejido a tejido en torno a la variación media en el nivel de expresión Alrededor del 63% de los tejidos y los cambios más grandes en el resto de los tejidos. Como un umbral para la selección de genes con los tejidos que dependen de expresión, elegimos H g = 4,52 bits que tiene un valor de p de 0,005 bajo la hipótesis nula de que todos los genes son uniformes. Tenemos entonces que encontrar 5837/8703 (67%) de los genes humanos han entropies menos de esto y probablemente lo son regulados en un tejido de forma dependiente. Si utilizamos una definición más estricta de la expresión uniforme que permite la mitad de la variación en el tejido a tejido niveles de expresión (s = 0.25), y luego el umbral es H g = 4,62 bits y nos encontramos con que 7584/8703 (87%) De los genes humanos muestran pruebas de los tejidos que dependen de la reglamentación. Resultados similares se encuentran en ratón utilizando todos los 42 diferentes tejidos, donde los correspondientes umbrales son H = 5,24 g bits (s = 0.5) y H g = 5,35 bits (s = 0.25) y de una fracción de los genes que muestran los tejidos que dependen de expresión son 5467 / 7913 (69%) y 7482/7913 (94%), respectivamente. Así llegamos a la conclusión de que la mayoría de los genes de manifiesto la existencia de los tejidos que dependen de los niveles de expresión.

La agrupación de tejidos utilizando Q

Una prueba de Q g | t con respecto a genes específicos es evaluar los tejidos en los que los primeros puestos (es decir, tener un bajo Q) para la coherencia. Esto se llevó a cabo por la agrupación de tejidos similares con genes específicos de tejidos-y la inspección de los grupos formados. Se utilizó 27 tejidos humanos normales y, por separado, 39 tejidos de los PGE-GNF datos para ratón y seleccionado los genes (N = 3768 N = humanos y de ratón 1786) que expresan por lo menos 200 UA por lo menos en un tejido y han Q g | T = 7 por lo menos en un tejido. Con estos genes, se hizo un consenso agrupación jerárquica de los tejidos, como se muestra en la Figura 3. Se encontró que los tejidos del sistema nervioso, estructuras reproductivas (con exclusión de testículo), el sistema inmunológico, el sistema digestivo y el grupo junto con fiabilidad en ambas especies. Además, el músculo esquelético y el corazón agrupadas en ratón; humanos de la encuesta no han músculo esquelético. Estos resultados sugieren que la Q g | t es correcta identificación de genes específicos de tejido. Curiosamente, el testículo es un tanto atípicas en los árboles, lo que indica que la reunión de los genes expresados en los testículos son distintos de cualquier otro tejido u órgano. Además, H y Q g g | t también se puede utilizar en conjunción con un tejido jerarquía para responder a cuestiones más complejas acerca de la distribución de tejidos de los genes, como "lo que los genes son específicas del cerebro sino que se expresó ampliamente en todo el cerebro?" En el cuadro 3 que la lista de los cinco mejores del ratón genes expresados específicamente, pero de manera uniforme a través de tres de los grupos de relieve en la Figura 3b.

Islas CpG se asocian con la menor de tejidos específicos de los genes

Se ha propuesto que las islas CpG son en su mayoría asociados a los genes promotores de la casa [2]. Se realizó una prueba cuantitativa de esta hipótesis utilizando el GNF-PGE de datos y determinar la frecuencia de las islas CpG en los promotores en función de H g. Se consideraron sólo predijo CpG islas que se extienden del inicio de la transcripción (véase [3] para la justificación de esta definición), y que los genes expresados por lo menos en el nivel medio de 200 UA (es decir, que se expresó moderadamente) en por lo menos una Tejidos, y estuvieron representados por un único conjunto de la sonda Affymetrix chip utilizado en el GNF-PGE experimentos. Promotor secuencias fueron extraídas de DBTSS y se basaban en el 5 'extremos de las transcripciones de larga duración [17]. Hemos encontrado que hay una fuerte, más o menos lineal, la correlación entre un gen de la H g entropía y la probabilidad de que el gen tendrán una isla CpG previsto comenzar tal y como se muestra en la Figura 4. Inicio islas CpG se asociaron con sólo nueve de los 100 tejidos específicos de la mayoría de los genes humanos, en comparación con el 80% de los menos de tejidos específicos de los genes. Cifras similares se encontraron para ratón (7% comienzo isla CpG frecuencia para la mayoría de los 100 tejidos de genes específicos; cerca de 64% menos para el tejido de genes específicos). Una comparación de las islas CpG de los más y menos genes específicos de tejido-no reveló ninguna diferencia significativa en la composición general de base o de la relación observada a la espera CpG dinucleotides. La distribución de la posición de los 5 'punto final de islas CpG también fue muy similar para la mayoría de los tejidos-y menos genes específicos islas CpG aunque tienden a comenzar más arriba en el tejido menos de genes específicos (datos no presentados).

Otro grupo de genes que se observó asociada a islas CpG son las expresadas en el embrión temprano [3] desde el huevo fertilizado a la blastocisto. Se plantea la cuestión de si existe una asociación de los genes de haber islas CpG y comenzar la etapa de desarrollo de la expresión (es decir, de embriones frente a los adultos), además de la de la especificidad tisular. Estamos investigando esta posibilidad en el ratón utilizando DoTS [33] EST mRNA y asambleas por tabulación DoTS el número de genes que contienen, al menos, dos tecnologías ecológicamente racionales de un embrión temprano de ratón de biblioteca, como se muestra en la Tabla 4. Se consideraron 933 genes con inicio islas CpG (CGI +) y 1007 genes sin empezar islas CpG (CGI) que se expresaron en el adulto. Si no hay sesgo de desarrollo, la distribución de este CpG + CpG y genes-se debe mantener en los genes expresados en el embrión. Sin embargo, sólo 139 (14%) de la CGI-genes se expresan en el embrión temprano en contraste con los 365 (39%) + CGI genes (P = 3 × 10 -70 exacta binomial). Por lo tanto, un gen se expresa en el adulto fue 2,8 (= 0.39/0.14) veces más probabilidades de ser expresadas en el embrión temprano si figura un comienzo CpG isla. Además, la mayoría de los tejidos específicos de los genes expresados en los adultos fueron cuatro veces más probable que se han expresado en el embrión temprano si su promotor figura un comienzo CpG isla. Estos resultados sugieren fuertemente que las islas CpG son promotor para ambas características embrionarias y el tejido menos de genes específicos.

Base composición de los promotores depende de la especificidad

Análisis de la base de los perfiles de composición de los promotores proporciona pistas a características comunes, incluyendo motivos asociados con el promotor categorías. Examinamos la base de la composición de los perfiles humanos de los promotores de alta (0 ≤ ≤ 3,5 g H bits) y baja (4,4 g H ≤ ≤ 4,71 bits) tejido-específico de genes. Se consideraron + CGI y CGI-genes por separado, ya que es clara la presencia de una isla CpG influirán poderosamente en la base de la composición y que la fracción de las islas CpG de inicio varía con la entropía. Además, la presencia de un comienzo isla CpG puede indicar un diferente mecanismo de regulación relacionados a cualquiera de los tejidos de embriones o de la especificidad de expresión (o de ambos). El número de promotores de DBTSS en estas cuatro clases que se usaron en el análisis fueron: 310 y 129 CGI-CGI + alta especificidad; 342 CGI-CGI y 1501 + baja especificidad. Los genes que no sólo han de inicio islas CpG representa un componente menor de edad y que no fueron incluidos en este análisis. Se utilizó el conjunto de los tejidos normales en el primer GNF-PGE microarrays para estudiar humanos y de ratón. Base composición con 10 perfiles de base-pair (bp) las ventanas se muestran en la Figura 5 de los genes humanos. Cada una de las características que se observaron en el informe humanos y de ratón (a menos que se especifique lo contrario) y comparar a G o C T A de más de los espacios de por lo menos 10 posicional papeleras, la probabilidad de observar por lo menos una característica de este largo por casualidad es de menos de 0,5 10, lo que equivale al 0,001. Los promotores de los genes + CGI (Figura 5a, b] comparte características, pero también podían distinguirse sobre la base de la especificidad tisular. Una característica común de CGI + promotores fue el aumento en el contenido de G + C que comienza en 1000 pb aguas arriba del sitio de inicio de transcripción y sigue en 200 pb aguas abajo. El C + G sesgo alcanzado p (C + G) = 0,7 al inicio de la transcripción y continuado en el 5 'UTR. Inespecíficos (Figura 5c] y de tejidos específicos (Figura 5d] CGI-genes todavía mostraron un sesgo de G + C en todo el inicio de la transcripción, pero es mucho menor magnitud en la p (G + C) = 0,54. La baja especificidad CGI + genes (Figura 5a] mostró aguas arriba base de la composición sesgos que no se encontraron en ninguna de las otras tres clases de genes. Hay una preferencia por los más de C G (p (C)> p (G)) en el (-350, -150) y la región también una preferencia por p (A)> p (T) en el -600, -200 Humanos en la región (esta región se encuentra (-400, -150) en el ratón). En los tejidos específicos de CGI + (Figura 5b] genes de la fuerte sesgo de G + C, pero celebró p (C) = p (G), con excepción de la (+50, 100) región donde p (C)> p (G) . Estas base de la composición de las diferencias observadas entre inespecífico y tejidos específicos de los promotores de las regiones de más de cientos de pares de base, incluso en el contexto de una isla CpG, sugieren diferentes características estructurales y mecanismos de reglamentación para estos CGI + clases.

Lo más sorprendente fueron las diferencias entre inespecífico y tejidos específicos de los promotores que son independientes de la presencia de una isla CpG. Un fuerte repunte en la proporción de una y T se vio en la (-50, -1) para la región de todas las clases, pero fue más pronunciada en los tejidos específicos de los promotores (Figura 5b, d]. Estos picos corresponden a la presencia de una caja TATA y sugieren una correlación con motivo de este tejido de genes específicos (exploración más completa más adelante). Por el contrario, todos los genes de baja especificidad (Figura 5 bis, c] comparten un rasgo común en el (+1, +200) región donde p (G)> p (C) y (T) p> p (A) que No se observó en tejidos específicos de los genes (Figura 5b, d]. Como se indica más adelante, esta característica de baja especificidad podría explicarse en parte por la presencia de un motivo YY1. Estas base de la composición de las diferencias observadas entre inespecífico y tejidos específicos de los promotores es probable que indicar los motivos que distinguen a las dos clases.

Selección de motivos factor de transcripción en el núcleo promotor

Seguidamente, examinó la distribución de promotor características básicas fundamentales: la caja TATA, el elemento iniciador, y dos sitios de unión para determinados factores de transcripción ubicuos, Sp1 y YY1, para ver si su presencia en el promotor proximal está correlacionado con la especificidad de un tejido Gen. Se adoptaron dos enfoques utilizando diferentes bases de datos y los métodos de búsqueda de motivos que dieron resultados similares, proporcionar una confirmación independiente de los resultados. En primer lugar, se realizaron búsquedas en los motivos básicos para utilizar la matriz de peso hits en promotores de los genes seleccionados mediante H g calculado a partir de los PGE-GNF datos. En segundo lugar, hemos buscado un consenso básico motivo en los sitios promotores de los genes seleccionados mediante Q g | t calculado a partir de datos de EST.

TATA cajas están asociados con genes específicos de tejido -

Hemos agrupado los genes humanos expresó que al menos 200 AU (valor medio) en el GNF-PGE datos de la entropía y empezar CpG la insularidad. El número de genes de cada categoría se muestra en el cuadro 5 junto con un resumen de los resultados. Se utilizó alineaciones de la posición específica de las matrices de calificación y puntuación umbrales incluidos en la base de datos de promotores eucarióticos (EPD) [36] para identificar la caja TATA y el elemento iniciador. Coincidencias con estos motivos fueron preferentemente situado en la espera posiciones en relación con la transcripción sitio web inicial sobre la base de la relación entre el número de serie para observar el número esperado usando un conjunto de secuencias aleatorias con la misma posición que dependen de la composición como base de cada uno de los promotores .

Se buscaron el TATA en el cuadro de (-45, -10), región en la que la media observada / esperada para el ratio fue de 3,1 caja TATA. Como se indica en el cuadro 5, la más específica de CGI-genes fueron seis veces más probabilidades de tener un TATA box que los menos específicos de los genes + CGI (117/215 (54%) versus 183/2072 (9%), P ≈ 0 Binomial exacto). Cifras similares se encuentran en los ratones (52% / 11% = 4.7) Esta tendencia también se mantiene dentro de CGI-CGI + genes y los genes. La mayoría de los genes específicos de CGI-eran tres veces más probabilidades de tener una caja TATA menos específico que el CGI-genes (117/215 frente a 110/607, P ≈ 0 binomial exacto). Aunque menos comunes en los genes + CGI, TATA cajas siguen casi cuatro veces más probable que se encuentre en la mayoría de los genes específicos CGI + menos específico que el CGI + genes (19/56 versus 183/2072, P = 2 × 10 -7 exacta binomial) . Así TATA cajas están claramente asociados con el tejido de genes específicos y ofrecer un segundo eje (con islas CpG) para distinguir entre los más y menos genes específicos.

En cambio, la frecuencia de apariciones de la iniciadora elemento (Pol II sitio de unión) es más o menos constante a través de todos los tejidos de especificidad para ambas clases + CGI y CGI-genes. Se buscaron el elemento iniciador en el (-10, +10) región. Ocurrió en 762 de 1118 (68%) de CGI-genes y 1273 de 2434 (52%) de CGI + genes. De manera similar, ocurrió en 149 de 215 (69%) de la mayoría de genes específicos y 388 de 607 (64%) de CGI + genes. La frecuencia observada de TATA + / + Inr promotores no fue significativamente diferente de la tasa prevista de asumir la independencia de las dos características individuales (datos no presentados).

Sp1 de sitios de unión son débilmente asociada con la menor de tejidos específicos de los genes

Sp1 [37, 38] es un factor de transcripción ubicua con un G-rico sitio de unión con el consenso de secuencias GGGCGGG que podría explicar la observada G-riqueza de los 5 'UTR en la no genes específicos. Se utilizó la GC-box de peso y la matriz de puntuación umbral de EPD [36] para identificar los sitios Sp1. Se encontró que el Sp1 sitios son preferentemente situado en el (-150, +1) en la región de todos los conjuntos de genes en que se produjeron, en promedio, en el doble de la tasa prevista, de acuerdo con resultados anteriores [36]. En tanto humanos como ratones, Sp1 sitios rara vez se encuentra en el 5 'UTR G-pese a la riqueza de esta región, que se produjo en la tasa de entre el 2 y el 5%. Así Sp1 sitios no fueron la causa de la riqueza de la G-en el 5 'UTR.

Sp1 sitios están asociados con las islas CpG, pero son un componente importante de la GGI-promotores también. Considerando sólo el (-150, 1) región, sitios Sp1 ocurrió en 1105/2434 (45%) de los genes humanos CGI + promotores, y 316/1118 (28%) de CGI-genes en alrededor de 2,5 a 3,0 veces la frecuencia esperada En ambos casos. Las frecuencias son en ratón 927/2075 (45%) de CGI + promotores y 464/1652 (28%) CGI-promotores. Sp1 sitios también fueron débilmente asociada con la menor genes específicos que ocurren en 1105/2679 (41%) de estos genes, en comparación con 94/271 (32%) en la mayoría de los tejidos específicos de los genes (P = 0.016). Cifras similares se encuentran en el mouse y el 38% de los menos específicos y el 26% de los más específicos promotores han Sp1 sitios. Así pues, aunque Sp1 muestra una preferencia por los menos en tejidos específicos de los promotores, no es un fuerte predictor de la especificidad del tejido de un gen.

YY1 sitios de unión están asociados con genes de baja especificidad

El factor de transcripción YY1 [5 - 8] es también expresó doquier y se cree que obligará a cerca de [39] y aguas abajo del sitio de inicio de transcripción. Hay pruebas de que la función de YY1 depende de su orientación [40]. La ubicación y el G-riqueza de la secuencia inversa complemento consenso (AANATGGCG) YY1 hacer un candidato para explicar el prominente G> C en la función (+1, +200) región de los genes de baja especificidad. Consideramos YY1 porque un YY1-como motivo frecuencia se incluyen entre las más significativas los motivos señalados por el motivo de los programas de descubrimiento AlignACE [41] y [42] MEME en el (+1, 60) de la región inespecífico CGI + promotores (Figura 6 bis ). Nuestra forma es más similar a la activación de la forma [43], que pueden estar asociados con genes de baja especificidad. Debido a la sensibilidad demostrada funcional a la orientación de los sitios de unión hemos considerado cada orientación separado. En efecto, como se muestra en la Figura 6b encontramos cada orientación exposiciones diferentes preferencias de posición. Sitios en la orientación inversa (YY1 r) se encuentra preferentemente en el (+1, 25) región, pero con algunos niveles elevados a +80 pb. Posiciones de inicio de los sitios con interés en la orientación (YY1 f) mostró una muy fuerte preferencia por los -3 pb, que probablemente representa una YY1-como iniciador secuencia examinado en otro lugar [44]. Ambas orientaciones se encuentran predominantemente en el menos genes específicos (Tabla 5]. YY1 f iniciador sitios son raros y sólo 55/2679 (2%) se encontraron por encima de antecedentes en humanos los genes de baja especificidad. El tipo de ratón, 22/2832 (0,8%), de baja especificidad de los promotores, es aún más baja. El YY1 r sitios son más comunes y se encontraron en el fondo por encima de 217 (8%) de los 2679 menos genes específicos. YY1 r sitios fueron más comunes en CGI + genes que en CGI-genes (202/2072 (10%) frente a 15/607 (2%) P = 3,7 × 10 -9 dos binomio población). Las tasas correspondientes en ratón confirmar estas observaciones; 178/2832 (6%) para todos los genes de baja especificidad y 152/1779 (9%) en CGI + y 26/1053 (2%) de CGI-baja especificidad promotores. Estos YY1-al igual que los sitios, por lo tanto, constituyen una característica fuertemente asociada con la menor genes específicos y puede explicar en parte la observó G> C en la proporción (1, 200).

Q basado en el análisis de los principales motivos promotor

Un segundo análisis de la caja TATA y Inr motivos se hizo para determinar si la asociación de la caja TATA con tejidos específicos de los genes también se encuentra en los genes clasificados por Q y es robusto a la utilización de datos de EST, así como los promotores que no dependen específicamente de De longitud completa cDNA clones. La definición de Q implica que los genes con un Q-valor puede tener una variedad de H g valores y, por tanto, puede ser más difícil identificar las características relacionadas con la especificidad tisular. Estamos DoTS tabulados todos los genes que contenía, al menos, dos tecnologías ecológicamente racionales de un islote de células biblioteca clasifican los genes por Q páncreas calcula utilizando EST cuenta. Se utilizó páncreas Q ≤ 7 bits como el criterio para la selección de páncreas-genes específicos que agrupan en 2-bit Q intervalos. Para la comparación se seleccionaron 50 genes con Q = 8,5 bits páncreas, y 50 genes con 10 ≤ Q ≤ 10,6 páncreas bits. Los genes con alta especificidad para el páncreas (0 ≤ ≤ Q páncreas 2 bits, N = 9) preferentemente había cajas TATA (8 de 9) con la mitad de ellos también con un elemento de iniciación (4 de 9; Figura 7a]. Con la disminución de la especificidad, la fracción de los genes que contienen las cajas TATA only18 con gotas de 81 (2 / 9) con genes Q> 6 bits haber cajas TATA. Así, la fuerte correlación de TATA cajas con determinados genes que se encuentran con H g microarrays de datos y también se ve con Q EST y de los datos de páncreas-expresaron los genes. También es consistente la observación de que se encontraron elementos iniciador en frecuencias similares (en torno al 60%) en todas las clases de especificidad (Figura 7b]. Patrones similares fueron observados en otros tejidos (datos no presentados).

La coherencia de los resultados de la caja TATA islote con genes humanos sobre la base de tecnologías ecológicamente racionales Q y fue probado junto con los genes ortólogos en ratón. Este ensayo proporciona una medida de si el patrón observado a nivel mundial (TATA box con tejido de genes específicos) se encuentra también para el mismo conjunto de genes en otro mamífero. También añadió papeleras de los genes con mayor Q-valores que representan más ampliamente expresada genes. Para cada gen humano, el ratón de genes ortólogos fue determinado (véase Materiales y métodos para más detalles) y se analiza como se ha descrito anteriormente. En general, el 18,8% de los genes humanos y el 22,9% de los genes del ratón, que se analizaron llevar la caja TATA motivo. A excepción de este último grupo (Q> 10 bits), el porcentaje de los genes con caja TATA motivos disminuye con el aumento del valor de Q-. Esto es normal ya que los genes con alto Q puede ser específica a otros tejidos y, por tanto, tienen más probabilidades de tener una caja TATA. Las discrepancias entre los humanos y los promotores del ratón se observó sólo un 10% de todos los humanos-ratón pares analizados y pueden reflejar diferencias de secuencia y anotación posibles discrepancias para iniciar la transcripción sitio. Sin embargo, hay acuerdo general excelente para la presencia de TATA motivos en los genes humanos y de ratón. Por lo tanto, nuestra evaluación de la presencia preferencial motivos de regulación de la transcripción en el páncreas humano-expresó genes también se aplica a su ratón orthologs. Llegamos a la conclusión de que los genes expresados en tejidos con restricciones de la distribución puede ser regulado a través de TATA preferentemente mediada por la transcripción, y que los genes con los perfiles de expresión más amplia es más probable que se rige por la no mediada por mecanismos TATA (como YY1).

Promotor clases

Dado que la presencia o ausencia de un comienzo CpG isla y una caja TATA parecen ser la principal característica de secuencias que se correlacionan con la especificidad tisular, los consideramos con más detalle. Observamos que las islas CpG y TATA cajas no son mutuamente exclusivas características de los promotores y lo que consideramos de todas las posibles combinaciones de estas características.

Frecuencia de las clases promotor

La figura 8 muestra la fracción acumulada de cada clase de promotor en función del aumento de H g en humanos (Figura 8] y el ratón (Figura 8b]. Los datos de los humanos y de ratón seguir tendencias similares a pesar de que el ratón tiene una menor proporción de CGI + genes. En general, CGI + /-TATA genes son los más comunes, en el 50-60% dependiendo de la especie. Curiosamente, la clase CGI-/TATA- es el segundo más común en general, que comprende un 20-30% de los genes, dependiendo de la especie. Los genes de esta clase son, a grandes rasgos promotor igualmente comunes en toda la gama y la entropía son los más comunes en los promotores de la gama mediados de la especificidad de ambas especies. Las clases CGI-/TATA CGI + y + / + TATA son los menos comunes (8 a 12% en general). CGI-/TATA + genes se concentran en la mayoría de los genes específicos. CGI + / + TATA se encuentran relativamente uniforme en todos, pero la mayoría de los genes específicos. Aunque la caja TATA y de las islas CpG son altamente predictiva de un gen de la entropía, la Figura 8 también ilustra las limitaciones de las clases promotor como una explicación de los patrones de expresión. En primer lugar, si bien el CGI CGI-/TATA + y + /-TATA clases están fuertemente relacionados con los mayores y menos tejido de genes específicos (respectivamente), los casos de los genes en cada clase cubren prácticamente toda la gama de características específicas del tejido. En segundo lugar, la clase CGI-/TATA- es el segundo más común, lo que demuestra que cualquier grado de especificidad tisular puede obtenerse sin estas características secuencia.

Evaluación funcional del promotor clases de genes usando términos Ontología

Para tratar de entender la correlación funcional de las cuatro clases de promotor, buscamos tendencias en la localización celular y proceso biológico de los productos de los genes de cada promotor clase. Se utilizó el sistema de DAVID [45, 46], que identifica excesivamente representados Gene Ontología (GO) [47] en términos de un conjunto de genes. Un resumen de los resultados de los genes humanos y de ratón se muestran en la Tabla 6. En cada caso, el conjunto de genes de cada promotor clase se compararon con todos los genes de la correspondiente ficha de Affymetrix.

Productos de los genes en la clase CGI-/TATA + a menudo (70/198), ubicado extracelular. Ejemplos de tales genes son el factor de crecimiento tipo insulina familia, la albúmina sérica y quimotripsina. Algunos extracelular CGI-/TATA + genes, como la versión beta de la hormona luteinizante (LHB) y la proteína morfogénica ósea 10 (Bmp10) en el ratón, tienen un alto H g porque no son inducidos en los tejidos o en las etapas de desarrollo encuestados, pero de otro modo Se ajustan a la pauta de las proteínas secretadas. Productos genéticos que son secretados de la célula debe ser producido a gran nivel para ser eficaces. De hecho hemos encontrado la máxima expresión de los genes TATA + es mayor que TATA-genes; 454/745 (61%), de TATA + genes expresar al menos 1000 UA en uno o más tejidos, mientras que sólo el 1321/3773 (35%), de TATA - Genes que expresan altamente (p-valor = 0; dos muestras binomio población). Un segundo grupo de CGI-/TATA + que es común, pero con un valor p de poco más de la p-valor de corte son la contracción de los músculos relacionados con los genes, actina, troponina y miembros de la familia de la miosina. Los productos de estos genes son también necesarios en grandes cantidades para crear el aparato contráctil, pero sólo se produce en unos pocos tipos de células. Los procesos biológicos que se enriquecen en el CGI-/TATA + clase difieren entre humanos y de ratón, pero casi todos ellos son descendientes de los GO término "respuesta al estímulo" (GO: 0050896).

El CGI + /-TATA promotores producir proteínas que normalmente se encuentra en la célula, sobre todo en el citoplasma y mitocondria. Estos lugares están en consonancia con muchas funciones de limpieza. Los resultados humanos de la biología del proceso sugiere un gran número de procesos de limpieza, pero estos no fueron confirmados en el ratón utilizando todos CGI + /-TATA genes. Cuando consideramos sólo los menos específicos CGI + /-TATA genes del ratón (4,45 g H ≤ ≤ 5,57 bits), encontramos lugares celular (incluyendo el núcleo) y los procesos biológicos humanos que se corresponden con los resultados.

No significativo de las concentraciones celulares lugares o procesos biológicos se encontraron entre los CGI + / + TATA genes. Un manual de estudio de los genes humanos y de ratón se identifican una serie de proteínas de choque térmico-, las proteínas histonas y ribosomal aunque estas no son estadísticamente significativas como resultado de las múltiples pruebas de corrección. Muchos de estos genes se ajustan a la espera de expresión en la pauta de que están ampliamente expresadas y en niveles altos.

Curiosamente, los productos de los genes CGI-/TATA- a menudo se encuentran en la membrana plasmática (244/499 de los genes humanos con una localización celular) y el apoyo de señalización y respuesta al entorno. Estos productos, por ejemplo, la bradicinina receptor B2, los receptores de la prolactina o protocadherin 9, pueden ser expresadas en un tejido específico patrón, pero no a los altos niveles necesarios para las proteínas secretadas. El proceso biológico exacto GO términos que varían son estadísticamente significativas entre ratón y humano, pero un tronco común incluye la respuesta de defensa (GO: 0006952), la respuesta inmune (GO: 0006955) y la respuesta al estímulo (GO: 0050896). Así estos genes son similares a CGI-/TATA + genes en el que estén implicadas en la respuesta, pero que no son (por lo general) que se requieren para ser expresadas en un nivel tan elevado.

Discusión

Hemos aplicado la entropía de Shannon como nuevo medida de la cantidad total de la especificidad tisular de la expresión génica y han creado una nueva estadística Q para evaluar la especificidad categórica de un gen para un determinado tejido. Se evaluó el desempeño de la entropía de los microarrays y EST-basada en estimaciones de la expresión tejido-específica y han observado que identifica correctamente tanto en tejidos específicos de limpieza y de los genes. Ranking hurgar en la basura y los genes de la entropía nos permitió comenzar a deconstruir los promotores fundamentales en la dirección de características cuando y donde el gen se expresó. Verificamos y ampliado observaciones anteriores [2] acerca de la correlación de las islas CpG de las tareas domésticas y de los genes embrionarios genes. Luego identificaron diferencias en la base de perfil de los promotores de la composición de los tejidos de los genes específicos e inespecíficos. A continuación, hemos identificado correlaciones entre, por una parte, la caja TATA y tejidos específicos de los genes, y por otra parte, el sitio YY1 inespecífico y genes. Finalmente, se identificaron las tendencias de la promotora clases basadas en las islas CpG y TATA cuadro de la situación y las asociadas con los lugares comunes de celulares y procesos biológicos. Estas observaciones también fueron observados por caja TATA y Q-genes seleccionados en el páncreas.

La identificación de una asociación entre el tipo de promotor y celulares ubicación de las funciones biológicas, mientras que un paso importante en un entendimiento fundamental de la biología, también tiene importancia práctica, ya que los genes en el CGI-/TATA + CGI-/TATA- clases y se enriquecen de Extracelular de los tejidos específicos de la superficie celular y proteínas. Esos genes pueden ser de utilidad las drogas objetivos. Así, la entropía H g Q y nos han permitido descubrir las propiedades fundamentales de los mamíferos Pol II debería permitir a los promotores y servir de ayuda a la comprensión de expresión, en particular, los tejidos de interés.

La validez de nuestro enfoque es apoyado por los resultados de otros trabajos y por el hecho de que son sólidos con respecto al algoritmo utilizado para procesar los datos de expresión. Nuestro hallazgo de que la mayoría de los genes están regulados en una forma dependiente de tejido-es coherente con otro análisis de la expresión genética [14], que encontró que el grupo de limpieza genes en un tejido específico. Así pues, al parecer, incluso los más elementales funciones biológicas están sujetas a regulación. El tejido de los árboles que producen contienen relaciones similares a los de un análisis [48] de la especificidad mediados de los genes, incluida la estrecha relación entre el pulmón, y el sistema inmunológico de los órganos relacionados con el bazo y el timo. Ese análisis se basa en un método diferente y un conjunto diferente de los datos de expresión nos da la confianza de que Q g | t correcta identificación de los genes que son específicos de un tejido. La PGE-GNF expresión analizamos los datos se procesó con el MAS4 algoritmo [49]. Reanalizamos los datos de este estudio después de reprocesamiento con el más reciente robusta Multichip Promedio (RMA) algoritmo [50]. Este algoritmo tiende a reprimir las señales de bajo nivel y encontramos que la mayoría de los genes parece estar más de tejidos específicos, es decir, menor el H, en la RMA los datos procesados en comparación con los valores. Aunque esto afecta a algunos de los valores precisos de los números nos han informado de que no altera ninguna de las fundamentales tendencias o resultados. Incluimos características específicas de tejidos basados en ambos análisis adicionales en los archivos de datos 1 y 2.

Nuestro análisis se centró en sólo unas pocas características de secuencia y aunque hemos encontrado una buena correlación, dos aspectos de nuestros resultados indican que existen otros mecanismos de regulación aún no identificado. En primer lugar, hay una transición gradual en la frecuencia de la caja TATA y CpG islas entre los más y menos tejido de genes específicos. En segundo lugar, si bien estas características son fuertes indicadores de alta y baja especificidad, que están lejos de ser perfecto predictores. De hecho, la gama media de entropies contiene una mezcla de todas las clases de promotor en grandes cantidades, lo que indica que es posible lograr la expresión tejido-específica con cualquier clase de promotor. YY1 puede ser un ejemplo de este tipo de mecanismo complementario. Si bien se producen en sólo el 16% de los genes, es muy limita estrictamente a la baja especificidad de los genes y es un mejor indicador de la baja especificidad de las islas CpG. Esperamos que otros, tales señales se encuentran.

Anatómica de resolución es un problema con las bases de datos utilizadas en este estudio. Por ejemplo, el páncreas exocrino consiste de las células, y las células islote ductal de las células de varios tipos. La mayor parte del páncreas se utilizó para generar los datos GNF-PGE, por lo que el nivel de expresión se informó de la media ponderada de las concentraciones de mRNA de la célula de tipo contar. Esta aproximación reduce la entropía máxima posible y, más importante, puede hacer que la aparente entropía diferente de la verdadera entropía. Genes y muy específicamente expresada en un tipo de células con una pequeña población puede actualmente parecen ser ubicuo y de muy baja expresión general. Los genes expresados en algunos tejidos pueden ser revelado a ser menos de tejidos específicos, como más tipos de células se miden en detalle. Los genes que parecen ser doquier expresó podría llegar a no ser expresadas en algunos tipos de células. Será interesante ver si los datos con mayor resolución anatómica ayudará a aumentar la precisión de las normas que hemos identificado aquí para la identificación de tejido-específicos y no específicos promotores.

Nuestro método puede ser aplicado también a otras fuentes de datos incluyendo expresión SAGE, PCR transcripción reversa (RT-PCR) y la hibridación in situ de datos. SAGE tiene la ventaja de la sensibilidad, ya que estos estudios generalmente secuencia a profundidades mucho mayores que las bibliotecas EST [51]. Hibridación in situ de datos puede aumentar la resolución anatómica de los datos. Intensidades cualitativos, por ejemplo,'0 ',' + ', o'+++', se pueden convertir en representante valores numéricos según el caso. Nuestro método también puede aplicarse a otras condiciones además de las colecciones de tejidos normales, por ejemplo, diferentes tipos de cáncer o muestras del mismo cáncer de múltiples pacientes. Modificación de la aplicación de este método para tener en cuenta los cambios temporales en la especificidad tisular representa otra dirección para el trabajo futuro.

El análisis que aquí se presenta se centra en los genes y no en las transcripciones generados por diferentes promotores del mismo gen. La tasa de la ocurrencia de empezar a sitios alternativos de la transcripción es de al menos el 9% [52] y puede ser tan alto como 25% [53]. Los promotores que fueron utilizados DBTSS especificado por el conjunto de datos, pero puede haber otros promotores con diferentes características y tejidos específicos de las modalidades de uso. Los análisis sobre la base de diferentes especies de ARN pueden ser fácilmente incorporadas a nuestro enfoque y es un área de investigación en el futuro.

Nuestros resultados de las islas CpG frecuencia en tejidos muy específicos genes son más bajos que los informes recientes [3] que se basaron en el presente / ausente llamadas, es decir, el recuento de tejidos, utilizando tecnologías ecológicamente racionales para medir la especificidad tisular. Esto puede deberse a dos razones. En primer lugar, como se describe en los resultados, una significativa fracción de los genes que no muestran ninguna evidencia de expresión en apenas figuran en las muestras de tejidos. Una muestra mal inespecífico gen aparecerá, por tanto, más tejido específico de lo que realmente es y esto aumenta la cantidad de tejido aparentemente con genes específicos de las islas CpG. En segundo lugar, cuando utilizamos datos de los microarrays de tejidos y determinar la especificidad por encima de contar los tejidos que expresan el valor medio de 200 UA, vemos (datos no presentados) de las tasas de incidencia en la isla CpG 'específicos' genes similares a los descritos en [3]. Por tanto, concluimos que la inclusión de la variación de los niveles de expresión por encima de la mera presencia / ausencia es muy importante para la identificación de genes específicos de tejido-según la evaluación de comenzar islas CpG.

Estos resultados presentan una primera mirada a la correlación entre la especificidad tisular, islas CpG y sitios de unión para determinados factores de transcripción que interactúan con el aparato de transcripción basal. Utilizando un enfoque novedoso basado en la entropía con las cifras, hemos comenzado a establecer el marco para la función de promotor, identificando fuerte relación entre el tejido-específico o ubicuo expresión y un número de secuencia de estas características. Tenemos previsto ampliar este trabajo de varias maneras. En primer lugar, el plan de identificar correlaciones con otras conocido factor de transcripción-y nuevos sitios de unión motivos identificados como excesivamente representados en promotor de las regiones [54]. En segundo lugar, estos resultados ayudarán a entender la regulación de la combinación de múltiples factores de transcripción aguas arriba en los genes específicos a determinados tejidos o grupos de los tejidos.

Conclusiones

Hemos utilizado la entropía de Shannon para cuantificar y clasificar el tejido especificidad de los genes del tejido utilizando datos de la encuesta. En primer lugar, esto nos ha permitido evaluar la prevalencia de la regulación específica de tejido; nos encontramos con que la mayoría de los genes de manifiesto la existencia de algún grado de los tejidos que dependen de la variación en los niveles de expresión. También ha permitido encontrar y evaluar las asociaciones entre el promotor y las características del tejido especificidad. Hemos verificado y ampliado la comprensión de las asociaciones conocidas entre, por un lado, islas CpG y el tejido menos de genes específicos y, por otra parte, la caja TATA y la mayoría de los tejidos específicos de los genes. Sin embargo, no son los únicos factores determinantes de la expresión tejido-específica, como se indica a mediados de especificidad genes que muestran una mezcla de todas las clases promotor. La clase de CGI-/TATA- promotores se ha convertido en la segunda más común de la clase global promotor y el promotor más común de clase a mediados de especificidad genes. Por lo tanto, otros factores determinantes de la especificidad tisular aún no se han encontrado. Hemos identificado un potencial factor determinante, un sitio YY1 abajo, que está muy fuertemente asociada con la menor de tejidos específicos de los genes sino que es una característica relativamente raras de estos promotores. Por último, también hemos sido capaces de asociar las tendencias de la localización y función de proteínas de los productos de los genes de acuerdo con su promotor clase. Muchos de los CGI-/TATA + código de los genes altamente expresados, de tejidos muy específicos, extracelular de proteínas implicadas en la respuesta de una célula al medio ambiente. CGI-/TATA- genes también están implicados en la respuesta al medio ambiente, pero se encuentran de manera más uniforme en todo el espectro de la especificidad tisular, no son tan altamente expresado como CGI-/TATA + genes, y muy a menudo el código de proteínas de membrana. CGI + /-TATA genes tienen más probabilidades de ser ubicados en el citoplasma o el núcleo, y, como era de esperar, llevará a cabo las funciones de limpieza. Todos los resultados que se encuentran en el informe humanos y de ratón y de esa manera reflejar los principios generales de todas las especies de mamíferos.

Materiales y métodos
Procesamiento GNF-PGE [22] y DoTS datos [33]

La PGE-GNF datos se procesaron tal como se describe [22]. Dado un conjunto de N tejidos definimos p t | w g = g, t / Σ 1 ≤ tN g w, w t donde t es el nivel de la expresión de genes en el tejido t g. DoTS, AllGenes disponibles a través del sitio web [33], contiene las tecnologías ecológicamente racionales y mRNAs reunidos en las transcripciones que se agrupan en los genes. No hemos examinar cualquier transcripción que contiene sólo una EST, ya que esto puede representar una aparente secuencia y no considera ningún gen con menos de cinco tecnologías ecológicamente racionales, ya que aportan una pobre estimación de H g. Para dar cabida a la gran disparidad en la profundidad de muestreo a través de los tejidos que normalizaron EST cuenta por los tejidos. Para evitar entropies artificialmente bajos para los genes que contienen un número relativamente reducido de tecnologías ecológicamente racionales pseudocounts hemos utilizado para suavizar los datos. El nivel de expresión de un gen en un tejido se calcula como w g, t = (n g, t + 1) / (N t + N g), donde n g, t es el número de tecnologías ecológicamente racionales para una de las bibliotecas incluidas en el tejido Un gen, N t es el número total de tecnologías ecológicamente racionales de un tejido montado en los genes, y g N es el número de genes. Hemos utilizado distintos tipos de tejidos en función de la tarea. H g Q y medidas utilizadas en la Figura 1 la plena GNF-PGE ratón conjunto con algunas modificaciones; tejido adiposo pardo y la grasa se fusionaron, epidermis y hocico epidermis se fusionaron, dígitos y lengua No se consideraron, ya que son a la vez una combinación de músculo esquelético y de la epidermis. El nivel de expresión de un conjunto de los tejidos se fusionó la mediana de los distintos tejidos replicar las medianas. Para la comparación de datos de EST microarrays y hemos utilizado un conjunto de 27 tejidos que son comunes a ambos conjuntos de datos y se combina la CNS y los tejidos del sistema nervioso periférico.

Estimación de la varianza

Para estimar la varianza de H y Q, que se aprovecharon de tejido repeticiones en el GNF-PGE datos. Conjunto de datos con el ratón, nos muestra repetidas veces una de las mediciones de cada par de repeticiones y H calculado para cada gen. Luego computa la diferencia de la distribución de las estimaciones de H para cada gen y mostrar la función de distribución de supervivencia en la figura 2. La diferencia de Q se calculó de manera similar.

La agrupación de tejidos

La agrupación se basó en la puntuación Q para el conjunto de genes de ratón con Q g | t ≤ 7 para por lo menos una expresión de los tejidos y por lo menos 200 UA por lo menos en un tejido en el GNF-PGE datos. Hubo 1.786 Affymetrix sonda conjuntos seleccionados. El árbol en la Figura 3 fue construido por muestreo 5000 de 1000 establece sonda fija y tejidos mediante la agrupación de correlación de Pearson y de una medida centrada XCLUSTER utilizando el programa [55]. El árbol de consenso fue construido usando el programa CONSENSE en el PHYLIP [56] con el conjunto de los parámetros por defecto.

La identificación de genes específicos de un conjunto de tejidos

El total de la entropía de todos los tejidos en un nodo puede ser calculado en cada nodo en la jerarquía utilizando una generalización de la agrupación teorema [57]. Si la entropía de un gen en un nodo está cerca del máximo posible de la entropía del número de los tejidos bajo el nodo, entonces selecciónelo y calcular una Q g, n para el gen en el nodo. Usando Q g, n podemos clasificar los genes por la especificidad de un grupo de los tejidos del mismo modo que para un individuo puede tejido.

Predicción de islas CpG

Predijimos islas CpG usando el programa NEWCGREPORT en la EMBOSS [58] con el conjunto de los parámetros por defecto que requieren una longitud mínima de 200 pb, C + G de la fracción de 0,6 y ratio de CpG observado en espera de 0,5.

Significación en los genes expresados embrionarias

Hemos calculado la significación estadística de las diferencias entre los embriones de todos los genes expresados y adultos tasas específicas utilizando una distribución hipergeométrica. Empezamos con una colección de N + CGI genes, n e de los cuales se expresan en el embrión, es decir, marcado como especiales. Un tejido de la N-genes específicos en el adulto se considera una muestra aleatoria a partir de la original N, y calcular la probabilidad de encontrar que por lo menos (o en la mayoría) ae n de estos se expresaron en el embrión.

Modelado de la distribución de la entropía uniforme de los genes

Para modelar el efecto de la variabilidad experimental, hemos calculado la distribución de la diferencia entre los niveles de expresión de cada uno de los repeticiones para cada gen y de tejidos y la media del nivel de expresión a través de repeticiones en función de la media del nivel de expresión. Esta distribución es muy apropiado por una distribución exponencial con un parámetro que depende de la media del nivel de expresión. Así, dado un «ideal» de expresión, lo que se puede estimar la variabilidad experimental será. Para modelar una manera uniforme de genes expresados, suponemos que un gen tiene algunas nivel promedio de expresión en todos los tejidos y luego permitir que los niveles de expresión en los distintos tejidos a un estrecho seguimiento de la distribución aleatoria de veces que cambia de nivel. En concreto, supone que el registro de la base de 2 veces los cambios se distribuye según una distribución normal con media igual a 0 y una desviación estándar (s). La desviación estándar se pueden ajustar para controlar la cantidad de variación biológica de un 'uniforme' expresó gen está permitido mostrar. Por ejemplo, el establecimiento de s = 0,5 significa que aproximadamente el 68% de las veces los cambios entre un tejido particular, el nivel nominal y están dentro de 1,4 hacia arriba o hacia abajo desde el nivel nominal, es decir, un doble cambio de los más bajos a los más altos niveles. Veces más amplio de los cambios se producirán en el 32% de los tejidos. Este modelo permite una variación significativa es, sin duda, y así cerca del límite superior de la variación permitida de un gen que no muestra la especificidad tisular. También utilizado s = 0,25 como una definición más estricta de la expresión uniforme. Nos muestra los niveles de expresión media de la distribución observada de los niveles de expresión significa la muestra y la entropía de los valores de probabilidad modelo. Un umbral de la entropía fue estimado por muestreo aleatorio de cerca de 5000 perfiles de expresión y determinar el valor de p-valor de 0,002. Este proceso se repitió 10 veces y los correspondientes umbrales y fracción de los genes se computaron. Los umbrales abarcó una gama de poco menos de un 0,01. El tejido de genes que dependen de las fracciones nunca variado en más de un punto porcentual en cualquier dirección.

Significación estadística de co-ocurrencia

Se valoran la significación estadística de la co-ocurrencia de los motivos mediante la distribución hipergeométrica. Dados dos motivos ocurrencia cuenta con n 1 y n 2, medido en el mismo conjunto de N promotores, y un co-ocurrencia de contar n 12, se computa el significado como la probabilidad de encontrar no más de (o al menos) n 12 Hits en una selección aleatoria de n 2 promotores de un grupo de promotores N 1, donde n de ellos son 'especiales'.

Comparación de la frecuencia de juegos independientes

Habida cuenta de dos grupos de tamaño N 1 yN 2 y las positivas observaciones n 1 y n 2 en cada uno, que computa la probabilidad de que las tasas son diferentes utilizando un cálculo exacto de la distribución binomial para calcular la probabilidad de encontrar por lo menos (o no Más) que n i N i coincidencias en los ensayos en los que la tasa se supone que se r = n j / N j. Se valoran r usando la mayor de los dos conjuntos.

Dos poblaciones binomial

Se utilizó la aproximación normal a la diferencia de las proporciones normalizado por su diferencia para calcular un z-score.

Promotor secuencias

Obtuvimos secuencia promotora de dos maneras. El H-basado conjunto de los análisis utilizados vínculos de Affymetrix sonda fija a RefSeq identificadores para seleccionar alineaciones de la DBTSS secuencias que abarca el promotor (-1000, 200) región DBTSS descargar de la página web [59]. El Q-basado en los análisis de la caja TATA iniciador y elementos utilizados genómica lugares de DoTS genes en UCSC Golden Path liberación mm3 [60, 61] para la identificación de genes nombres. Promotor secuencias que consta de los 350 pb de la región río arriba fueron extraídos de Ensembl [62]. El ratón homólogos también se utilizaron como anotada en Ensembl.

Core motivos

El H-basado en el análisis de promotor elemento básico utilizado modelos de EPD [36, 63]. La fracción que contiene cada uno de los promotores de la matriz se determinará de la siguiente manera para cada conjunto de genes (con y sin islas CpG en cada bin entropía) individualmente. Having verified that the positional distribution of each motif was sharply peaked at the appropriate place in the promoter sequences ((-40, -20) region for TATA and (-20, +20) region for the initiator element) we considered only the predictions in these windows from all genes. We used the log-likelihood function to score each subsequence against each matrix using the published score cut-offs. The YY1 motif was found in essentially every run of AlignACE and MEME performed on the downstream regions of ubiquitous CGI+ promoters. We explored different motif widths and other settings and selected version that achieved a combination of good coverage and conservation. In all cases we estimated the background rate of random occurrence of motifs by repeatedly scrambling the individual sequences over a 10 bp window to create approximately 1000 test sequences for each combination of CpG island status and specificity range. These sequences were scored in the same manner as the unscrambled sequences. We estimated the statistical significance of differences of observed frequencies using exact computation of the binomial distribution. The Q -based analyses of core motifs used the TATA box motif (TATAA) and initiator element (YYANWYY). Motif searches were carried out using the tool patternmatch from the biological workbench 3.2 [ 64 ]. Only the TATAA instance located closest to the start of the mRNA's alignment to the genome was used. Matches to the initiator element were required to be downstream of the TATAA box when present.

YY1 motif

We used an AlignACE-derived weight matrix (shown in Figure 6a ) to assess the occurrence of YY1-like sites as it contained the YY1 consensus and was built using approximately 100 sites which is many more than previously published weight matrices [ 43 , 65 ] also shown in Figure 6a .

GO association analysis

We submitted Affymetrix probe set ids of interest to the DAVID website [ 45 , 46 ] and compared them either to all probe sets on the appropriate Affymetrix chips or to all genes in the selected entropy range. We compensated for multiple testing by requiring the reported p -values be better than either 0.05/1472 = 0.00003 (cellular component) or 0.05/8972 = 0.000006 (biological process) using the number of GO terms for the corresponding GO divisions in a Bonferroni correction .

RMA quantification

We obtained CEL files for the GNF-GEA study from and re-quantified them using the gcrma package [ 66 ] in the Bioconductor [ 67 ] project for the R statistical analysis program [ 68 ]. We use the gcrma options 'type=c('fullmodel')' and 'fast=T'.

Additional data files

Two additional data files are available with the online version of this article. They contain H and Q values for all normal tissues in the GNF-GEA data set for both human (Additional data file 1 ) and mouse (Additional data file 2 ) using both the MAS4 and RMA quantification methods. The RMA data were normalized to yield a common median of 3.75 (human) and 3.22 (mouse) prior to the H and Q calculation. The files are in Excel format. The data for each tissue are placed in separate worksheets. Each worksheet contains H- and Q-values, the expression value of the gene in the worksheet's tissue, and its maximum expression across all tissues in the file, the gene symbol, RefSeq, SwissProt, and Unigene ID, and a description. The rows in each worksheet are sorted by increasing values of Q using the RMA data. Thus the top of each worksheet displays the genes most specific to that worksheet's tissue.

Supplementary Material
Additional File 1
A table showing H and Q values for all normal human tissues in the GNF-GEA dataset. H and Q values for all normal tissues in the GNF-GEA dataset for human using both the original MAS4 quantification and our RMA re-quantification. The RMA data were normalized to yield common medians of 3.75 prior to the H and Q calculation. The data for each tissue are placed in separate worksheets. Each worksheet contains H- and Q-values, the expression value of the gene in the worksheet's tissue, and its maximum expression across all tissues in the file, the gene symbol, RefSeq, SwissProt, and Unigene ID, and a description. The rows in each worksheet are sorted by increasing values of Q using the RMA data. Thus the top of each worksheet displays the genes most specific to that worksheet's tissue.
Additional File 2
A table showing H and Q values for all normal mouse tissues in the GNF-GEA dataset. H and Q values for all normal tissues in the GNF-GEA dataset for mouse using both the original MAS4 quantification and our RMA re-quantification. The RMA data were normalized to yield common medians of 3.22 prior to the H and Q calculation. The data for each tissue are placed in separate worksheets. Each worksheet contains H- and Q-values, the expression value of the gene in the worksheet's tissue, and its maximum expression across all tissues in the file, the gene symbol, RefSeq, SwissProt, and Unigene ID, and a description. The rows in each worksheet are sorted by increasing values of Q using the RMA data. Thus the top of each worksheet displays the genes most specific to that worksheet's tissue.
Agradecimientos

JS thanks J. Mazzarelli, M. Mintz and S. Hannenhalli for many helpful discussions, E. Manduchi and H. He for help with R and RMA, J. Hogenesch and J. Walker at Novartis for providing timely access to the CEL files for the GNF-GEA data, and T. Kadesh for critical readings of the manuscript. CS acknowledges support from NIH R01HG001539. JMS and W.-PS in CK's lab were supported by an R01 grant 1R01DK63336.