Genome Biology, 2005; 6(4): R32-R32 (más artículos en esta revista)

Contribución de la regulación transcripcional de las variaciones naturales en Arabidopsis

BioMed Central
Wenqiong Chen J (wenchen@diversa.com) [1], Sherman H Chang (hchang@diversa.com) [1], Mateo E Hudson (mhudson@uiuc.edu) [1], el Rey-Wai Kwan (wkwan @ diversa . Com) [1], Jingqiu Li (jili@diversa.com) [1], Bram Estes (bram.estes @ syngenta.com) [1], Daniel Knoll (danielknoll@gmx.de) [1], Shi Liang (Liang.shi @ syngenta.com) [1], Tong Zhu (tong.zhu @ syngenta.com) [1]
[1] Instituto de Investigación Torrey Mesa, Syngenta la Investigación y la Tecnología, 3115 Merryfield Row, San Diego, CA 92121, EE.UU.
[2] Diversa Corporation, 4955 Directores Place, San Diego, CA 92121, EE.UU.
[3] Departamento de Ciencias de los Cultivos de la Universidad de Illinois, 1101 W. Peabody, Urbana, IL 61801, EE.UU.
[4] La biotecnología Syngenta, 3054 Cornwallis Road, Research Triangle Park, NC 27709, EE.UU.
[5] Institut für Allgemeine Botanik, Universität Hamburg, Ohnhorststrasse 18, 22609 Hamburg, Germany

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Entre las cinco adhesiones sonda 7508 establece que no detectables variaciones secuencia genómica se identificaron sobre la base de la hibridación genómica comparada a la microarray GeneChip Arabidopsis, y se utiliza para la adhesión específica transcriptome análisis, la identificación de 60 genes que son expresados diferencialmente en diferentes entornos en una adhesión Órgano dependiente de forma. Análisis de correlación de los patrones de expresión de estos genes entre 7508 pares de adhesiones identificado un grupo de 65 genes altamente plástico con diferentes patrones de expresión en cada adhesión.

Antecedentes

Transcripción de mRNA de ADN y la posterior traducción de mRNA en proteínas transformar planos genéticos en funciones celulares. Este proceso de la expresión de genes y la regulación juega un papel clave en la determinación de la aptitud del genoma, a través de la producción de diferentes proteínas en células diferentes y en momentos diferentes. Por lo tanto, además de la composición y estructura del genoma, la regulación de la expresión génica es también un componente clave en el desarrollo y evolución [1].

La importancia de los genes reguladores durante la evolución es bien reconocido [2]. Por ejemplo, las grandes diferencias en la morfología axial constantemente se correlaciona con una diferencia espacial en la regulación de la expresión de los genes Hox [3, 4]. Además, un elemento cis-regulador ha funcionalmente divergentes en el transcurso de aves y de mamíferos evolución y ha dado lugar a diferentes patrones de expresión de genes entre estos dos taxones [3, 4]. Recientemente, muchos estudios han sugerido que las regiones reguladoras cis-reguladores de los genes y su objetivo genes podría ser una gran fuerza impulsora de los cambios evolutivos en los seres humanos [5]. En las plantas, las pruebas de la importancia de las variaciones en las regiones de regulación aguas arriba en la evolución de la planta de forma también se han descrito. Polimorfismos en una región de regulación aguas arriba de la teocintle branched1 de genes han sido implicados en la domesticación del maíz [6], y los cambios en la región promotora de ORFX puede asociarse con un aumento en el tamaño de la fruta durante la domesticación de tomate [7, 8].

A pesar de su potencial importancia, la base genética de la evolución normativa en cis-es poco conocido. Stone y Wray [1] sugiere las siguientes razones: en primer lugar, la falta de información sobre la secuencia de las variaciones en la reglamentación regiones, y la falta de asociación entre el grado de la secuencia de codificación de la divergencia y el cambio en la expresión de los genes [9], en segundo lugar, la falta De los datos experimentales de la expresión de genes de los análisis en apoyo de los análisis de variación de secuencias, y en tercer lugar, la falta de un marco conceptual para la comprensión de la evolución normativa que podría orientar los estudios empíricos. Por lo tanto, para comprender mejor la evolución normativa en cis-y sus consecuencias para la estabilidad y la dinámica del genoma, es un paso esencial para identificar las variaciones en la secuencia de las regiones reguladoras de genes reguladores y de los genes diana en una escala del genoma, y establecer las correlaciones entre genes De expresión y de las variaciones de secuencias reguladoras divergencia. Sin embargo, pocos estudios han tratado de correlacionar los estudios moleculares de la evolución de cis-regulador con el de genotipo fenotipo [10].

Natural de las diferencias fenotípicas como forma de la hoja o de la biomasa entre los diferentes Arabidopsis adhesiones [11] recientemente han pasado a ser utilizados como recursos para estudiar la función de genes, que tradicionalmente se ha estudiado a través de la mutagénesis y la caracterización fenotípica de variantes genéticas [12]. Las diferencias en la regulación transcripcional tienen el potencial de contribuir sustancialmente a tales diferencias fenotípicas entre las distintas líneas. Por lo tanto, es importante comprender el grado en que las diferencias evolutivas entre las adhesiones son el resultado de los polimorfismos de reglamentación causando alteraciones en la transcripción, en oposición a la codificación de la región de los polimorfismos que alteran la función de los productos génicos. Aunque transcripcional de perfiles se ha utilizado para estudiar el transcriptome diferencias dentro o entre las dos especies utilizando microarrays de Affymetrix GeneChip oligonucleótido y cDNA microarrays [13 - 15], un estudio reciente de Hsieh et al. [16] mostraron una fuerte especies-por la sonda-Efecto de la interacción cuando se utilizan los microarrays de Affymetrix GeneChip tales inter-especies transcriptome análisis. Especies diferencias en la potencia de la señal de hibridación de una sonda conjunto puede reflejar las diferencias entre ambos secuencia sondas hibridadas y sus objetivos, y las diferencias en la abundancia de ARNm. Por lo tanto, transcriptome análisis comparativo de las distintas especies o adhesiones es difícil de interpretar sin controlar por el efecto de la codificación de polimorfismo de ADN antes de ensayo para las diferencias en la abundancia de transcripción.

Los objetivos de este estudio son desarrollar un método fiable para comparar transcriptomes entre muestras de diferentes orígenes genéticos, para determinar las diferencias en transcriptomes entre las diferentes líneas genéticas, y para comprender los mecanismos de regulación de genes responsables de la expresión de las diferencias a través del análisis de sus promotores predijo. Para alcanzar estos objetivos, hemos adoptado una nueva estrategia de análisis para analizar las variaciones en cinco transcriptome Arabidopsis adhesiones. Nuestros resultados sugieren que los genes con funciones en la transducción de señales implicadas, la transcripción y la respuesta de estrés son los principales objetivos de la selección natural. Este estudio debe arrojar luz sobre el ámbito de la genómica de plantas evolutivo por promover nuestra comprensión de la forma en que la doble vía genómica evolutiva interacciones entre los polimorfismos y mecanismos de regulación transcripcional contribuir a la configuración de la evolución del genoma.

Resultados
Estrategia para comparar la expresión de genes entre las distintas líneas

El microarray GeneChip utilizada en este estudio contiene aproximadamente 8700 sonda fija para 8300 Arabidopsis genes, que abarca alrededor de un tercio del genoma de la adhesión Col-0 (ecotipo Columbia) [17]. Ambos pareja perfecta (PM) y la falta de adecuación de la mayoría de sondas de la sonda fija en este microarray GeneChip son capaces de cruzar la hibridación genómica a los objetivos de otras adhesiones, sin embargo, la hibridación señales se ven afectadas por cualquier secuencia de polimorfismos entre las sondas y las metas [18]. Con la norma Affymetrix algoritmos (MAS4.0 o MAS5.0) polimorfismos entre las muestras hibridadas ARNm es probable que invalidan los supuestos que subyacen en la falta de adecuación perfecta de la señal coincide con la resta paso, dando lugar a mediciones inexactas de la transcripción niveles, y, por tanto, la prevención de comparaciones exactas De la transcriptomes entre las distintas adhesiones.

Para abordar estas cuestiones, se seleccionaron para el análisis comparativo transcriptome PM sondas que de manera similar a la hibridación genómica adhesiones objetivos de la prueba (Figura 1]. En breve, ADN genómico de diferentes adhesiones fueron fragmentados, etiquetados y hibridizada a la Arabidopsis GeneChip microarrays [19]. La hibridación señales de las sondas de la tarde se resume en el ADN genómico de hibridación índices (gDHI) utilizando el modelo PM-sólo [20] a fin de evitar la complicación de la matriz desajuste sondas. El coeficiente de variación (CV) de la gDHI entre los cinco adhesiones utilizada en este estudio para cada conjunto sonda se utilizó para determinar si existe suficiente secuencia genómica diferencia entre las distintas adhesiones a modificar sustancialmente la hibridación a sondas de oligonucleótidos. Probe conjuntos se clasificaron en función de su CV y de los que tienen el mayor CV (CV ≥ 0,20) fueron eliminados (ver archivos de datos adicionales 1 y 8). El valor de corte fue elegido sobre la base de la media general y la desviación estándar de la CV hibridación de ADN genómico (promedio ± desviación estándar). Para el ulterior análisis comparativo transcriptome, 7736 sonda fija con CV inferior a 0,20 fueron seleccionados.

Para medir la coherencia de nuestra sonda de selección establecidos en el presente procedimiento, la reproducibilidad de los experimentos de hibridación genómica comparada se determinó mediante el etiquetado y hibridadas el mismo ADN genómico en dos diferentes microarrays en paralelo. Los resultados fueron altamente reproducible y sólo una pequeña fracción de los genes mostró doble o mayor diferencia de las señales de hibridación entre las dos repetirse experimentos: 0,1% entre las repeticiones Col-0, 0,02% entre el Ler Ler repeticiones, el 0,2% entre las repeticiones C24, 0,01% entre el NO-0 repeticiones, y entre el 0% WS-2 repeticiones. Estos resultados están en consonancia con la media de la reproducibilidad de otros ADN genómico de etiquetado y experimentos de hibridación en Arabidopsis, y similar a la reproducibilidad de los resultados de los estudios para la detección de RNA utilizando el mismo microarray GeneChip [17].

Análisis comparativo de diferentes transcriptome de adhesiones y su validación

Transcripción perfiles de los distintos órganos en diferentes etapas de desarrollo (véase el archivo de datos adicionales 2) se compararon entre los cinco adhesiones mediante la siguiente estrategia. En primer lugar, el modelo PM-sólo se utiliza para estimar el índice de hibridación crudo ARN (rRHI), para reducir la complicación de la matriz desajuste sondas. En segundo lugar, gDHIs se utilizaron para normalizar rRHI para eliminar las contribuciones de las variaciones debido a la secuencia de destaques individuales detectados polimorfismos (SFP) en la sonda fija. El índice normalizado de hibridación RNA (nRHI), calculado dividiendo el rRHI de cada sonda establecidos por la correspondiente gDHI de una adhesión, se utilizan para representar el relativo nivel de la transcripción de genes blanco. En tercer lugar, todos los genes se clasifican en función de su nRHI valores, y el más bajo el 5% fueron elegidos como punto de corte el valor de fondo. NRHI genes con un valor menor que el valor de corte en todas las muestras de RNA al menos una adhesión fueron eliminados de un análisis más detallado. Mediante este método, los genes cuyas transcripciones no pueden ser detectados o se aproximaron a los del nivel de fondo se han excluido. En cuarto lugar, el nRHI valores de los 7508 genes tras el paso 3 se utilizaron para los análisis estadísticos, para el cálculo del coeficiente de correlación de Pearson entre todos los posibles pares de las adhesiones (10 pares de pairwise comparación de las cinco diferentes adhesiones) para cada gen, y para el análisis de agrupamiento [ 21].

Para validar las variaciones en la abundancia de transcripción detectados por el microarray GeneChip a través de la hibridación heteróloga utilizando nuestra estrategia, la PCR cuantitativa transcripción reversa (RT-PCR), utilizando la adhesión de los primers y sondas específicas se realizó. El cuadro 1 se comparan nRHI de 13903_at (At3g54050) y 17392_s_at (At3g53260), medida por el microarray GeneChip cuantitativo y RT-PCR en 18 muestras diferentes. En general, la RT-PCR cuantitativa de resultados de acuerdo con el microarray GeneChip resultados, y confirma la expresión de las diferencias entre estos dos genes adhesiones Col-0 y C-24. El coeficiente de correlación entre los resultados de la GeneChip microarrays y RT-PCR cuantitativa es 13903_at de 0,93, y 0,82 para 17392_s en. Como era de esperar, los conjuntos con sonda transversal sondas hibridadas con los genes de una familia, como 17392_s_at, menos fuertemente correlacionada con la adhesión específicas de RT-PCR cuantitativa.

Además, nRHI de 12 genes seleccionados al azar con diferentes patrones de expresión también fue validado por RT-PCR cuantitativa. Algunos de ellos no mostraron diferentes niveles de expresión, mientras que otros países muestran una diferencia entre las flores de Col-0 y los de Ler Ler. Como se muestra en el Cuadro 2, los resultados de la RT-PCR cuantitativa análisis eran en general coherentes con el nRHI respecto a la tendencia de la variación de cada gen entre Col-0 Ler Ler flor y flor. Hay dos excepciones (16892_at y 20545_at), que mostraron una ligera reducción en la expresión de Ler Ler flor, en comparación con Col-0 de la microarray GeneChip experimentos, pero mostró una tendencia opuesta de expresión de los datos Taqman. Además, existen algunos ejemplos (14172_at y 17860_at), que mostraron una menor que el doble de la diferencia microarray GeneChip experimentos, pero ligeramente superior a la doble diferencias (14172_at: 2.05 veces, 17860_at: 2,26 veces) de RT-PCR. La ligera falta de concordancia entre los resultados de microarray GeneChip y de la RT-PCR puede ser el resultado de la diferencia de la tecnología de detección, y de las sensibilidades, entre los dos métodos. También indica que la definición de significado utilizando doble cambio no es apropiado para este experimento. No obstante, los resultados de este amplio estudio de validación utilizando la adhesión de los primers y sondas específicas de apoyo a nuestra estrategia de análisis utilizados para el análisis de la transcripción de las diferentes adhesiones en ambos aspectos de sensibilidad y especificidad.

Evaluar la injerencia de secuencia residual variaciones entre los objetivos y las sondas dentro de la sonda fija utilizada para el análisis comparativo transcriptome, para cada muestra, se compararon los perfiles de transcriptome general mediante el cálculo de coeficiente de correlación de Pearson entre rRHI y nRHI para determinados conjuntos de la sonda y todos los conjuntos de sonda incluida Los conjuntos de sonda de detección de diferencias significativas en la hibridación genómica. Un general de la coherencia de cada una de las muestras se observó (ver archivos de datos adicionales 3 y 9). Sin embargo, la inclusión de la sonda establece diferencia en la detección de la hibridación genómica reduce los coeficientes de correlación de Pearson entre rRHI y nRHI (véase el archivo de datos adicional 3), lo que demuestra un mayor grado de injerencia de variación en la secuencia de los conjuntos de la sonda. Los datos de los cuadros 1 y 2 también mostró ejemplos de la alta correlación entre el rRHI y nRHI. Cuando estos datos se comparan con los datos de adhesión específicas de RT-PCR cuantitativa, los coeficientes de correlación fueron ligeramente diferentes: 0,92 (rRHI) y 0,93 (nRHI) para 13903_at, y 0,80 (rRHI) y 0,82 (nRHI) para 17392_at. Estos resultados indican que la sonda conjuntos seleccionados para el análisis comparativo transcriptome tienen un bajo nivel de interferencias, y pueden ser utilizados para medir la abundancia de la transcripción en los cinco adhesiones.

General similitudes de los perfiles de transcripción de las adhesiones entre los diversos órganos en las distintas etapas

Como se muestra en el cuadro 3 y la figura 2, entre los 7508 genes cuya expresión está por encima del valor de corte en al menos una de las muestras de ARN, el de la mayoría de los patrones de expresión de los genes (5985) se correlacionaron (r> 0,5) en al Menos cinco comparaciones pairwise (barras grises), lo que indica que la mayoría de los patrones de expresión de genes de diferentes adhesiones comparten algunas similitudes. Para probar si en la alta correlación entre los diferentes patrones de expresión adhesiones es probable que se obtiene por casualidad, al azar permutada el ARN muestras de la misma de cinco órganos diferentes adhesiones (ver Materiales y métodos para más detalles). El número de genes cuya expresión no se correlacionaron en r> 0,5 para cada par de comparaciones adhesión aumentó significativamente (Figura 2, barras blancas) de un total de 65 en los datos originales a 130 (grupo 10 en la Figura 2], y la Número de genes cuya expresión se correlaciona hizo para todos los pares de adhesión comparaciones disminuido considerablemente, desde 3532 en los datos originales de 1266 en el permutada datos. Debido a la estrecha relación de los cinco adhesiones elegido en este estudio, estos datos indican, como era de esperar, que el tejido de la expresión de genes específicos de los patrones más consistentes entre accesiones de la misma especie que cualquier adhesión a las pautas específicas de los órganos.

Hemos utilizado por el grupo de análisis de los datos para seguir nRHI analizar las relaciones entre las adhesiones sobre la base de los perfiles transcriptome (Figura 3]. El general de las relaciones entre todas las muestras confirmó que la expresión diferencias entre las adhesiones eran pequeñas, como la expresión de genes de las diferencias fueron mayores a través de los diferentes órganos de la misma que la adhesión a través de los diferentes adhesiones en el mismo órgano (Figura 3]. Dos agrupaciones surgen de la experimentación árbol: un grupo de eje de origen órganos, incluidos raíces y plantas jóvenes, y un grupo de auxiliares de los órganos, incluyendo vegetativo hojas, flores y silicuas (reproductiva de las hojas) y el correspondiente inflorescencias (Figura 3]. El eje consistió en la categoría de dos raíces diferentes etapas de desarrollo - 2 semanas y 5 semanas -, así como de 4 días de edad, las plantas de semillero, que se componen principalmente de la raíz de los tejidos. El conjunto de los órganos auxiliares podría dividirse en dos subclusters, uno de multiplicación vegetativa hojas, y un compuesto de órganos procedentes de las hojas reproductiva. Dentro de un órgano, especialmente para las hojas, sin embargo, las variaciones fueron aportados por tanto las diferencias de desarrollo y las diferencias de adhesión. Estas relaciones, como se ilustra en la Figura 3, con la ayuda de arranque análisis [22]. Un centenar de bases de datos, cada una contiene el mismo número de genes, se generaron a partir de la original de datos mediante un muestreo aleatorio simple con reemplazo. El arranque resultados confirmaron la solidez de los resultados del grupo en la parte superior dos niveles de la dendograma (Figura 3].

Adhesión específica de la expresión génica durante el desarrollo

Aunque, en general, los patrones de expresión de genes de los mismos órganos de las diferentes adhesiones fueron similares, la correlación tiende a empeorar al atraso en el desarrollo (Figura 4]. Las diferencias observadas entre los cinco adhesiones a fines de desarrollo puede deberse a las siguientes razones: biológica ruido (variación individual) dentro de cada adhesión durante la toma de muestras de materiales biológicos; diferencias de desarrollo entre las diferentes adhesiones, y las diferencias específicas de la adhesión debido a la programación por defecto de reglamentación . Es poco probable que las diferencias se deben a la toma de muestras de ruido, ya que estos ruidos se convertirá indetectable por amplia puesta en común de los materiales biológicos en el presente estudio.

Las diferencias fenotípicas, especialmente durante los fines de desarrollo de las plantas, como la forma de la hoja, el tamaño y el tiempo de floración, nos llevó a la búsqueda de los genes cuya expresión es distinta en las diferentes adhesiones. Para identificar los genes que representan a la adhesión de la diferencia específica, y que los diferencian de los genes que podrían reflejar el desarrollo de las diferencias de estos cinco plantas adhesión a la misma edad crecido en las mismas condiciones, utilizamos la forma de un análisis de la varianza (ANOVA ) Para analizar los datos nRHI de 2 - 5, -, y 11 semanas de edad, sale de los cinco adhesiones. Aquí nos referimos a las muestras de 2 - 5, -, y 11 semanas de edad, deja como tres repeticiones para cada hoja de adhesión, por lo tanto, el único factor que estamos analizando es la adhesión ", que tiene cinco niveles en el presente estudio (véase el archivo de datos adicional 4 ).

Sobre la base de ANOVA, 1525 genes que se han encontrado a los valores de p inferior a 0,01 (tasa de falsos descubrimiento o FDR = (7508 × 0,01) / 1525 = 4,9%). Corrección de Bonferroni se aplica para el fuerte control de la familia sabia tasa de error de tipo I (FWER). Como se muestra en el Cuadro 4, 58 genes fueron seleccionados por lo tanto, que potencialmente representan los genes con expresión diferencial entre las hojas de los cinco adhesiones (p <0,05). Estos genes fueron funcionalmente clasificadas según el Centro de Información de Munich de Secuencias de Proteínas (MIPS) clasificación funcional. Como se muestra en la Figura 5, estos genes codifican 58 productos con diversas funciones. Además de esas proteínas con función desconocida, las cinco principales categorías de los genes con posibles funciones en la transcripción (18% frente a 9% para todos los genes en el chip), la localización subcelular (18% vs 11% en conjunto), el estrés y la defensa de respuesta (15 % Frente a 6% en conjunto), el metabolismo (9% frente a 18% en general) y la transducción de señales (9% frente a 9% en conjunto). En comparación con la distribución general para todos los genes en el chip entre las diferentes categorías funcionales, los genes que participan en la transcripción, localización subcelular y el estrés / respuesta de defensa se enriquecen en este grupo (p ≤ 0,008, p ≤ 0,018, y p ≤ 0,004) . Ocho putativo codificación de los genes reguladores transcripcionales, incluyendo VD de zinc-dedo factores de transcripción, HD-zip factor de transcripción Athb-8, y MADS-box que contenga proteínas, se incluyeron dentro de este grupo de 58 genes. Los genes implicados en el estrés y la defensa respuestas incluyen los que codifican proteínas resistentes a la enfermedad, como los de la TIR-NBS-LRR clase, enzimas que intervienen en el metabolismo secundario, y de las proteínas que participan en la desintoxicación.

Órganos específicos de la expresión génica en las diferentes adhesiones

Además de la identificación de genes específicos de la adhesión, también se han interesado en la determinación de si existen genes cuya expresión está regulada por la adhesión por la interacción de órganos. En otras palabras, trataron de probar si la adhesión efecto en la expresión de genes de órganos es / desarrollo dependiente. Para abordar esta cuestión, en ambos sentidos se realizó el análisis de ANOVA. En un caso, dos muestras de 2 - y 5 semanas de edad, hojas, y dos muestras de 2 - y 5 semanas de edad, fueron tratados como raíces repeticiones. En este ANOVA de dos vías de estudio, los dos factores son "adhesiones" y "órganos". Para la 'adhesión' factor, hay cinco niveles. Para el 'órgano' factores, hay ocho niveles (véase el archivo de datos adicional 4). La media total de plazas para todos los genes debido a la diferencia de órganos se 13,182.91 (df = 7), mucho mayor que la media total de las plazas debido a la diferencia de la adhesión, que es igual a 2936,21 (df = 4), en consonancia con nuestra observación anterior de la Análisis de agrupamiento (Figura 3]. El total cuadrado medio debido a la adhesión por la interacción de órganos es sólo 436,00 (df = 28), lo que sugiere que el efecto de la adhesión por la interacción de órganos en la expresión de genes podría ser pequeño. Entre los 296 genes que se han encontrado a los valores de p inferior a 0,01 (FDR = 25,36%), 60 más fueron seleccionados después de la corrección de Bonferroni para controlar el tipo de tasa de error I (cuadro 5], y sometido a la clasificación funcional.

Como se muestra en la Figura 6, las cinco principales categorías de los genes con posibles funciones en la planta de desarrollo y el desarrollo embrionario, el metabolismo, el almacenamiento de semillas, el estrés / respuesta de defensa y de la biogénesis de los componentes celulares, tales como paredes celulares. En comparación con la distribución general para todos los genes de la matriz entre las diferentes categorías funcionales, genes implicados en el desarrollo de las plantas y el desarrollo embrionario y en el almacenamiento de las semillas se enriquecen en este grupo (p ≤ 0,001 para ambas categorías), lo que sugiere que la expresión diferencial de genes en Diferentes orígenes de adhesión podría ser más profunda durante la última etapa del desarrollo de las plantas. En contraste con un mayor porcentaje de genes que codifican factores de transcripción, que son diferencialmente expresados en las hojas de las diferentes adhesiones, y mucho menos de dichos genes se encuentran en este grupo.

Con los patrones de expresión de genes que varían mucho entre las distintas líneas

Para cada gen, la expresión refleja el patrón de abundancia relativa de su mRNA en diferentes muestras de RNA, que está determinada por una combinación de factores ambientales y de desarrollo. Así, las diferencias en los patrones de expresión de genes de diferentes adhesiones reflejar las diferentes respuestas de cada adhesión a estos factores. Para identificar los genes cuya expresión es muy sensible a diversos estímulos ambientales y de desarrollo, y para una mejor comprensión de los diferentes mecanismos de regulación entre las distintas líneas, los genes con distintos patrones de expresión de diferentes adhesiones fueron identificados por sus coeficientes de correlación entre cada dos adhesiones en el coeficiente de correlación de Pearson matriz (Figura 2], con 10 puntos de datos de los 10 órganos correspondientes de cada adhesión (véase el archivo de datos adicional 5 para un ejemplo). De ellos, 65 habían genes coeficientes de correlación inferior a 0,5 en los 10 pares de adhesión comparaciones (Tabla 6], 271 genes habían coeficientes de correlación menos del 0,5 por nueve pares de comparaciones, y 376 genes habían coeficientes de correlación menos del 0,5 por ocho pares de Comparaciones (Figura 2]. Como se muestra en la Figura 7, los genes pertenecientes a categorías funcionales de la transducción de señales, la transcripción, localización subcelular, el estrés o la respuesta y la defensa de proteínas destino (plegables, modificación, destino) se encuentran entre las cinco principales categorías funcionales en este grupo, mientras que la proporción de los genes Pertenecientes a la categoría funcional de transcripción es ligeramente mayor (13% para este grupo y el 9% para el conjunto del grupo). Los genes implicados en la transcripción incluyen diferentes tipos de factor de transcripción de genes, como bHLH, EREBP similares, y varios dedos de zinc factor de transcripción de genes. Los genes cuyos productos son necesarios para otras funciones relacionadas con el control de mRNA nivel, tales como la remodelación de la cromatina RNA o procesamiento (por ejemplo, el ARNm de la enzima y la limitación de la remodelación de la cromatina factor CHD3 (PICKLE)) también fueron incluidas en este grupo (Cuadro 6]. Los genes de respuesta a estrés incluyen los de la putativo de proteínas de choque térmico-DnaJ y de la α-jacalin-como lectina, un familiar de la que ha demostrado ser la sal-estrés-inducible en el sector del arroz [23]. Una serie de genes, cuyos productos son las proteínas quinasas y es probable que estén implicadas en vías de señalización celular, también se incluyeron en esta lista de 65 genes.

Regulador secuencia podría ser responsable de los polimorfismos del gen de las diferencias entre las distintas líneas de expresión

Para probar si la adhesión dependientes de las diferencias que hemos detectado fueron causadas por polimorfismos en la secuencia de reglamentación, que los promotores y la secuencia de codificación de las regiones de los siete genes de los genes seleccionados de los coeficientes de correlación de Pearson con menos de 0,5 en por lo menos cinco pairwise comparaciones entre los cinco adhesiones discutido aquí (Más siete nuevas adhesiones, DLR-1, Ag-0, Bs-1, Cvi-0, Es-0, Gr-1, Monte-0 y Tsu-0, para obtener una mejor estimación de las tasas de sustitución relativa). Se identificaron un total de 167 bases polimórficos en una o más de los cinco adhesiones (316 en los 12) a través de 24,9 kilobases (kb) y promotor de la secuencia de codificación. La tasa de polimorfismo entre los cinco adhesiones en el regulador (promotor) de secuencias se kilobase por 8,06, en comparación con el 10,5 por kilobase en intrones y 4,08 en el exón secuencia (cuadro 7], lo que indica que la secuencia de regulación es el repositorio de la variación genética sustancialmente más que la codificación de la secuencia . Los detalles de estos polimorfismos se describen en el archivo de datos adicional 6.

A continuación, analizó el promotor de las siete secuencias de los genes seleccionados para un estudio más a fondo de las secuencias coincidentes vegetales conocidas cis-elementos de regulación (ver Materiales y métodos) para determinar si alguno de los polimorfismos de las secuencias correspondientes a la alteración conocida cis-regulador motivos de los promotores. Se encontró que un total de 44 de los 61 polimorfismos de los genes entre los siete secuenciado en su totalidad en los cinco adhesiones causado alteraciones en las secuencias conocidas que coincidan con cis-regulador motivos (los detalles de todos estos cambios se proporcionan datos adicionales en el archivo 6). Por ejemplo, el putativo RING-proteína At4g10160 dedo de la mano es uno de los tres genes que codifican las proteínas de esta familia que en la meta resequenced adhesiones. En Col-0, el promotor de At4g10160 contiene un elemento CAACA en -164, que no se da en todas las demás adhesiones como el resultado de una secuencia de polimorfismo. Este elemento es el sitio de unión para el factor de transcripción RAV1. RAV1 pertenece a la familia AP2/EREBP factor de transcripción, de los miembros que están involucrados en diversos aspectos de desarrollo de las plantas, así como en la respuesta de las plantas al estrés ambiental [24]. Cuando los perfiles de expresión de este gen se consideraron, la más baja tres coeficientes de correlación entre cualquiera de los pares de adhesiones entre las que se Col, era, y n-0 Ler Ler (r = -0,045, -0,168 y 0,201 entre los pares Col / C24, Ler Ler / WS y Ler/No-0, respectivamente).

No todos los de la transcripción diferencia se asocia con alteración conocida cis-elementos. Por ejemplo, el gen de la PHYB fotorreceptor, At2g18790, también se expresó diferencialmente entre las distintas líneas. Hubo varios polimorfismos en la secuencia promotora, la mayoría de las cuales son específicas de la adhesión ha sido (un mutante natural en otro phytochrome genes, PHYD [25]]. Estos polimorfismos incluyó dos mutaciones que tanto alterado elementos reguladores cis-(AAAGAA a ATAGAA en -965, y GGTTTATT a GCTTTATT a -445) que se sabe están involucrados en la regulación de otro phytochrome genes [26]. Estos polimorfismos podrían no plenamente cuenta de las diferentes modalidades de expresión, sin embargo, como el Col-0 patrón de expresión correlaciona bastante bien a la que era para (r = 0,78), mientras que la Ler Ler / pareja era muy pobremente correlacionados (r = 0,207). La correlación entre Col-0 y C24 es sólo r = 0,341. Porque Col-0 y C24 ha secuencia idéntica en todo el PHYB promotor, la diferencia en los patrones de expresión debe ser, al menos en parte se explica por otros factores, como los polimorfismos en potenciadores resequenced fuera de la región, o polimorfismos en los genes que codifican factores de regulación que controlan PHYB Los niveles de mRNA.

Discusión

Un número de entre interaccession o análisis comparativos de GeneChip transcriptomes utilizando microarrays se han intentado recientemente. Brem et al. [27] realizó un estudio en la levadura de entender la arquitectura genética de la variación natural en la expresión génica utilizando microarrays GeneChip. Al comparar la transcriptomes de dos cepas de levadura, en el estudio vinculado 570 genes expresados diferencialmente entre las dos cepas de levadura de sus padres a uno o varios marcadores genéticos, y además estos genes agrupados en dos categorías, los que actúan moduladores cis-y trans-actuando moduladores. Más recientemente, dos laboratorios utilizados independientemente de la Arabidopsis GeneChip transcripcional microarrays para detectar cambios en la homeostasis del metal genes de A. Halleri, una especie vecina a la A. Thaliana y natural hiperacumuladoras de metal [28, 29]. Estos estudios demostraron con éxito las posibilidades de GeneChip microarrays en los estudios de la diversidad biológica entre la Arabidopsis adhesiones y especies estrechamente relacionadas, como el apoyo de una amplia validaciones de tiempo real RT-PCR, y el ARN mancha experimentos. Sin embargo, estos estudios se limitan a aquellos genes cuya mRNAs se expresaron en niveles altos, ya que utilizan estrictos criterios de selección. Además, la señal de las diferencias aportadas por la secuencia de las variaciones entre las dos especies o líneas fueron en gran medida sin resolverse.

Para aplicar GeneChip microarrays desarrollado un modelo para controlar la transcripción de las especies en otras especies o relacionados con él, y para permitir las comparaciones entre transcriptomes de adhesiones o estrechamente relacionadas con las variaciones genéticas de especies, hemos desarrollado una nueva estrategia para el análisis de los perfiles de GeneChip transcriptome experimentos por heteróloga Sonda-objetivo de hibridación (Figura 1].

Para reducir al mínimo la interferencia de detectable secuencia de las variaciones entre las sondas seleccionado en una de las metas de adhesión y la adhesión de otro, hemos identificado y seleccionado los conjuntos de la sonda que de manera similar a la hibridación genómica objetivos de las diferentes adhesiones, y excluidos los que mostraron una diferencia significativa en sus señales de hibridación Un análisis más detallado. Se analizaron los datos de la sonda en los niveles establecidos usando Li Wong's PM-único modelo, ya que este algoritmo sonda de toma en consideración por efecto de modelado y síntesis adecuada de la sonda de nivel de los índices establecidos en la sonda [30]. No haber realizado nuestro análisis en la sonda de nivel, porque, en primer lugar, hay importantes de destaques individuales polimorfismos (SFP) entre Arabidopsis adhesiones, como lo demuestra entre Col-0 y Ler [18]. Si eliminamos todas las sondas con la SFP, se reducirá el número de sondas disponibles en el conjunto de una sonda, por lo tanto, comprometer la calidad de las mediciones. En segundo lugar, la detección de amplio SFP no está dentro del alcance de este estudio. La alta correlación observada entre el rRHI y sugerir los nRHI residual secuencia de las variaciones entre las sondas y los objetivos de las diferentes adhesiones no afectar sustancialmente a las comparaciones entre mRNA nivel en las distintas adhesiones.

Sólo 986 sonda fija (de 8722 establece sonda) mostró diferencia sustancial en el ADN genómico de las señales de hibridación de los genomas de los cinco adhesiones investigación que hemos realizado (ver archivo de datos adicional 1). Estos conjuntos de sonda, en representación de los genes con altas tasas de polimorfismo, se clasifican funcionalmente, y fueron consistentes con los resultados obtenidos por el estudio anterior, donde una serie de Arabidopsis SFP fueron identificados por gran escala comparativa análisis del genoma [18]. Por ejemplo, entre los 127 genes relacionados con el transposón presentados en la matriz, 88 de ellos fueron detectados como polimórficos entre los cinco adhesiones. El mecanismo molecular que subyace en esta observación no está claro, aunque la reducción de la presión de selección para la conservación de la secuencia entre trasladables elementos, en combinación con las mutaciones que puede ser el resultado de la transposición eventos, puede dar lugar a una mayor tasa de polimorfismo. Trasladables elementos son susceptibles de desempeñar un papel importante en la configuración del genoma de plantas [31]. Además de los genes relacionados con el transposón, la codificación de los genes de resistencia a la enfermedad y las proteínas cinasas También se encontró que contenía SFP entre las distintas adhesiones.

La especificidad de la detección de microarray GeneChip fue validada experimentalmente por otros métodos tales como tiempo real de RT-PCR cuantitativa, mediante la adhesión de los primers y sondas específicas. Genes para la RT-PCR experimentos fueron seleccionados de manera que los diversos niveles de transcripción, y los diversos patrones de expresión durante el desarrollo, estuvieron representados, sobre la base de los resultados de análisis de microarrays. El acuerdo general entre los resultados de GeneChip y de la RT-PCR cuantitativa mediciones demuestran la especificidad de la detección en las distintas adhesiones.

En general, los perfiles son relativamente transcriptome coherente durante el desarrollo de Arabidopsis adhesiones entre los estudiados. Esto se sustenta en el alto grado de los coeficientes de correlación de Pearson para cada expresó gen de todos los pares posibles de comparación adhesiones. También fue apoyada por el grupo de análisis de muestras de diferentes órganos entre los cinco adhesiones. Setenta y nueve por ciento de los genes analizados han coeficientes de correlación superior a 0,5 en, al menos, cinco pares de adhesiones (Figura 2].

Es interesante la similitud en la expresión de genes no es coherente con la similitud de la secuencia de codificación entre las diferentes adhesiones. Entre las comparaciones pairwise adhesión, encontramos que la C24/Ler Ler par que figura el menor número de genes cuyas expresiones no se correlacionaron (datos no presentados). Sin embargo, este hallazgo no era compatible con el grupo los resultados a partir de la secuencia de codificación de las variaciones, en la que la más cercana es la adhesión a C24 Col (datos no presentados). Esto sugiere que la regulación transcripcional tiene un papel importante en la determinación de las variaciones naturales en la expresión de genes, y puede haber más diferencia en los mecanismos de regulación de genes entre C24 y Col-0 que se sugiere por la relativa similitud de su secuencia genómica.

La divergencia en transcriptomes y su mecanismo de regulación en las diferentes adhesiones se desprende de los resultados de los análisis de ANOVA transcriptomes de 2 - 5, - y 11 semanas de edad, sale de los cinco adhesiones. Se encontró que 58 genes mostró una diferencia estadísticamente significativa (p <0,05 después de la corrección de Bonferroni) en la expresión entre los diferentes adhesiones, y un porcentaje más alto de estos genes codifican diferencialmente expresado productos en la regulación transcripcional, y el estrés que responda proteínas (Figura 5, Tabla 4 ). Las diferencias en la expresión de genes en las hojas de los cinco adhesiones se deben principalmente a la adhesión de las diferencias, porque los genes de las diferencias en las distintas etapas de desarrollo en cada una de las hojas de adhesión no son estadísticamente significativas en comparación con las diferencias entre los cinco adhesiones. A pesar de que no pudo correlacionar la expresión de genes de cualquier diferencia con los informes anteriores sobre el particular, estas adhesiones, nuestros datos sugieren que la expresión diferencial de estos genes podría ser el reflejo de las respuestas de adaptación a las condiciones ambientales utilizados en el presente estudio. Será interesante mapa estos genes a sus lugares genéticos para comprobar si han sido previamente cualquier vinculados a trait loci cuantitativos, lo que afecta a la adhesión entre los diferentes fenotipos.

La adhesión transcriptome diferencias en la programación cada vez más evidente hacia fines de desarrollo en un órgano-específicas. Sesenta genes, cuya expresión podría verse afectada por la adhesión por la interacción de órganos durante el desarrollo tardío se identificaron. Las cinco principales categorías funcionales que figuran alrededor del 71% de los genes cuyos productos podrían estar involucrados en el almacenamiento de nutrientes, el estrés y la respuesta de la planta, especialmente la reproducción, el desarrollo (Figura 6]. Como se muestra en el archivo de datos adicionales 7, la expresión de la mayoría de estos genes diferían en senescentes y hojas maduras silicuas, lo que sugiere que los programas de transcriptome en estos órganos son más sensibles a los diferentes orígenes de adhesión a finales de las fases, dando lugar a la expresión diferencial de genes Participan en fines de desarrollo de las plantas. Podríamos, sin embargo, no excluye la posibilidad de que algunos de estos genes podría representar las diferencias en etapas de desarrollo para los cinco adhesiones en todo el tiempo de extracción de la muestra.

Para aclarar aún más los mecanismos de regulación que son importantes para la expresión génica diferencial entre diferentes adhesiones, hemos identificado 65 genes que mostraron diferentes patrones de expresión en los cinco adhesiones durante el desarrollo a través del análisis de los coeficientes de correlación de Pearson de los 10 pares de comparación adhesiones (Figura 2] . Las 65 más de plástico genes son predominantemente los que en función de transcripción y en el estrés y la defensa de las respuestas (Figura 7]. Se ha demostrado que la expresión de muchos genes es factor de transcripción sensible a los cambios en las condiciones ambientales [32, 33]. Al examinar los patrones de expresión de estos genes en virtud de plástico más diversas condiciones ambientales [30], como bióticos o abióticos tratamientos, encontramos que la expresión de una mayoría de los genes es inducida o reprimida por diversos factores ambientales, lo que demuestra su alta sensibilidad a Condiciones ambientales. Estos hallazgos sugieren que los genes reguladores son los principales objetivos de la selección natural [34], ya que tanto los cambios en la estructura de la proteína codificada y de la expresión de genes de un número limitado de factor de transcripción de genes daría lugar a variaciones fenotípicas dramática a través de cambios en la expresión de un gran número de Los genes.

Las diferencias en la expresión de estos genes podrían derivarse de múltiples mecanismos, tales como cambios en la expresión o actividad de las transnacionales que actúan los reguladores, los cambios en las regiones cis-regulador de los correspondientes genes, o incluso la modificación epigenética. Estudios anteriores han mostrado que ambos genes reguladores y el promotor del gen regiones están sujetas a fuerzas selectivas [34] y que los promotores son los principales objetivos de adaptación de la evolución relativa a la codificación de las regiones [35]. Aquí presentamos un ejemplo de ello, At4g10160, que codifica una proteína RING-dedo de la mano. El cambio en uno de los elementos cis-predijo en el promotor de este gen es compatible con los cambios en la expresión génica. Este hallazgo es de particular interés como RING dedo de la mano-son las proteínas que se sabe que son capaces de regular la expresión de genes y alterar los patrones de desarrollo y la proliferación celular [36, 37]. Aunque este hallazgo requiere más experimentales de validación, que representa un claro ejemplo de la expresión génica diferencial entre los diferentes mecanismos de adhesiones. Se reconoce, sin embargo, que no todas las diferencias en la adhesión que dependen de la transcripción se puede explicar por los polimorfismos de reglamentación. La diferencia en la expresión PHYB entre C24 y Col-0 ilustra la complejidad del mecanismo de regulación que participan en la adaptación de los programas de transcriptome. Los cambios en la expresión de este gen podría ser influida por otros factores, como alteraciones en la reglamentación de las secuencias de genes que codifican factores de control, por ejemplo el dedo de la mano-RING proteínas se ha dicho antes.

Conclusión

El uso de un microarray GeneChip y una estrategia validada experimentalmente por adhesión-PCR cuantitativo específico, se compararon los transcriptomes de cinco Arabidopsis adhesiones en idénticas condiciones de crecimiento. La detectado variaciones en la expresión de genes entre las distintas adhesiones Arabidopsis puede ser causada por una combinación de variaciones de factores transnacionales que actúan, o en regiones promotoras de la variable de los genes propios. Utilizando el enfoque de transcriptome comparativo de los diferentes perfiles de las adhesiones, junto con la información de secuencia del genoma, es posible identificar polimorfismos supuestamente asociados a la adhesión que dependen de los patrones de expresión de genes-, y vincular estos polimorfismos a la expresión diferencial de genes que codifican componentes de la reglamentación Mecanismos. Las mutaciones de este tipo a nivel mundial son consecuencia muy probable que hayan sido objeto de una intensa presión selectiva durante la evolución. Esto podría además ayudar en la comprensión de la dinámica del genoma y transcriptome durante la evolución [38], lo que sugiere que la selección natural no sólo debe actuar constantemente a través de la evaluación de la idoneidad de los actuales ADN en el genoma de un gen por gen, pero también con firmeza por favoreciendo ventajosa Polimórficas de genes de los mecanismos de regulación que se plantean como consecuencia de raro, pero altamente significativo, genómica mutaciones que alteran los patrones de expresión de grandes grupos de genes. Además, debido a la variación fenotípica entre las diferentes adhesiones probablemente refleja que la variación genética es importante para la planta de la adaptación a condiciones ambientales específicas, transcriptome análisis, como un poderoso instrumento para fenotipificación molecular, debe proporcionar un enfoque complementario a trait locus cuantitativo (QTL) para el estudio de análisis La interacción entre la variación genética y el medio ambiente. Una posible aplicación de este sistema a la crianza de cultivos es clave para identificar las mutaciones que confieren reglamentación deseable, pero muy pleiotrópica, rasgos en cultivares comerciales. Regulador polimorfismos responsables de estas variaciones pueden ser fácilmente transferido entre cultivares como rasgos monogénicas.

Materiales y métodos
Planta de materiales, condiciones de crecimiento y procesamiento de la muestra

Las semillas de los cinco Arabidopsis adhesiones Col-0 (Colombia), C24, WS-2, NO-0, y Ler Ler (Landsberg erecta) se obtuvieron del balance Arabidopsis centro (ABRC, Columbus, Ohio). Las semillas fueron geminated en Metro-Mix suelo (Scotts-Sierra Horticultural Products) en pisos y crecían en el entorno controlado de las cámaras CMP4030 (Conviron, Winnipeg, Canadá) a 22 ° C bajo una 12-hr/12-hr claro / oscuro régimen Y 80% de humedad. Plantas recibido aproximadamente 350 μ mol s -1 m -2 de la luz a partir de dos bancos emisores de luz 15,069 lux o 45,2 W m -2. Diez ARN diferentes muestras de las 10 muestras de diferentes órganos, incluyendo raíces, hojas, flores y silicuas, fueron recolectados en diferentes edades de cada planta de la adhesión (adicional archivo de datos 2). Todas las muestras se obtuvieron de al menos 10 plantas individuales entre las 11 am y la 1 pm y se combinaron. ARN fue extraído de diversos órganos, que fueron recogidos. ADN genómico fue extraído a partir de las 4 semanas de edad hojas. DNasa I digestión se utilizó para obtener fragmentos de ADN genómico, con tamaños que van desde 25 a 150 nucleótidos. Fragmentos de ADN fueron final de la etiqueta usando la terminal transferasa según Winzeler et al. [19]. El genoma de Arabidopsis GeneChip array (Affymetrix) se utilizó para este estudio. Detalles de las funcionalidades y el rendimiento conjunto se describieron anteriormente [15]. La extracción de RNA y microarray GeneChip experimentos se realizaron exactamente como se describe por Zhu et al. [39].

Recopilación de datos, procesamiento de datos y los análisis de datos

Los experimentos de microarrays de ADN genómico de hibridación se realizaron en todas las repeticiones de adhesiones para el análisis de la reproducibilidad. Replicar datos de Col-0 y Ler Ler se utilizaron para la selección de valores atípicos (ver más abajo). Todos los análisis estadísticos se realizaron con los paquetes BioConductor [40] en I [41] y S-plus 6.1 (Insightful). El '. CEL' archivos se lee directamente en la I hibridación genómica y la intensidad de los índices se han calculado a partir de la sondeos individuales (16-20 para cada gen) a través de la Li-Wong PM-sólo modelo [20], que se llevó a cabo en el paquete BioConductor . El atípicas ya sea genes de la Col-0 repeticiones o las repeticiones Ler Ler (falsos positivos) fueron eliminados. Los valores atípicos se definieron como aquellos genes cuya intensidad hibridación índices fueron al menos dos aspectos diferentes entre las dos repeticiones. Para el resto de los genes, las dos repeticiones Col-0 y los dos Ler Ler repeticiones se promediaron por separado para obtener un valor único, que representa la intensidad de la señal para Col-0 y Ler Ler hibridación ADN genómico. Luego, el coeficiente de variación (CV) se calcula para cada gen en función de su intensidad de la hibridación genómica índices de los cinco adhesiones. Los genes con el más alto 11% CV (CV ≥ 0,20), se han eliminado más de análisis de la expresión (véase el archivo de datos adicional 1). CV = 0,20 fue elegido como el punto de corte de valor sobre la base de los siguientes dos criterios: es igual a la media (CV) + 1 desviación estándar de hibridación ADN genómico; hemos tratado de excluir en lo posible los genes que posiblemente podría tener secuencia Diferencias entre los cinco adhesiones, para garantizar menos interferencias, en el análisis de la expresión de ARNm de los genes restantes. Esto dio lugar a 7.736 genes.

Genes para el análisis de correlación fueron seleccionados de la lista 7736-gen de ADN genómico de hibridación de datos. El índice de expresión mRNA de cada gen también se calcula utilizando el Li-Wong PM-sólo modelo [20]. La expresión de los valores determinados genes se normalizaron dividiendo los índices de hibridación de ARN hibridación de cada órgano de un particular, la adhesión de los índices de hibridación genómica de esta adhesión. La relativa expresión para todos los valores de los genes de todos los experimentos (7736 × 50 = 386800 puntos de datos) fueron ordenados, y la más baja de cinco por ciento se utilizó como valor de corte el valor entre el ruido y las señales verdaderas. Entonces, los genes cuya expresión es el valor por debajo del valor de corte a través de todas las muestras de RNA por lo menos una mayor adhesión fueron eliminados. Esto dio lugar a 7.508 genes. Los valores se normalizaron expresión log 2-transformado y utilizado para el análisis de correlación. Además, este conjunto de datos de 7508 se utilizó genes de las permutaciones en la que, para un determinado órgano en una etapa de desarrollo, que se permutan al azar entre los cinco RNA de muestras de adhesiones a los cinco (10 órganos × (5 × 4 × 3 × 2 × 1 permutaciones para cada uno de los órganos) = 1200 posibles combinaciones), preservando así el órgano de edad categorización. Entonces, para cada gen, el 10 de comparaciones pairwise, representada por los coeficientes de correlación de Pearson 10, se hicieron desde los cinco diferentes adhesiones. El coeficiente de correlación de Pearson para cada par se calculó mediante el uso de la expresión génica normalizaron los valores de las 10 órganos (10 puntos), de una adhesión frente a los 10 puntos de datos a partir de la adhesión de otros (véase el archivo de datos adicional 5 para un ejemplo). El número de genes que se r <0,5 en un par de adhesiones comparación se calculó y se muestra en la Tabla 3 y Figura 2. Con la permutada datos, el número indicado en el cuadro 3 y la figura 2 son los promedios de los 10 conjuntos de datos-permutada.

Análisis de agrupamiento de datos de expresión de mRNA se realizó con la misma lista de los 7508 genes utilizados para el análisis de correlación. La expresión los valores se normalizaron luego de 2 log transformado, con una media de centrado para cada gen en todas las muestras, y sometidos a la auto-organización de los mapas, seguida de la media de vinculación jerárquica agrupación de los genes y los experimentos con la Categoría y visualiza con TreeView para generar la figura 3.

Análisis de la varianza (ANOVA) de la expresión mRNA de datos se realizó con la misma lista de los 7508 genes utilizados para el análisis de correlación con funciones de S-PLUS 6.1 (InSightful). Los valores se normalizaron expresión log 2-transformado y utilizado para el análisis de variancia. Por utilizó un modelo lineal de análisis, las tres muestras de la hoja 2 -, 5 - y 11 semanas de edad, fueron tratados como hojas biológica repeticiones, y el modelo lineal general (GLM) se formula como: expresión = + adhesiones error. Por ANOVA de dos vías de análisis sólo las dos muestras de la hoja 2 - y 5 semanas de edad, hojas, y dos de las muestras de las raíces de 2 - y 5 semanas de edad, fueron tratados como raíces biológicas repeticiones, y el GLM es: expresión = adhesiones Órganos + + + adhesiones × órganos error. Se excluyeron las 11 semanas de edad, deja en ANOVA de dos vías de análisis que tome en consideración el efecto de la edad sobre la expresión génica. Hemos estimado la varianza de cada gen en las hojas y raíces de diferentes adhesiones utilizando los locales agrupados error (LPE) método [42], y encontró que sólo un pequeño porcentaje de genes tienen diferentes diferencia de otras adhesiones, en comparación con uno de cada Col - 0. Dado que no hay biológica replicar en el resto de los órganos, estamos suponiendo que los errores de los órganos se encuentran en niveles similares, según la estimación de las dos muestras de hojas y raíz en el ANOVA de dos vías de análisis. Los genes con p-valor significativo (p <0,05) después de la corrección de Bonferroni fueron seleccionados en consecuencia.

El análisis estadístico para el enriquecimiento de MIPS categorías funcionales

Para probar si los genes que representan a determinados precios mínimos categorías funcionales están excesivamente representados en la lista de genes identificados estadísticamente significativa, ya sea de un solo sentido, o de dos vías ANOVA, bootstrapping se realizó mediante la generación de 1000 de todas las listas de control de los genes de la matriz, cada De los cuales contiene el mismo número de genes que figura en la lista, ya sea de un solo sentido, o de dos vías análisis de variancia. Los genes en cada una de las listas de control fueron clasificados sobre la base de categorías funcionales MIPS. Entonces, para cada categoría funcional, una distribución de número de apariciones de esa categoría funcional de las listas de control de 1000, se ha generado, y su distribución en comparación con el observado ocurrencia para determinar el p-valor.

Validación de los datos de microarray GeneChip

La secuencia genómica de los genes 13903_at (At3g54050) y 17392_s_at (At3g53260) de la adhesión C24 fue obtenido por PCR con el ADN genómico de C24, y la siguiente sobre la base de los primers del gen de codificación de esta secuencia de Col-0.

13903_at (At3g54050): 5'-ejemplo: 5'-GATCCAATGTACGGTGAGTTTG-3 ', 3'-ejemplo: 5'-TGCAT-ATACCATGTAGTCAG-3'.

17392_s_at (At3g53260): 5'-ejemplo: 5'-CAGTTTCTCAAGTTGCTAAG-3 ', 3'-ejemplo: 5'-CATTCC-TTGAGACAATCCAT-3'

El producto de PCR fue secuenciado y estas secuencias se utilizaron para el diseño de genes específicos de primers y sondas para Taqman ensayo.

El Ler Ler secuencias de los genes 12222_s_at (At2g20990), 14097_at (At2g47770), 20561_at (At2g46930), 14634_s_at (At4g27440), 13483_at (At2g25650), 15290_at (At2g20840), 13111_at (At2g38040), 14072_at (At1g67480), 14172_at (At3g54140) , 14947_at (At4g37450), 16892_at (At5g45890), 17860_at (At4g27410), 20545_at (At5g27470) fueron obtenidos por BLASTing el cDNA de longitud completa de codificación de secuencias o secuencias de estos genes de Col-0 contra el Ler Ler secuencias disponibles de TIGR [43 ]. Top BLAST hits fueron elegidos y secuencias comunes para ambos Col-0 y Ler Ler se utilizaron para el diseño de genes específicos de primers y sondas para Taqman ensayo.

RT-PCR cuantitativa (Taqman) ensayos se realizaron en un ABI Prism 7700 (Applied Biosystems), según lo descrito anteriormente [44], utilizando la siguiente gen primers específicos y conjuntos de sonda:

13903_at_forward ejemplo: 5'-GGTCCAACTGGGAAGCCTTAC-3 '13903_at_reverse ejemplo: 5'-CCGTACAACAAAGTCCTGTGAAAA-3' 13903_at_target sonda: FAM-CCAACCAAACTTCCAATGTACCTTGCCGTAMRA.

17392_s_at_forward ejemplo: 5'-GGCTGTGCTTCCAAAGGAAGT-3 '17392_s_at_reverse ejemplo: 5'-GTTAGGAATCGGCGCAGTTC-3' 17392_s_at_target sonda: FAM-CTCCCATAAGCTGCTCTAGCCGCTTAMRA.

12222_s_at_forward ejemplo: 5'-GGCTGTGCTTCCAAAGGAAGT-3 '12222_s_at_reverse ejemplo: 5'-GTTAGGAATCGGCGCAGTTC-3' 12222_s_at_target sonda: FAM-CTCCCATAAGCTGCTCTAGCCGCTTAMRA.

14097_at_forward ejemplo: 5'-CAACAAAGGAAAACGCGATCA-3 '14097_at_reverse ejemplo: 5'-CGCTACCGTCAGAGACTTGAGA-3' 14097_at_target sonda: FAM-AGAGGGCGATGGCGAAACGTGTAMRA.

20561_at_forward ejemplo: 5'-TGGTACTTTGACAGAACAACAGTGAA-3 '20561_at_reverse ejemplo: 5'-TGAAGATGAGATTGTGACATGTTTTG-3' 20561_at_target sonda: CCATTGACTGTCCTTACCCCTGT-FAM-TAMRA.

14634_s_at_forward ejemplo: 5'-CGAATACATTGGCGGGTAATG-3 '14634_s_at_reverse ejemplo: 5'-GCCGGCTAAACCCCTCAA-3' 14634_s_at_target sonda: FAM-ACCACCGAAGGCGAATCTCGGTGTAMRA.

15290_at_forward ejemplo: 5'-TCCTGGAGCGTATGTTATGTGGTA-3 '15290_at_reverse ejemplo: 5'-CACCCAAACTTCAGAGCACTATCA-3' 15290_at_target sonda: FAM-CGCCCTCTTTATCGTGCCATGAGGTAMRA.

14072_at_forward ejemplo: 5'-TGTATGACCCGGATGCTTCA-3 '14072_at_reverse ejemplo: 5'-ACGCAAGAACCAGAGAGTTTGAT-3' 14072_at_target sonda: CAGGCACACAGTGGAAAACGTCTGA-FAM-TAMRA.

13111_at_forward ejemplo: 5'-GAGATCAAGAGCATGGTGGAGTT-3 '13111_at_reverse ejemplo: 5'-GGTGACACCAGGCGTTTTG-3' 13111_at_target sonda: CTGAAAGTGGAAACCGCAAAGGCG-FAM-TAMRA.

14172_at_forward ejemplo: 5'-GGGTATAGGTCTTGTGGTCTCCAT-3 '14172_at_reverse ejemplo: 5'-ATCAAGCCTGACAACCTCCAA-3' 14172_at_target sonda: TTTGCCATGATCACTGCAGGAG-FAM-TAMRA.

14947_at_forward ejemplo: 5'-TCCTAACAGTTACATTGATCTGCATTG-3 '14947_at_reverse ejemplo: 5'-TGGTCGGAGAAGAGATAGGAGATT-3' 14947_at_target sonda: CGTCGCCGGTGTCGGTG-FAM-TAMRA.

16892_at_forward ejemplo: 5'-CCGGTTAATGATGAGCAAGCA-3 '16892_at_reverse ejemplo: 5'-CCTCCTTCAATTCCAACGCTAA-3' 16892_at_target sonda: ATGAAGGCAGTGGCACACCAACC-FAM-TAMRA.

17860_at_forward ejemplo: 5'-ACGGTGGTTACGATGCGTTT-3 '17860_at_reverse ejemplo: 5'-CCGATTCACATGCCCACTCT-3' 17860_at_target sonda: AGCGGCGGAAGGTGAGGCG-FAM-TAMRA.

20545_at_forward ejemplo: 5'-GAGCTTGTGTCTTGTTCCAACTGT-3 '20545_at_reverse ejemplo: 5'-TGCTCTTTTTCTGACCGTATCTGA-3' 20545_at_target sonda: CAGACTACCAGGCTCGCAGGCTTGA-FAM-TAMRA.

Una curva estándar consistente en diluciones seriadas 1:5 se preparó con ARN concentraciones de 50 ng / μ l, 10 ng / μ l, 2 ng / μ l, 0,4 ng / μ l, y 0,08 ng / μ l. Relativa de los niveles de expresión fueron interpolados en comparación con las curvas de calibración con un coeficiente de correlación de 0,99 o más. Expresión relativa de los niveles se normalizaron a nivel de la expresión de los genes de Arabidopsis APX3 [44], que se expresó a un nivel constante. Todas las reacciones fueron realizadas por triplicado.

Promotor y análisis de polimorfismo

Secuenciación del ADN genómico se utilizó para el análisis de los polimorfismos en 12 diferentes Arabidopsis adhesiones. ADN genómico de las adhesiones Col-0, C24, Ler Ler, Ws-0, n-0, DLR-1, Ag-0, Bs-1, Cvi-0, Es-0, Gr-1, Monte-0 y Tsu-0 se obtuvo de los tejidos suministrados por la población y se utiliza como centro de la plantilla para la amplificación de PCR y secuenciación. La secuencia fue la siguiente estrategia: el uso del AGI anotación del genoma como guía, de una región a partir del 1 kb antes de empezar la traducción anotada de cada gen a 300 pb después del codón de parada se amplificó por LA-PCR (PCR larga y exacta) de cada De las accesiones. El producto de PCR se utilizó directamente para la secuenciación de ambos capítulos. Varios cebos se utilizaron para completar la secuencia de todo el gen y el 5 'y 3' regiones. Uso de software Sequencher (GeneCodes) secuencias de la adhesión de cada uno se pusieron en la alineación contigua para cada gen. Secuencia de las variaciones entre las adhesiones en la región promotora, el marco de lectura abierta (ORF), intrón, exón y 3 'UTR fueron confirmados y registrados. La región promotora se define como la secuencia disponible (1 kb o más) antes de empezar la traducción codón, mientras que el exón-intrón límites definidos mediante el AGI (Arabidopsis Gene Index) gen modelos, que se obtuvieron de la Arabidopsis Information Resource (TAIR ) [45]. Sólo las diferencias confirmado en múltiples secuencias fueron determinadas como polimorfismos. La tasa de polimorfismo en el promotor y los exones se calculó como el número de bases de sustituir en cualquier secuencia de la adhesión, más que el número total de diferentes inserción o supresión (indel) se encuentran en todos los eventos de la adhesión en esa secuencia región, dividida por la longitud de la Secuencias disponibles. Las alteraciones de los posibles elementos reguladores cis-causadas por polimorfismos fueron detectados en la siguiente forma automatizada. El mutante y de tipo salvaje promotor secuencias se buscaron todos los vegetales conocidas cis-elementos de regulación en las bases de datos PLACE [46] y plantCARE [47] utilizando una costumbre-escrito script PERL. Las listas de elementos reguladores cis-se compararon para encontrar elementos creados o destruidos por los polimorfismos. Esta lista fue editado para eliminar manualmente improbable candidatos a la promotora secuencias reguladoras, como la iniciación de traducción posibles sitios que fueron transcritas fuera de la región, o putativo polyadenylation motivos situado en la región promotora.

Adicional de los archivos de datos

Los siguientes datos adicionales están disponibles con la versión en línea de este documento. Datos adicionales archivo 1 es un cuadro que muestra la sonda que representan conjuntos de genes muy polimórficos con secuencias de codificación. Adicional archivo de datos 2 es un cuadro que muestra las muestras utilizadas en este estudio. Adicional archivo de datos 3 es un cuadro que muestra la correlación entre el crudo y normalizado ARN hibridación entre todos los índices de 50 muestras. Datos adicionales archivo 4 es un cuadro que muestra ejemplos de (a) en un solo sentido y (b) de dos vías tablas ANOVA de análisis de la varianza (ANOVA). Datos adicionales archivo 5 es un cuadro que muestra un ejemplo de la matriz de coeficientes de correlación de Pearson para un gen obtenido de las 10 comparaciones en pareja entre los cinco adhesiones. Archivo de datos adicional 6 es un cuadro que muestra la variación de la secuencia promotora regiones que altera cis-elementos. Datos adicionales archivo 7 es una tabla que muestra el mRNA expresión de los genes identificados a partir de ANOVA de dos vías. Datos adicionales de archivo 8 es una cifra que muestra un histograma de coeficiente de variación (CV), basado en los índices de intensidad de la hibridación genómica de los cinco adhesiones. Datos adicionales 9 es un archivo QQ-plot mostrando los efectos de la utilización gDHI para normalizar rRHI para reducir el efecto residual de secuencia diferencia entre los objetivos y las sondas de hibridación durante ARNm.

Material suplementario
Archivo Adicional 1
Estos conjuntos de sonda se identificaron sobre la base de los coeficientes de variación de los niveles de los índices calculados a partir de la hibridación ADN genómico hibridación de datos
Archivo Adicional 2
Una tabla que muestra las muestras utilizadas en este estudio
Archivo Adicional 3
Una tabla que muestra las correlaciones entre crudo y ARN normalizaron los índices de hibridación entre todas las 50 muestras
Archivo Adicional 4
(A) de una vía y (b) de dos vías tablas ANOVA de análisis de la varianza
Archivo Adicional 5
Una tabla que muestra un ejemplo de la matriz de coeficientes de correlación de Pearson para un gen obtenido de las 10 comparaciones en pareja entre los cinco adhesiones
Archivo Adicional 6
Un cuadro que muestra la variación de la secuencia promotora regiones que altera
CEI
Elementos -
Archivo Adicional 7
Una tabla que muestra el mRNA expresión de los genes identificados a partir de ANOVA de dos vías
Archivo Adicional 8
Una cifra que muestra un histograma de coeficiente de variación (CV), basado en los índices de intensidad de la hibridación genómica de los cinco adhesiones
Archivo Adicional 9
Dos muestras representativas se muestra, el Col-0-4d las plantas de semillero y la NO-0-4d plántulas antes y después de la normalización de ADN genómico. El resto de las 48 muestras tienen perfiles similares QQ -
Agradecimientos

Damos las gracias a Bin Han de asistencia técnica en la preparación de las muestras utilizadas en los experimentos de microarrays y para ayudar en la realización de los experimentos de microarrays, Xun Wang por su apoyo, y para Zhen Su análisis computacional. También queremos agradecer a los revisores anónimos de sugerencias constructivas sobre el análisis estadístico de los datos.