Genome Biology, 2005; 6(3): R27-R27 (más artículos en esta revista)

Coeficiente de heredabilidad para la detección de loci cuantitativo rasgo con estimaciones de los microarrays de expresión génica

BioMed Central
Kenneth F Manly (kmanly@tennessee.edu) [1], Jintao Wang (jwang@nb.utmem.edu) [2], Robert W Williams (rwilliam@nb.utmem.edu) [2]
[1] Department of Pathology, University of Tennessee Health Science Center, 855 Monroe Avenue, Memphis, TN 38163, USA
[2] Department of Anatomy and Neurobiology, Center of Excellence in Genomics and Bioinformatics, University of Tennessee Health Science Center, 855 Monroe Avenue, Memphis, TN 38163, USA
[3] Department of Biostatistics, 246 Farber Hall, University at Buffalo, Buffalo, NY 14214, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

El uso de las líneas puras recombinante permite una estimación de la heredabilidad de expresión individual medido por las sondas. Al probar heredabilidad de promedios ponderados para definir la expresión de una transcripción, más QTL que se puede detectar con los métodos anteriormente descritos.

Antecedentes

El estado de equilibrio de una abundancia de especies de ARN en un órgano es, en parte, genéticamente controlado y puede ser considerado como un rasgo genético cuantitativo. Microarray métodos para estimar la abundancia de secuencias de ARN [1], en combinación con métodos genéticos para la identificación de loci que afectan a los caracteres cuantitativos [2 - 4], proporcionan la oportunidad de estudio para todos los tejidos genéticamente controlado variación en la expresión de genes. Este enfoque ha sido llamado genético de la genómica [5], y su viabilidad se ha demostrado en experimentación y cruza los sectores de la población [6 - 10].

Genético de la genómica es aún mayor por el uso recombinante de líneas puras como la cartografía población. El uso de las líneas puras recombinante permite la comparación de la expresión de genes entre los diferentes tejidos y la comparación de la expresión genética clásica con rasgos fisiológicos y de comportamiento de la literatura publicada [11, 12]. Pública de datos y software en línea en WebQTL [10, 13] permitir la libre exploración de las características de esta forma de análisis [14]. Además, las líneas puras recombinante puede proporcionar repeticiones de los dos individuos genéticamente idénticos, y las muestras de diferentes SEGREGANTES. Los datos de estos definir genéticos y la no variación genética, definir una medida de heredabilidad para la expresión de genes individuales, y servirá de base para un nuevo método de reducción de datos genético de la genómica.

Reducción de datos es un problema porque Affymetrix GeneChip microarrays ensayo oligonucleótido cada meta ARNm con un conjunto de 11 a 16 pares de nucleótidos de ADN de 25 sondas. Cada par de sondas consiste en una pareja perfecta (PM) y la secuencia de una falta de adecuación de secuencias (MM), este último destinado a la estimación inespecífico vinculante. El software de Affymetrix Microarray Suite 4,0 y 5,0 (MAS 4 y MAS 5) Estimación de expresión de la diferencia media de la tarde y MM fluorescencia. Desde el estudio pionero de Li Wong y [15], sin embargo, ha quedado claro que los MM vinculante incluye metas específicas vinculantes, así como inespecífico vinculante, y el uso apropiado de fluorescencia MM ha sido una cuestión abierta. De hecho, una reciente publicación muestra que puede ser más útil usar la suma de los valores MM y PM en lugar de su diferencia [16]. En resumen, el comportamiento de los microarrays de oligonucleótidos no está adecuadamente explicada por los modelos de base de considerar que sólo la complementariedad. Más realista considerar modelos inespecífico vinculante, la saturación, los efectos de etiquetado y fluorescentes intramolecular plegables objetivo de la sonda y [15, 17 - 19].

Varios métodos alternativos que se han propuesto para combinar múltiples sonda específica de los valores en una única expresión estimación. Tres alternativas son ampliamente utilizados multiarray robusto promedio (RMA) [20], basados en modelos de expresión índice / intensidad (MBEI), ejecutado en dChip software [15], y que dependen de la posición más cercana de vecino modelo (PDNN) [17]. RMA proporciona estadísticamente robusto promedio de los métodos, dChip encaja un modelo que permite que la sonda específica vinculante afinidades, y PDNN encaja un modelo que permite que la secuencia específica de carácter vinculante y afinidades vecino más cercano de las interacciones de apilamiento. Un método de la media ponderada también está disponible, una sonda que pesos específicos de los valores por un procedimiento de validación cruzada [21]; este método, sin embargo, no se aprovechan de replicar microarrays y la actual aplicación en Bioconductor [22] es demasiado lento Para esta aplicación. Por último, un método (SUM) que se basa en la suma de los valores MM PM y recientemente se ha descrito [16]. La justificación de este método es que MM sondas exposición sonda específica de carácter vinculante, así como inespecífico vinculante [15, 17] y pueden, por tanto, ser más eficaces para la estimación específica vinculante que para corregir vinculante para inespecífico. De hecho, el método SUM MAS5 supera en varios aspectos.

Se describe aquí un nuevo método, diseñado específicamente para su aplicación en genética genómica. En este método, llamado heredabilidad ponderado transformar la versión 1 (HWT1), la sonda específica de los datos se combinan en una media ponderada en la que se determinan los pesos de un presupuesto de la heredabilidad de los datos para cada sonda.

Resultados

Figura 1 proporciona una visión general del conjunto de datos y el problema de la reducción de datos para la cartografía de QTL con datos de expresión de genes de cepas recombinantes puras. Estos datos de expresión de genes de formar un conjunto de datos de cuatro dimensiones. Como se muestra en la Figura 1, la primera dimensión está formado por puras cepas recombinantes, la segunda por repetir las muestras de cada cepa, la tercera por múltiples sondas de cada sonda conjunto, y la cuarta por múltiples sonda fija en representación de los diferentes transcripciones. QTL para la elaboración de mapas, dimensiones 2 y 3 deben ser derrumbado solo a los valores que se pueden comparar con los genotipos para cada cepa (en la dimensión 1). Normalmente, las dimensiones 2 y 3 se derrumbó por un promedio simple o por sonda promedio de las diferencias.

Heredabilidad se determina por la diferencia relativa de expresión aportados por las dimensiones 1 y 2. El método descrito aquí HWT1 utiliza esta información de las dimensiones 1 y 2 para definir los pesos que permiten dimensión 3 que se derrumbó con una media ponderada. Dimensión 2 todavía se derrumbó con un promedio simple.

Los grupos de izquierda de la figura 2 muestra la distribución de las estimaciones de heredabilidad de expresión para los distintos PM sondas, con las frecuencias se muestran en una escala de registro para hacer las colas de la distribución visibles. Los resultados de los tres órganos o tejidos de BXD recombinante de líneas puras se muestran: el cerebro expresión (Brn); expresión de células madre hematopoyéticas (HSC), y cerebelo expresión (Cer). Cerebro y HSC se analizaron con microarrays de Affymetrix U74Av2; cerebelo con Affymetrix y M430A B. En todas las bases de datos, las estimaciones van desde muy por debajo de 0 a 1 o ligeramente por encima. El método utilizado para la estimación de heredabilidad que se conoce a estimaciones del rendimiento fuera del ámbito natural para la heredabilidad espera [23]. En efecto, como se muestra en la Figura 2, 21%, 45% y 60% de las estimaciones son negativos (por cerebro, cerebelo y HSC, respectivamente) y unos pocos (<0,1%), de cerebro y cerebelo estimaciones están por encima de 1,0.

Aunque existen métodos de estimación que se evitarían estos valores, el método actual es sencillo y sirve a la finalidad de ser negativos y las heredabilidades superiores a 1 se ajustan mediante la asignación de los valores de 0 y 1, respectivamente. Cuando estos son ajustados heredabilidades normalizado por el promedio (ajustado) heredabilidad de las sondas en cada sonda conjunto, la resultante pesos se distribuyen como se muestra en la mano derecha de los paneles de la Figura 2. Alrededor del 36%, 49% y 61% (para el cerebro, HSC, y el cerebelo, respectivamente) de la sonda de pesos es igual a cero y el 55%, 60%, y el 66% tienen menos de 1,0. Estas sondas son total o parcialmente excluidos de una media ponderada. Una pequeña minoría de sondas, menos del 3%, por encima de pesos recibirá la mitad del máximo posible de peso, lo que sugiere que dominarán la media de la sonda de serie a la que pertenecen.

Los resultados de la cartografía de QTL con promedios ponderados se muestran en la Figura 3, en la que P-valores ordenados a partir de un conjunto de microarrays se enfrenta a la categoría de cada uno de P-valor [24]. P-Cada valor representa el significado de los mejores QTL único, es decir, de la mejor asociación entre la expresión de una transcripción y genotipos en algún marcador. En esta parcela, distribuidos de manera uniforme P-valores, de las pruebas en las que la hipótesis nula es siempre cierto, forma una línea recta a lo largo de la diagonal. Es decir, una ausencia total de QTL darían un línea recta en diagonal. En cada grupo, una inserción muestra toda la gama de P-valores, la mayoría de los cuales aproximadamente el formulario de hacer una diagonal. La principal figura muestra los valores más pequeños. En cada una de las principales figura de la línea formada por los valores de P-vira bruscamente, lo que indica un exceso de locales de los pequeños de P-valores. Esos P-valores que se encuentran por debajo de la línea de puntos en cada panel de formar un grupo en el que la tasa de falsos descubrimiento se espera que sea no más del 20%, según un Benjamini y Hochberg prueba [25]. Este criterio se utiliza en este documento para definir QTL significativos.

Los paneles de la Figura 3 QTL detectado después de comparar con una media de 5,0 Affymetrix MAS software y QTL detectado con tres variaciones de heredabilidad de un promedio ponderado. Estas variaciones difieren en el uso de sondas MM. En cuanto a la transcripción vinculante MM sondas parece que se incluyen tanto inespecífico y la determinación de objetivos específicos vinculante [15, 17, 18], probamos tanto restando MM valores de la tarde (para eliminar la señal inespecífica) y añadiendo a los valores MM PM (añadir a las metas específicas Señal). Figura 3a muestra los resultados obtenidos mediante el cálculo de heredabilidad media de la tarde y las sondas sólo las sondas, la Figura 3b muestra resultados obtenidos mediante el cálculo de heredabilidad y media de la tarde - MM diferencias y la figura 3c muestra resultados obtenidos mediante el cálculo de heredabilidad y un promedio de todas las sondas (PM y MM ) Juntos. Utilizando el 20% de falsos descubrimiento tasa importancia como punto de corte, cada uno de los métodos de ponderación heredabilidad de los rendimientos más que QTL MAS 5,0. Con este conjunto de datos, utilizando sólo sondas PM QTL dado más que los otros dos métodos de ponderación.

Cuando los promedios ponderados de expresión se permutan al azar entre los recombinantes puras (RI) cepas antes de la elaboración de mapas, no se detectaron QTL en el 20% la tasa de falsos descubrimiento (datos no presentados). Desde estimaciones de heredabilidad no se ven afectadas por permutación, permuting datos después de una media ponderada equivale a un promedio de permuting antes. Además, la simulación mostró que las variaciones hereditarias por sí sola no es suficiente para definir QTL. Simulación de conjuntos de datos se generaron con variaciones hereditarias distribuidos entre las sondas de diversas maneras, entre ellas una en la que todos los hereditarios variación fue generada por una sola sonda sonda de cada conjunto. En todos estos conjuntos de datos simulados variación es independiente de los genotipos marcador. No se detectaron QTL de estos conjuntos de datos simulados después de heredabilidad de ponderación y cartografía de QTL (datos no presentados).

Hay poca relación entre la abundancia de las transcripciones y la probabilidad de detección de un QTL (datos no presentados). En todo caso, la fuerte QTL tienden a ser encontrados entre las transcripciones de abundancia moderada. Esta tendencia se podría explicar si interstrain variación aparente, necesario para la detección de QTL, se reduce cuando la abundancia es extrema, ya sea cerca del límite inferior de detección o lo suficientemente elevado como para saturar algunas sondas de oligonucleótidos.

Probe heredabilidad es un predictor de la existencia de un QTL detectables para configurar una sonda. Cualquiera de heredabilidad media o máxima heredabilidad entre sondas en una sonda puede utilizarse como predictor. En cualquier caso, heredabilidad por encima de un valor umbral que se adopte para predecir la existencia de un QTL. La figura 4 muestra la característica de funcionamiento del receptor (ROC) para las curvas de media o máxima de la sonda heredabilidad utilizarse como predictor de la existencia de un importante QTL. La muestra coordinar la fracción de las transcripciones con QTL que se predijo correctamente como tales por heredabilidad, la abscisa muestra la fracción de transcripciones sin QTL que están mal predicho por heredabilidad de tener un QTL. Las curvas son producidos por el trazado de estas dos cantidades distintas de los valores umbral de heredabilidad media o máxima de heredabilidad. Para un predictor perfecto, la curva ROC se ajustaría a la izquierda y arriba de los límites de la figura. Para un predictor inútil, la curva ROC sería una línea diagonal entre el origen y el de la esquina superior derecha.

Estas curvas muestran que la heredabilidad máximo es más eficaz que la media en predictivos de detectar QTL. Porque sonda establece que no definen una importante QTL amplísima mayoría sobre los que sí, la definición de una sonda fija QTL son todavía una minoría entre los conjuntos seleccionados para sonda de heredabilidad. Esta situación se ilustra con tres puntos que están encerrados en un círculo en la figura. La mano derecha en círculos punto demuestra que la selección de heredabilidad para la máxima superior a 0,35 seleccionado el 77% de la sonda fija; el 2% de estos QTL dado componen el 99% de todos los QTL. El centro en círculos punto demuestra que un umbral de 0,525 seleccionado el 17% de la sonda fija, de los cuales el 8% dado QTL que componen el 90% de QTL. La izquierda en círculos punto demuestra que un umbral de 0,675 seleccionado el 4% de la sonda fija, de los cuales el 32% arrojó QTL que componen el 75% de QTL.

La disponibilidad de ARN de los tejidos ajenos, el cerebro y HSC, nos permitió examinar la cuestión de si la sonda heredabilidades son específicas de los tejidos de origen. Raw sonda heredabilidades de los datos de cerebro y HSC tienen un coeficiente de correlación de -0,004, pero eso significa poco valor ya que la mayoría de las heredabilidades sonda están cerca de cero. La más significativa es la comparación entre las heredabilidades para sonda sonda fija en la que al menos una sonda tiene importantes heredabilidad. Figura 5 muestra la comparación de dispersión cerebro y HSC crudo sonda heredabilidad y peso de la sonda PM 304 sondas (19 conjuntos de sonda) en el que al menos uno de cada uno de los órganos sonda había heredabilidad superior a 0,90. Aun con este grado de selección, la correlación de heredabilidad o peso es de sólo 0,59 o 0,58, respectivamente. Por lo tanto, incluso con la extrema selección, hay poca correlación entre la sonda heredabilidades de estas dos fuentes, lo que sugiere la sonda heredabilidades son tejidos específicos.

QTL para la expresión de los genes pueden ser clasificados de acuerdo a la localización cromosómica de los QTL relativo a la localización de los genes expresados. Aquellos para los que la localización de los QTL y genes están estrechamente vinculadas, se caracterizan como cis QTL; aquellos para los que los lugares son diferentes son transnacionales. En este estudio la ubicación de un QTL está definido por la ubicación del marcador de lograr el más alto ratio de probabilidad estadística (LRS), un marcador definido por una secuencia simple de repetir cuya ubicación es conocida en la secuencia del ratón. Cis QTL son, en cierta forma arbitraria , Que se define como aquellos para los que esta marca está dentro de los 10 megabases (Mb) de la ubicación de la sonda por la que la secuencia de la expresión de genes se mide.

QTL también pueden ser clasificados de acuerdo a la dirección del efecto sobre la expresión génica. Adoptamos la convención QTL que están etiquetados como '+' si el DBA/2J alelo se asocia con una mayor expresión y la aparente '-' si el C57BL/6J alelo se asocia más alta expresión aparente. Suponiendo que Affymetrix sonda secuencias fueron diseñadas en gran parte para el C57BL / 6 secuencia, secuencia de las diferencias entre los C57BL / 6 y DBA / 2 en la secuencia reconocida por una sonda tenderá a hacer DBA / 2 hibridación más mal que C57BL / 6. Es decir, la variación de secuencias complementarias de la sonda puede crear secuencias artifactual QTL, lo que refleja una diferencia en la hibridación en lugar de una diferencia en la expresión. Tal artifactual QTL se espera que se cis -.

Figura 6 resume la clasificación de QTL detectado por heredabilidad de los métodos de ponderación. Los tres paneles de la figura muestran los datos de cerebro, cerebelo y HSC. Cada conjunto de datos anterior confirma los resultados que cada uno de los métodos de heredabilidad ponderado detecta más de QTL MAS 5,0. Sin embargo, la HSC de datos difiere de los otros dos en que ponderado PM - MM detectado diferencias más que QTL PM sondas solo.

Para todos los métodos en todas las bases de datos, cis - QTL superan en número cis + QTL, en algunos casos por dos o tres. Este excedente se explica por polimorfismos en secuencias blanco de Affymetrix sondas, polimorfismos reducción de la hibridación de ARN DBA/2J. Por Brn HSC y el procedimiento de ponderación hecho algunos intentos para reducir este tipo de artefacto mediante la asignación de un peso de 0 a 614 sondas de haber conocido-polimorfismos de nucleótido único (SNP) en la sonda de secuencia diana. El exceso de cis - QTL restantes en Brn y HSC a pesar de este procedimiento sugiere que puede haber efectos adicionales de polimorfismos no está incluido en nuestra lista.

El cerebelo conjunto de datos dado un gran número de importantes QTL. En esta parte del rendimiento que se esperaba ya que el número de conjuntos de sonda M430 microarrays es 3,6 veces mayor que para U74Av2. Sin embargo, el rendimiento de QTL para el cerebelo de datos es de unas 10 veces mayor que el de HSC o cerebro, o cerca de 2,7 veces mayor en relación con el número de genes representados en el microarrays. Como se analiza más adelante, el cerebelo, se obtuvieron los datos en dos lotes desequilibrada, y una diferencia entre estos lotes podría crear artifactual QTL en el cromosoma 2. Sin embargo, aunque 475 QTL significativo, el 16% del total, aparecen en el cromosoma 2, este número es demasiado pequeño para explicar con todo detalle el gran número de QTL el cerebelo.

Figura 7 muestra que el método utilizando sólo HWT1 PM sondas permitido la detección de más QTL que el dChip, RMA, o PDNN métodos de reducción de datos. En comparación con estos métodos, HWT1 detectado un mayor número de QTL QTL en todas las clases, pero el aumento en cis - QTL es desproporcionadamente grande. Como se explicó, muchos de los cis - QTL puede ser causada por artefactos polimorfismos.

El número de sondas que contribuyen a promedios ponderados varía considerablemente entre los conjuntos de la sonda. El número efectivo de las sondas se puede definir, tal como se describe en Materiales y métodos, por una medida que es la reciprocidad de una media ponderada de las ponderaciones. La medida varía de 1,0, si todos los pesos, pero son un cero, y el número de sondas (por lo general, 11,0 o 16,0), todas las sondas, si se ponderan por igual.

La figura 8 muestra, en boxplot forma, la distribución efectiva de la sonda número de promedios ponderados de los datos del cerebro. Cinco clases de conjuntos de sonda se comparan, los que no definen QTL y las que definen cis -, cis + trans, -, y trans + QTL. En cada parcela, la caja central de la muestra oscila entre el 25 y 75 percentiles. La línea a través de la caja le da la mediana de la ubicación y el área sombreada da el 95% intervalo de confianza para la media.

Los datos en la Figura 8 permite tres conclusiones. En primer lugar, que una fracción importante de sondas contribuir a promedios ponderados que definen QTL. En cada caso, la central de la mitad de QTL cae en el 7 - a 13-sonda de intervalo. Aunque los grupos no difieren significativamente, puede haber una tendencia de los QTL + la participación de más de sondas - QTL. Por último, sólo el cis - grupo incluye QTL definido por menos de cuatro sondas. QTL que dependen de tan pocas sondas son más probables de ser causados por artifactual QTL polimorfismos en secuencias de la sonda objetivo.

Discusión

La heredabilidad de un promedio ponderado método descrito aquí con éxito resume oligonucleótido mediciones microarray de la expresión genética de una forma que facilita la detección de QTL que afectan a la expresión. Se trata de un método heurístico, que no se derivan de un modelo estadístico explícito. Sin embargo, la razón es simple y se basa en tres hechos: en primer lugar, las variaciones hereditarias es necesaria (pero no suficiente) para definir un QTL, en segundo lugar, dentro de una sonda sondas conjunto difieren en gran heredabilidad en la expresión de sus estimaciones, y en tercer lugar, dentro de las sondas Una sonda conjunto difieren mucho en su capacidad para detectar un QTL. Estos hechos sugirieron que un simple medio ponderado resumiría sonda conjunto de datos sin ocultar la señal de estas sondas que podrían detectar un QTL.

HWT1 está diseñado específicamente para cartografía de QTL. En su forma actual, no se aplica a la situación más común experimental diseñado para estimar las diferencias de expresión entre las muestras. En esa situación experimental, este método sería circular, la ponderación sondas según una estimación de la cantidad que se ha estimado. QTL cartografía, en cambio, no dependen directamente de las diferencias entre las muestras, sino en la correlación de las diferencias con un marcador genético. De hecho, los datos de la Figura 4 implica la existencia de unas sondas con alta heredabilidad que, sin embargo, el rendimiento no significativo QTL.

A pesar de que esta ponderación diseñado para reflejar heredabilidad, podrá, en función del diseño experimental, la participación de más de heredabilidad. La heredabilidad estimación se basa en la diferencia entre las cepas (que incluye genéticamente determinada varianza) y la diferencia dentro de las cepas, según una estimación de la no variación genética. Esta estimación está muy relacionada con otras dimensiones de las medidas de efecto, como la repetibilidad, ω 2, η 2, o ε 2 [26 - 29]. Aunque no hemos probado ponderación con estas medidas alternativas, esperamos que cualquiera de ellos daría un beneficio similar para la cartografía de QTL. Sin embargo, la ponderación óptima para esta aplicación aún no se puede determinar.

Las frecuencias de cis QTL detectado en el presente estudio (31-77%) entran dentro de la amplia gama de frecuencias detectado en otros estudios. La más estrechamente comparables estudio es que el hígado del ratón transcripción, en el que la frecuencia de cis QTL varió de 34% para moderadamente importantes QTL (log odds Resultado (LOD)> 4.3) a 71% para las más importantes QTL (LOD> 7,1 ) [8]. Sin embargo estos resultados se basaron en los microarrays de sondas de 60 nucleótidos, que se espera que sea menos sensible que Affymetrix sondas a los efectos de los polimorfismos de nucleótido único. El mismo estudio informó una frecuencia de 80% para las más importantes QTL (LOD> 7,0) para hojas de maíz. Para la transcripción de levadura ensayadas con cDNA arrays, Brem y compañeros de trabajo estimado 36% cis QTL [7], y de una línea celular humana ensayadas con Affymetrix arrays Morley y compañeros de trabajo informó de un 18% [9].

Diferencia dentro de las cepas por lo general no incluye la variación genética biológica, pero eso no era cierto en el caso de la HSC conjunto de datos, para el que se reproduce derivados de una única muestra biológica. En ese conjunto de datos, estimaciones de heredabilidad fueron presumiblemente mayor que si réplicas se habían derivado de separar las muestras biológicas. No obstante, HWT1 ponderación fue claramente útil para la detección de QTL en este conjunto.

Sistemática las diferencias entre las cepas pueden influir en la ponderación de dos maneras. Lote de efectos que están en equilibrio dentro de las cepas (en parte cierto en el cerebelo de datos) contribuirá a la cepa dentro de la varianza y se desinflará estimaciones de heredabilidad. Este efecto puede explicar por qué cerebelo crudo sonda pesos incluyen a muchos más que los que lo hacen, los valores negativos del cerebro o HSC (Figura 2]. Por otra parte, sistemático de las diferencias genéticas entre las cepas (como el efecto en el lote de datos HSC) inflar estimaciones de heredabilidad. Para estimaciones de heredabilidad, la HSC lote efecto fue evitado mediante el uso de datos de un lote.

Esos lotes pueden afectar también a los efectos de mapas QTL, causando una mayor frecuencia de falsos positivos en las zonas del genoma donde un lote efectos fortuitos se correlaciona con marcador de alelos. De hecho, si el número de lote en el cerebelo es tratado como un rasgo, que se asocia con tres zonas en el cromosoma 2 (ninguno de los cuales, sin embargo, alcanza un nivel de significación sugestiva). Esos efectos pueden ser controlados por lote utilizando como cofactor, tanto en el análisis de la varianza de que las estimaciones de heredabilidad y la posterior cartografía de QTL. Sin embargo, estas mejoras van más allá de lo que se necesita para presentar el método HWT1. Así, en el cerebelo de datos, cartografía de QTL en el cromosoma 2 podrán incluir los falsos positivos provocados por una diferencia de los microarrays de procesamiento por lotes. Este lote efecto, sin embargo, no puede explicar el excepcional número de QTL detectado en el cerebelo de datos. El exceso de número de QTL detectados para cerebelo (en comparación con el cerebro o HSC) supera con mucho el número total de QTL en el cromosoma 2.

La comparación de heredabilidad de ponderación con otros métodos de reducción de datos (Figura 7] deben ser considerados como preliminares, ya que se basan en los resultados de un único conjunto de datos. Más importante, que la comparación no implica nada acerca de su idoneidad para otros fines. Además, las modificaciones de cualquiera de los métodos que sean más adecuados para la cartografía QTL.

No está claro por qué las sondas de un conjunto único de la sonda debe variar tanto en la heredabilidad de sus estimaciones de expresión. Le sugerimos tres posibilidades. En primer lugar, los cambios en la concentración de ARN se traducirá en mayores cambios en las concentraciones de ARN de fluorescencia, si están cerca de la eficacia vinculante constante de una sonda. En la actualidad, las constantes vinculante de las sondas varían [17 - 19], la sensibilidad a los cambios variarán. En segundo lugar, no específicos de la hibridación con sondas de ARN especies que no varían en las cepas reducirá hibridación específicas que podrían definir un QTL. Si difieren en sondas de hibridación inespecífica, que difieren en su capacidad de definir un QTL. En tercer lugar, ya que las sondas de ensayo diferentes partes de la meta transcripción, splicing alternativo y diferenciado afectará a la degradación de las sondas de otra manera.

El QTL descritos en este informe fueron detectados por un solo montaje-QTL modelo, de un modelo estadístico en el supuesto de que todos los QTL contribuir a un rasgo con efectos independientes. Este modelo puede ser engañosa si vinculados y / o interacción QTL contribuir a un rasgo. Sin embargo, ya que muchos rasgos son, en gran medida controlados por uno o pocos disociados QTL QTL, estos resultados son fiables y útiles. Además, sugieren que puede ser fructífera para adaptar el principio de la heredabilidad de los coeficientes de ponderación QTL búsquedas con múltiples modelos de QTL.

Conclusión

Para resumir los datos de expresión individual transcripciones, la sonda HWT1 método combina datos específicos en una media ponderada en la que los pesos se determinan por la heredabilidad de la sonda específica de los datos. Proporciona una forma útil de resumir los conjuntos de datos de genética genómica porque pone el peso sobre la sonda específica de los datos que podría haber variación definir un rasgo cuantitativo locus.

Materiales y métodos
Brain ARN

Brain RNA se obtuvo de 32 cepas de ratones BXD recombinante puras, la de sus padres y DBA/2J cepas C57BL/6J, y (C57BL / 6 x DBA / 2) F1 híbrido. Los datos de los padres y de los animales F1 se incluyeron en la heredabilidad estimaciones, pero no se utilizaron para el levantamiento de mapas QTL. Cada persona gama experimento utilizado una reserva de tejido cerebral (más el mesencéfalo anterior, pero sin el bulbo olfatorio) que se tomó de tres animales adultos generalmente de la misma edad. Más información detallada está disponible en WebQTL [10]. Todos los resultados se derivan de la serie 100-Diciembre 2003 congelación de los datos.

De células madre hematopoyéticas (HSC) de ARN

Células de la médula ósea se tiñeron con anticuerpos específicos de linaje y purificada por citometría de flujo. Una población de células madre se define como el 5% de las células que muestran menos específicos de linaje fluorescencia [30]. Replicar muestras de ARN fueron amplificados por separado a partir de una única célula de preparación para cada cepa BXD, y estas muestras se procesaron en dos lotes de 22 y ocho cepas. Estos datos se describen en WebQTL [10] como los datos de marzo de 2004 congelar.

Cerebelo ARN

Cada uno de los microarrays de ensayo utilizado MOE 430A y Affymetrix GeneChip MOE430B pares en analizar ARN de un grupo de cerebella intacta su conjunto proceden de tres animales adultos generalmente de la misma edad. RNA de muestras se procesaron en dos lotes. El primer lote constaba de solo 17 BXD muestras de las cepas. El segundo lote consta de 10 biológica de las cepas de repeticiones, repeticiones técnica adicional para dos cepas, solo muestras de otros cuatro cepas, y duplicados de las muestras de otros cinco cepas. Se extrajo el ARN en la Universidad de Tennessee y el Centro de Ciencias de la Salud de todas las muestras fueron procesadas en el Centro de Hartwell (St. Jude Children's Research Hospital, Memphis). Estos datos se describen en WebQTL [10] como la SJUT Cerebelo Enero datos de 2004 congelar.

Microarrays

Cerebro y HSC datos se obtuvieron a partir de microarrays U74Av2 Affymetrix, que proporcionan más de 12000 sonda fija, casi todos los cuales están representados por 16 PM y 16 MM sondas sondas. El cerebelo datos se obtuvieron a partir de Affymetrix 430A y 430B microarrays, que proporcionan más de 45000 sonda fija, casi todos los cuales están representados por 11 PM y 11 MM sondas sondas.

Microarray reducción de datos

Además de la HWT1 método, microarrays datos fueron procesados con Microarray Suite 5.0 (MAS5) software [31, 32], [20] RMA, PDNN [17] y dChip [15].

HWT1 ponderación

Individual sonda intensidades U74Av2 microarrays de Affymetrix se log 2-transformado y normalizado a un nivel en toda la gama media y desviación estándar. Para cada sonda, cuadrado medio desviaciones dentro de las cepas (MS w), y entre las cepas (MS b) se calcularon mediante análisis de varianza de la log-transformado, normalizado expresión. En aras de la velocidad, la edad y el sexo de los animales, no se incluyeron como cofactores en el análisis de la varianza. Raw heredabilidad se estimó como (MS - MS w) / (t nuevos Estados miembros nuevos Estados miembros), donde n es el número medio de repeticiones por cepa y MS t es la varianza total (excluidas las cepas sin repeticiones, en su caso) [33]. Ajustada heredabilidad se derivó de crudo heredabilidad mediante la asignación de valores de 0 y 1, respectivamente, a la heredabilidad crudo por debajo de los valores por encima de 0,0 o 1,0. Pesos para cada sonda se calcula dividiendo el ajustado por la heredabilidad heredabilidad media ajustada para todas las sondas en la sonda conjunto. Por último, las estimaciones de expresión para cada conjunto y de la sonda cepa fueron calculadas por un promedio no ponderado de las repeticiones dentro de cada cepa y un promedio ponderado de la sonda específica de los medios, utilizando las ponderaciones que acaba de describir. Para evitar la división por cero, y para evitar el uso de ponderaciones sobre la base de las heredabilidades muy pequeñas, las sondas en una sonda conjunto se asigna un peso de 1,0 si el promedio ajustado heredabilidad de las sondas fue inferior a 0,01. Es decir, expresión de los conjuntos de la sonda se calculó de un promedio no ponderado. El número de conjuntos de sonda afectados por este tratamiento fue de 5 (0,04%), 33 (.26%) y 4178 (9,3%), respectivamente, para el Brn, HSC y Cer conjuntos de datos. El gran número de afectados sonda fija para cerebelo está en consonancia con el elevado número de negativas de crudo heredabilidad estimaciones para este conjunto de datos.

Como se explica en virtud de los resultados, entre los polimorfismos C57BL/6J y DBA/2J en secuencias de la sonda objetivo se espera que afectan a la hibridación de las sondas de Affymetrix, generando una aparente QTL cartografía de la ubicación de la transcripción. Para reducir el efecto de este tipo de artefacto, hemos preparado, de la información de la secuencia de dos cepas, una lista de 614 sondas haber polimorfismos en secuencias objetivo de las sondas en la U74Av2 microarrays. Durante el procedimiento de ponderación se ha descrito anteriormente, estas sondas se asigna un peso de 0, eliminar su contribución de cualquier sonda QTL para su conjunto. Este procedimiento no se aplica a los datos cerebelo, que por su posición microarrays.

Entre los datos de HSC, una diferencia sistemática entre la primera y la segunda lotes descritos anteriormente se han inflado todos heredabilidad estimaciones. Para evitar este problema, heredabilidad estimaciones se basaron en el primer lote único, pero todos los datos fueron ponderados y utilizados para la cartografía QTL. Entre los datos cerebelo, ponderación necesariamente se basan únicamente en reproducir las muestras, la mayoría de las cuales consistió en una muestra de cada lote. Cualquier diferencia sistemática lote disminuiría estimaciones de heredabilidad. Al igual que con los datos de HSC, cerebelo datos de todas las cepas fue incluido en la cartografía de QTL, ponderados de acuerdo a estimaciones de heredabilidad sobre la base de las cepas con muestras de reproducirse.

QTL cartografía

Heredabilidad de promedios ponderados fueron evaluados por regresión contra el marcador genotipos, alelos, en donde los marcadores fueron codificadas como 1 o -1. En aras de la velocidad, la regresión se realizó sólo en el marcador lugares, pero las limitaciones de esta restricción se minimizarse utilizando 779 marcadores (que se describe como el genotipo BXD fijado en WebQTL [10]]. Aunque WebQTL incluye valores de los padres y de las líneas relacionadas con la F1 RI BXD líneas, éstos no fueron utilizados en cartografía de QTL [26]. Para cada rasgo microarrays valor, el lugar dando el máximo LRS [3] y la propia LRS se conservaron. Un empírica de valor P fue calculado para este LRS por una permutación de prueba [34]. Microarray rasgo valores han requerido al azar entre los individuos progenie 1000 veces y el análisis de regresión se repite para cada conjunto de datos permutada. Si el original de LRS dentro de la distribución a fin de que al menos 10 valores de permutada conjuntos fueron mayores, un P-valor se calcula a partir de la categoría de la original LRS en la distribución. P-Si un valor no puede ser calculado, se realizan permutaciones adicionales, hasta que un P-valor podría calcularse 1000000 permutaciones o hasta que se ha realizado. Para cada rasgo microarrays, cuatro valores de los datos se mantienen, el lugar más alto rendimiento LRS, el LRS y coeficiente de regresión en ese locus, y el P-valor de la LRS. Para evaluar la importancia, todos los resultados de un experimento de microarrays fueron ordenados por P-valor, y la importancia de los más pequeños de P-valores se determinó por el método de Benjamini y Hochberg [25], utilizando una falsa tasa de descubrimiento del 20%.

Cartográfica se realizó con el software personalizado, llamado Reaper QTL, escrito en Python y de C para Linux. Este software se describe en detalle en una publicación posterior, pero está actualmente disponible en SourceForge [35]. Los cálculos fueron realizados en un período de ocho nodos cluster Linux, que alcanzó tasas de procesamiento de cerca de 5000 genoma explora cpu por segundo. La mayoría de procesamiento de tiempo se dedicó a la pequeña fracción de la sonda juegos que requieren más de 10 5 permutaciones.

Número efectivo de las sondas

Dentro de una sonda conjunto, el peso de cada sonda puede variar entre 0 y el número de sondas de la serie, n. El número efectivo de las sondas f en un promedio ponderado se define como

Donde w i es el peso de la sonda i. Este índice varía de 1 a n. Es igual a k si k de las sondas se ponderan por igual, y es menos de k si k de las sondas se ponderan de manera desigual (con cero peso para el n - k restantes sondas).

La disponibilidad de los datos

El HSC de datos se ha colocado en la órbita geoestacionaria. La adhesión es GSE2031 número, y son los arrays GSM36673 a GSM36716. El Brn y Cer ambos conjuntos de datos son ahora accesibles desde WebQTL [13].

Agradecimientos

Agradecemos el apoyo de El Instituto Nacional sobre el Abuso de Alcohol y Alcoholismo, INIA subvenciones U01AA13499, U24AA13513, y el Human Brain Project MH P20-62009, financiado conjuntamente por el NIMH, NIDA y NSF. Los datos fueron generados con fondos para RWW de Dunavant el Presidente de la Excelencia, de la Universidad de Tennessee Centro de Ciencias de la Salud, Departamento de Pediatría. Damos las gracias al conjunto de St Jude Children's Research Hospital UTHSC-Cerebelo Consorcio y Hartwell El Centro para generar el cerebelo (Cer) de datos. Damos las gracias a Bing Zhang, Cheng Li y Zhang Li, respectivamente, por la realización de la RMA, dChip y PDNN transformaciones para el cerebro (Brn) conjunto de datos. Damos las gracias a dos revisores anónimos específicas, observaciones constructivas.