Correlación de pruebas para evaluar de bajo nivel de procesamiento de alta densidad de oligonucleótidos microarrays de datos
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.
En la actualidad hay una serie de técnicas de competidores de bajo nivel de procesamiento de datos oligonucleótido gama. La elección de la técnica tiene un profundo efecto en posteriores análisis estadísticos, pero no hay ningún método para evaluar si una técnica es apropiada para un determinado conjunto de datos, sin hacer referencia a datos externos.
Se analizó la corregulación entre los genes con el fin de detectar la insuficiencia de normalización entre arrays, donde la corregulación se mide en términos de correlación estadística. En una gran colección de genes, un par de genes al azar deben tener correlación cero, en promedio, lo que permite una correlación prueba. Para todos los conjuntos de datos que hemos evaluado, y los más usados de bajo nivel de procesamiento de los procedimientos incluidos MAS5, RMA y MBEI, la limpieza de la normalización de genes no pasó la prueba. Para un conjunto de datos clínicos reales, RMA y MBEI mostró correlación significativa de los genes ausentes. Asimismo, se encontró que una segunda ronda de la normalización en la sonda de nivel conjunto mejorado significativamente en toda la normalización.
Evaluación previa de procesamiento de bajo nivel en la literatura se ha limitado a la espiga artificial-en la mezcla y los conjuntos de datos. A falta de un conocido estándar de oro, la correlación criterio nos permite evaluar la conveniencia de bajo nivel de procesamiento de un conjunto de datos y el éxito de la normalización para subconjuntos de genes.
La difusión de la tecnología de microarrays ha hecho posible la rutina y la medición simultánea de los perfiles de expresión de decenas de miles de genes. En el caso de photolithographically sintetizados de alta densidad de oligonucleótidos arrays como se describe en [1], la tecnología de RNA hibridadas sobre chips y la cuantificación de los datos fluoresence intensidad ha sido altamente estandarizados y automatizados. Los resultados son entonces relacionadas con la biología de interés, tanto a través de métodos de exploración (por ejemplo [2]] y un número grande y creciente de los sofisticados algoritmos de predicción y de clasificación (por ejemplo [3]]. Sin embargo, el primer paso sobre el que se basan estos procedimientos sigue abierta a debate: la obtención de un valor numérico resumen que es a la vez representante de un gen del nivel relativo de expresión y razonablemente libre de la variante técnica, sumariamente a que se refiere como de bajo nivel de análisis.
La necesidad de una función resumen se debe a la configuración de alta densidad de oligonucleótidos arrays, en el que cada gen es determinada por un conjunto de pares de oligonucleótidos: uno de cada par coincide con el objetivo de la secuencia de genes perfectamente determinada (perfecta oligo o PM) , El otro tiene una base central alterado-par (o desajuste oligo MM), donde el MMs servir para establecer una referencia para la hibridación no específica. Si bien el conjunto completo de PMs se ha utilizado con éxito para la detección de la expresión diferencial [4], por lo general hay un fuerte interés en tener un número que representa la abundancia relativa de un gen en un chip. El resumen de las medidas más comunes no utilizar un modelo basado en un promedio de las mediciones sólido en conjunto una sonda, como Affymetrix MAS5 expresión del valor [5], o de un modelo basado en el índice de expresión (MBEI [6]] o un registro de aditivos sólidos - Multichip a la media (RMA [7]] a través de fichas.
El segundo aspecto fundamental de análisis de bajo nivel es el control técnico de variación entre chips, que se introduce por el proceso de medición durante la preparación de muestras, etiquetado, la hibridación y la exploración. Técnico variación de este tipo y la necesidad de un procedimiento de normalización correctivas no son específicas de alta densidad de oligonucleótidos arrays, pero son una característica general de mRNA de medición, por ejemplo, para cDNA microarrays [8], norte-blot o RT-PCR [9 ]. Numerosos procedimientos se han sugerido, en sus diferentes hipótesis sobre qué característica de los datos se mantiene constante a través de fichas y por lo que puede utilizarse para la normalización [10].
Evaluación comparativa de diferentes enfoques de análisis de bajo nivel ha sido limitada hasta el momento a los conjuntos de datos artificial, en donde la expresión diferencial se debe a pinchos-en el ARN y las mezclas o diluciones de ARN procedente de diferentes fuentes [4, 10, 11]. Esto tiene la ventaja de que la verdadera expresión ratios son conocidos (hasta el error experimental). En consecuencia, los diferentes enfoques se pueden comparar en cuanto a los prejuicios (al estimar veces el cambio) y la diferencia (cuando las pruebas de expresión diferencial). Resultados hasta la fecha indican que en general hay un equilibrio entre los dos, y parece justo decir que el método actual no es óptima en todas las circunstancias.
La elección del bajo nivel de análisis y, sobre todo, la elección de la normalización tener graves repercusiones en el posterior análisis de los datos de expresión [12]. Dada la amplia gama de métodos disponibles, sería útil disponer de un método para la evaluación de sus méritos relativos de un conjunto de datos concretos, sin referencia a un exterior de la espiga en el conjunto de datos o de dilución. Esto es especialmente cierto si tenemos que asumir que nuestro conjunto de datos no es tan artificial como se comportaron bien los datos, ya sea en términos de porcentaje de los genes expresados diferencialmente o ARN, en términos de calidad, o ambos, como para el conjunto de datos clínicos sobre la mama El cáncer se describe en la sección Métodos. En este trabajo, proponemos que mediante el estudio de corregulación o de las correlaciones entre pares de genes al azar, podemos comparar las diferentes medidas de resumen y de evaluar el efecto de diferentes procedimientos de normalización. Nuestra hipótesis es que, en vista de una moderna a gran escala de chips que abarca un gran porcentaje de una especie de genoma, seleccionados al azar pares de genes será, en promedio, no. Tenga en cuenta que nosotros no reclamar la falta de correlación entre todos los genes biológicos, sino más bien que el número de conexiones entre las vías de regulación de los genes es pequeño en comparación con el número de todas las posibles combinaciones de los genes, lo que se da argumento más detalle en la discusión. En consecuencia, un bajo nivel de análisis de la estrategia que se consideran adecuados para un determinado conjunto de datos, si la expresión normalizaron los valores resultantes son, en promedio, seleccionados en forma aleatoria para no pares de genes. La falta de correlación no es evaluado a través de pruebas formales, pero fácilmente adaptable de herramientas gráficas que no se basan en estrictas condiciones de validez.
Estamos proceda de la siguiente manera: en primer lugar, establecer las relaciones entre la falta de normalización y de las correlaciones entre los genes seleccionados al azar para tres importantes medidas de resumen; entonces nos muestran que los esquemas de normalización por defecto asociado con estas medidas de resumen hacer eliminar las correlaciones en gran medida, pero no Por completo, con cantidades variables de correlación residual. También ponen de manifiesto que cuando se disponga de, limpieza de genes normalización es inferior a la normalización por defecto en la eliminación de azar correlación, y que se refieren al azar correlación con el número de genes no explicitada en los datos. Terminamos con una discusión de los resultados y la hipótesis de base de nuestro enfoque, así como las consideraciones para su aplicación práctica, y destacar tanto las limitaciones y posibles prórrogas.
En primer lugar, hemos calculado crudo unnormalized MAS5, RMA, y MBEI expresión de los valores de cáncer de mama, la dilución, y de la espiga en los conjuntos de datos tal como se describe en la sección Métodos. El conjunto de datos sobre el cáncer de mama es un ejemplo de un conjunto de datos clínicos de un paciente real de población, que se espera que tengan una mayor variación biológica de la dilución y de la espiga en los conjuntos de datos. Entonces calculó el coeficiente de correlación de Pearson coeficientes aleatorios para 5000 pares de sondas para cada conjunto de datos.
Como se muestra en la parte superior de la Figura 1, las distribuciones de los coeficientes de correlación se centran lejos de cero para cada conjunto de datos y de expresión medida. Es evidente que hay una gran cantidad de exceso de correlación que no guarda relación con las relaciones biológicas entre genes. La similitud de expresión al azar entre pares de genes a través de fichas se debe a las diferencias técnicas entre las fichas que no se han normalizado. Este es un ejemplo notable de la estadística de confusión, donde los genes están correlacionados aparentemente para algunos no biológicos subyacentes razón.
También hemos comprobado que la correlación entre la técnica de los genes es inversamente proporcional a la variabilidad de los genes implicados. Esto se puede observar en la parte inferior de la Figura 1, donde las correlaciones entre los pares de azar se trazan contra el producto de sus desviaciones estándar: la media de correlación (de color azul) es mayor para los genes con pequeñas desviaciones estándar y disminuye con el aumento de la variabilidad . Esto encaja muy bien con lo que se esperaría de asumir un simple efecto aditivo chip como fuente de chip-a-chip variación, aunque esta es, sin duda, una simplificación excesiva, el correspondiente modelo se ajusta a la forma general de los datos lo suficientemente bien (como se muestra en rojo Línea en la Figura 1; ver Métodos).
Se calcularon medidas de la misma expresión de los mismos conjuntos de datos que la anterior, pero por defecto se aplica el procedimiento de normalización se sugieren para cada medida de expresión: MAS5 expresión de los valores, que normalizó a la media mundial dentro de cada serie, para RMA valores, hemos aplicado la normalización cuantil , Para MBEI aplicó el conjunto invariante normalización, véase Métodos. La parte superior de la Figura 2 muestra que en todos los casos, la normalización paso por defecto es suficiente para eliminar el exceso de correlación y el centro de distribución de los coeficientes de correlación en cero.
En lo que sigue, nos referiremos a la correlación de los artefactos no deseados después de la normalización como correlación residual. Aunque no se observó correlación residual para todo el conjunto de genes, no hay garantía de que esto se mantenga para ciertos subconjuntos de genes: un ideal normalización deben eliminar los restos de correlación suficientemente grande para cualquier subconjunto de los genes. Por lo tanto, se determinó el patrón de las correlaciones de pares de genes diferentes con la intensidad y la variabilidad a través de fichas.
Hemos descrito anteriormente la sistemática relación inversa entre correlación y variabilidad. A pesar de que el defecto normalizations una disminución de la magnitud de esta correlación para los tres medidas expresión, todavía encontró una relación significativa entre las correlaciones y la variabilidad de RMA y MBEI, especialmente para el cáncer de mama de datos. La parte inferior de la figura 2 se muestra el promedio de las correlaciones entre los genes agrupados por el producto de sus desviaciones estándar, que es la misma línea en que resumen en la figura 1, pero sin el trazado de cada uno de los puntos que contribuyen a ella. El residual correlaciones fueron más pequeños que antes de la normalización, pero los intervalos de confianza aproximados enseñarles a ser muy importante. La forma de la relación también cambió y lo hizo ya no siguen ningún modelo simple.
Se encontró que la correlación residual son a la vez absolutamente más grande y más importante de RMA que para MAS5. Por MAS5, sólo el subconjunto de los genes con la menor variabilidad mostró correlación significativa, lo positivo de todos y menos de 0,05. En cambio, para RMA y MBEI, varias de las clases de baja variabilidad mostró correlación positiva significativa, hasta el 0,2 para el conjunto de datos de cáncer de mama. Además, se observó pequeñas, pero significativas correlaciones negativas de los genes en el medio rango de variabilidad para el cáncer de mama y de la dilución de datos.
Así, el análisis muestra que MBEI RMA y no proporcionan adecuadamente normalizado expresión de los valores con baja variabilidad de los genes, en particular para los datos clínicos. Vamos a explicar este patrón más tarde en términos de ausencia y la intensidad de los genes.
El HGU133A chips que se utilizan para el cáncer de mama estudio contienen 100 sondas para limpieza genérico genes, cuya expresión se asume como constante, en promedio, para la mayoría o todas las condiciones experimentales. En consecuencia, se ha sugerido utilizar estos genes para la normalización de limpieza, ajustando el nivel de expresión de cada chip de manera que el valor medio de expresión de los genes de limpieza es constante a través de fichas (ver Métodos). Hasta la fecha, no hay pruebas convincentes de si este método realmente funciona o no, y parece que algunos grupos de investigación están usando.
La prueba de correlación se da en la figura 3 muestra que, para el MAS5, RMA y MBEI métodos de expresión de los valores de informática, la limpieza de genes normalización no para eliminar el exceso de correlación. Hubo correlación más de medio distinto de cero todos los genes, lo que indica una incapacidad general de la normalización. La sistemática relación inversa entre correlación y la variabilidad en los niveles más altos fueron en todo el rango de variabilidad en comparación con el valor por defecto normalizations. El fracaso de la normalización de limpieza de genes es particularmente grave para la RMA.
Tenga en cuenta que incluso si la cantidad residual de correlación se muestra en la Figura 3 para MAS5 limpieza-genenormalized valores parece pequeño, el impacto en el posterior análisis de alto nivel pueden ser graves. La figura 4 muestra la distribución de 22283 genes sabia t-estadísticas para el hogar-y la normalizado la media mundial de cáncer de mama de datos normalizado. Cada t-estadística se compara el nivel de expresión significa (a) entre las mujeres posmenopáusicas que se encuentran los usuarios de la terapia de reemplazo hormonal (TRH) (b) versus los que no lo están; ver (para comunicaciones personales véase Hall P, Ploner A, Bjöhle J et al .). El t-estadísticas para la limpieza de los valores se normalizaron a nivel mundial pasó por debajo de cero, lo que indica una amplia genoma de baja regulación de miles de genes. En cambio, el t-estadísticas sobre la base de la media mundial-se normalizaron los valores centrados en torno a cero, lo que muestra una diferencia menos pronunciada entre la TRH usuarios y no usuarios. En este ejemplo, el de la media mundial normalizado resultados son biológicamente mucho más plausible.
En cada tejido, sólo un número limitado de genes que se expresan en cantidades por encima del límite de detección, por lo general muy inferior a la que el número de genes disponibles en modernas a gran escala chips. El propósito de emparejamiento PM y MM es sondas para la detección de los genes que son expresados fiable (actual genes), y para el que la observa intensidades de los genes están dominados por el ruido técnica y biológica (genes ausentes). El método más común de clasificación de los genes como presentes o ausentes se basa no paramétrico de prueba para la PM / MM pares (Affymetrix la detección de las llamadas [13]].
Actualmente no hay consenso sobre la forma de utilizar estos detección de las llamadas. Todos los métodos de informe de expresión de todos los valores de los genes en particular la ausencia de los genes, de modo que, en principio, el analista podría pasar por alto la cuestión de la ausencia de genes y los genes en el tratamiento de todos los presentes. De manera intuitiva, la ausencia de los genes se medirá con mucho ruido, pero serán debidamente normalizado, es decir, que las mediciones sean imparciales?
Con el fin de estudiar el éxito de la normalización de la expresión de medirse ausente genes, se clasificaron todos los genes como presentes o ausentes basado en la presente Affymetrix llamadas (ver Métodos). Para todos los conjuntos de datos, los genes eran más frecuentes, ya sea por completo o totalmente ausente presente en todas las fichas (Figura 5].
En consecuencia, los pares de genes en muestras aleatorias podría haber dividido en tres clases: las que un promedio de unos o de no presentar las llamadas entre ellos, los que una media de casi un 100% de las llamadas actuales, y los que un promedio de alrededor de un 50% las llamadas presente (parte superior de la Figura 6]. Estas clases se corresponden naturalmente a parejas donde ambos genes eran en su mayoría ausentes, o en ambos la mayoría de la actualidad, o en caso de que una mayoría estaba ausente y el otro la mayoría de presentes; por el corte en el 33% y el 67% de media actual pide, como se indica en los histogramas en la parte superior De la Figura 6, nos las arreglamos para separar a estos grupos por igual.
Para facilitar más información, la correlación promedio para cada subconjunto se representan gráficamente en función de la variabilidad de nuevo; ver mitad inferior de la Figura 6. En general, la correlación promedio más alto fue el de pares de genes ausentes, lo que indica el fracaso de la normalización de la expresión medido de los genes ausentes. Esto fue más grave para RMA: exceso de correlaciones fueron positivas y firmemente para ausentarse pares y negativos para los ausentes / presentes pares para todos los conjuntos de datos. Sólo para parejas presentes, la mayoría de las correlaciones no significativas y de los pequeños en valor absoluto. Correlaciones para todo MAS5 fueron más pequeños y menos importantes, sin ninguna pauta clara entre los tres grupos de pares. MBEI mostraron el mismo patrón como RMA, aunque un poco más débiles.
Este resultado implica que, al menos en caso de RMA y MBEI, medida expresiones de los genes ausentes estaban mal normalizado, por lo que los análisis de los genes ausentes deben evitarse o, al menos, considerarse con cautela. Esta interpretación está apoyada por la figura 7, que muestra la distribución de t-comparación de las estadísticas de la TRH-usuarios y no usuarios como antes, pero sólo para los genes que no se detectaron (ausente) en todas las 159 fichas (n = 4.371), la distribución MBEI y, en particular, para indicar RMA y fuerte y difusión de la reglamentación efectos de la TRH, que parece biológicamente plausible, en especial para los genes medida en el límite de detección en todo el conjunto de datos.
Si bien la ausencia o presencia de un gen podría ser evaluada a través de otras posibles medidas de control de calidad, la detección de Affymetrix parece llamada a proporcionar información útil para el filtrado de genes.
Tenga en cuenta que el resumen de las curvas de correlación media se muestra en la Figura 2 son las medias ponderadas de las curvas de estado de presencia mostrado en la Figura 6. Podemos, por ejemplo, explican que la alta correlación baja en la variabilidad de RMA en la Figura 2 se deben principalmente a los ausentes / ausente pares en la expresión de datos. El ligero buzamiento de los genes negativos en el medio rango de variabilidad en la Figura 2 es el efecto de una cancelación incompleta entre las correlaciones positivas para los ausentes / ausente pares y la ausencia de correlaciones negativas / parejas presentes en este rango.
La detección de un gen es trivially relacionadas con la abundancia relativa de su mRNA en la muestra. Así, los genes que se expresan en el extremo inferior de la gama de detección son mucho más probable que se ausente. Esto podría indicar que la relación entre la ausencia / presencia de los genes y su correlación residual es, de hecho, debido a sus diferencias en la abundancia, y que al centrarse en los genes, con un mínimo nivel de expresión, se podría evitar la correlación residual del todo.
La figura 8 muestra que este no es el caso: cuando el trazado de las correlaciones en contra de las desviaciones estándar agrupados por intensidad en el cáncer de mama, encontramos que el patrón de correlación depende más en el porcentaje de llamadas que en la actualidad el nivel de intensidad. El patrón que vimos anteriormente en la figura 6, se observó en diferentes niveles de intensidad: (i) los dos pares de genes que son en su mayoría tienden a estar ausente una correlación positiva, (ii) pares con una mayoría de genes ausentes y una mayoría de genes presentes tienden a ser negativa Correlacionados, y (iii) los genes que ambos socios son en su mayoría tienden a estar presente casi no. Este patrón es más pronunciada en baja y media intensidad, y es más fuerte de RMA y MBEI, pero es visto constantemente, también a altas intensidades y para MAS5 valores.
En resumen, parece muy preferible definir un gen filtro según ausente / presente se pide que de acuerdo a la intensidad de los niveles de genes.
Tenga en cuenta que la correlación entre la intensidad y la presencia de los genes se refleja en el número de pares que contribuyen a cada curva en la Figura 8: hubo relativamente más presente / presente pares de genes y menos ausente / no pares a altas intensidades, y viceversa para los de bajos Intensidades; curvas par que cuenta con menores han correspondientemente más amplios intervalos de confianza.
Figura 9 muestra para el cáncer de mama la forma en que el filtrado de los datos de los genes con un gran número de ausentes llamadas pueden reducir correlación residual normalizado expresión de los valores. En este caso, los 5000 pares de genes son subconjuntos de la muestra aleatoria de los genes con un creciente porcentaje de llamadas actual. Ya por la exclusión de los genes que son siempre ausente, el nivel de correlación sistemática se redujo por debajo de 0,04 para todas las medidas de expresión, aunque el patrón de correlaciones positivas de los genes con baja variabilidad sigue presente: considerando sólo los genes con al menos el 20% pide la actualidad, Encontramos que este patrón se invierte y MBEI de RMA, pero no para MAS5. Las nuevas restricciones no cambiar este patrón, pero aumentó el nivel absoluto de la correlación residual.
Como algunos genes están conectados en vías bioquímicas, la hipótesis de que al azar pares de genes será, en promedio, uncoregulated o no parece counterintuitive, pero es en realidad una cuestión de escala. Para una gran moderadamente chip de 10000 sonda fija, hay cerca de 50 millones de posibles correlaciones pairwise, la enorme mayoría de los que será muy poco probable que se biológica. Cualquier muestra aleatoria de la sonda conjunto de pares contendrá sólo un pequeño porcentaje de parejas que representan a una inequívoca relación biológica, y, además, las correlaciones negativas y positivas tienden a anularse entre sí durante un promedio. Podemos demostrar esto para el conjunto de datos de cáncer de mama. Por Affymetrix HGU133A chip, se encuentran representadas 124 KEGG caminos, la organización de 3137 la sonda fija o 14% de todos los conjuntos de la sonda en el chip ([14], construir 2004/03). Esto constituye una muy organizada como subconjunto del genoma como podemos actualmente esperanza para seleccionar, con numerosos conjuntos de la sonda que aparecen en múltiples vías, con lo cual el establecimiento de numerosas correlaciones recíprocas entre las vías. La figura 10 muestra las correlaciones de boxplots seleccionados al azar para 5000 pares de genes de este subgrupo, firmemente centrado en cero para las tres medidas de expresión. Por lo tanto, incluso en el caso de este subgrupo especial de coregulated muchos genes, la correlación promedio de un par de genes al azar es cero.
El modelo se describe en la sección Métodos sólo asume las diferencias de intensidad media entre chips. Esto corresponde a la media mundial simple normalización de uso común para la expresión MAS5 valores. Figura 1 confirma que este modelo (mostrado en rojo) se describe el comportamiento promedio de las correlaciones (de color azul) de manera adecuada para todos los conjuntos de datos, lo que sugiere que media mundial es, en efecto, la normalización adecuados para MAS5 datos.
Aparte de MAS5, el modelo se ajusta de manera adecuada sólo para la RMA basada en la correlación de datos de cáncer de mama, lo que sugiere que la media mundial en la normalización de la sonda puede ser establecido a nivel intentado en este caso, pero que no es en general adecuada para RMA y MBEI Datos. Sin embargo, la figura 1 muestra que las correlaciones con la sistemática disminución de la variabilidad genética para todos los pares de medidas expresión, y puede ser posible describir esta relación mediante la extensión de la esencia del modelo, por ejemplo, permitiendo que la matriz efecto θ en la ecuación 1 a estar correlacionado con El gen efectos ψ i.
El uso de genes de la casa parece razonable cuando el estudio de un pequeño número de genes en virtud de parámetros experimentales controladas, o cuando la elección de uno o varios genes de limpieza pueden ser motivados biológicamente. Para el cáncer de mama de datos, que se recoge en un entorno clínico real, en donde las muestras son genéticamente heterogéneo y genomically potencialmente inestable, es mucho más difícil de creer en la común expresión de los genes de limpieza. Por lo tanto, argumentan que la falta de limpieza de la normalización en este ejemplo no es debido al procedimiento en sí, sino a nuestra incapacidad para identificar un conjunto adecuado de los genes del hogar, y el uso de los genéricos conjunto de genes sugerido por el fabricante de chips. Incluso para el norte-blot y RT-PCR, la casa donde la normalización es el valor por defecto, un uso acrítico de limpieza de los genes se ha demostrado que conducen a resultados inaceptables [9].
Se ha sugerido que en general la mucho menor variabilidad de RMA y MBEI de baja intensidad sonda establece una clara ventaja de estos modelos basados en medidas de más de la expresión más simple MAS5 [7, 10]. Nuestros resultados indican que no obstante esta baja variabilidad puede ser engañosa: RMA y MBEI valores ausentes de la sonda fija, que constituyen la gran mayoría de baja intensidad sonda fija, muestran el más fuerte correlación residual. Esto indica que los valores de RMA y MBEI de baja intensidad sonda que se fija sin tener en cuenta su ausencia / presencia condición se verá comprometida por la falta de normalización (Figuras 6 y 8]. Por consiguiente, parece que RMA y MBEI estimación expresión de los genes de baja abundancia con una visión parcial, pero de manera muy precisa. Reducir al mínimo la variabilidad en la mayor medida posible sólo tiene sentido para imparcial estimato rs: si la variabilidad de la estimación se convierte en pequeño en relación con el sesgo, obtenemos un peligroso sentimiento de confianza en una estimación que no es exactamente lo que pensamos que es. De la misma manera, la gran variabilidad de los valores MAS5 a bajas intensidades puede ocultar una cantidad de sesgo comparable a la de RMA y MBEI: mientras la variabilidad de MAS5 es grande en comparación con la parcialidad, que no se llevan a Inapropiado hacer conclusiones basadas en estimaciones sesgadas posiblemente, en el sentido de que MAS5 estimaciones de los genes de baja intensidad son más honestos y mejor normalizado superior al correspondiente RMA y MBEI valores. Es interesante observar que Bolstad et al. Ya han descrito la elección entre los diferentes enfoques de bajo nivel en términos de sesgo (al estimar veces el cambio entre las condiciones) y la diferencia (cuando las pruebas de expresión diferencial entre las condiciones) [10]. Nuestros resultados indican que a) la misma relación de correspondencia se aplica cuando se busca directamente en la expresión valores, en lugar de comparar los cambios y agregados veces pruebas estadísticas entre las diferentes condiciones biológicas, y b) la correlación es más desventajoso para el modelo basado en la expresión Medidas que en general el pensamiento.
La falta de normalización de RMA y MBEI ausente de los genes podría ser debido a la expresión de cálculo de los valores, la normalización o de paso, o una combinación de éstos. Los resultados preliminares (no se muestra) indican que el primer paso, la síntesis de las distintas intensidades de la sonda a través de la expresión medida, parecen ser los responsables en ambos casos. Si esto puede confirmarse, una posible explicación sería que los modelos utilizados (log-lineales de RMA y multiplicativo y para MBEI) pueden no ser apropiados para los genes ausentes (pero véase también a continuación).
En un artículo reciente, Choe et al. Han evaluado el rendimiento de una amplia gama de bajo nivel de los métodos de análisis y procedimientos de prueba en la detección de la expresión diferencial en una elaborada espiga-en conjunto de datos [15]. Ellos informe sensibilidad 70% a 10% de tasa de falso descubrimiento por su alto rango combinaciones claramente todavía hay amplio espacio para la mejora de la actual metodología de bajo nivel. Queremos aquí en breve esbozo de la forma en que nuestro enfoque podría utilizarse para orientar este esfuerzo.
Los autores de [15] encontró que un nuevo segundo paso en la normalización de la sonda de nivel conjunto mejorado el rendimiento de MAS5, RMA, y MBEI en la detección de la expresión diferencial (de hecho, MAS5 con la segunda ronda de la normalización es uno de los top - Ranking de las combinaciones). Hemos aplicado el mismo renormalization a nuestros conjuntos de datos (ver Métodos para más detalles), los resultados se muestran en la Figura 11.
Se encontró que la correlación residual renormalization reducido para todos los conjuntos de datos y todas las medidas de expresión. De hecho, para MAS5 las correlaciones no son significativamente diferentes de cero en cualquier desfase, lo que indica la normalización perfecto, medido por nuestro criterio. RMA y MBEI muestran una disminución de los niveles de correlación residual, pero todavía están muy por encima de los niveles de la original MAS5 como se ve en la figura 2.
Es interesante que la clasificación de la expresión original y renormalizado medidas en términos de normalización de calidad (es decir, renormalizado MAS5 es mejor de los casos, seguido por el original MAS5, seguido de RMA y MBEI renormalizado, seguido por el original y MBEI RMA) corresponde de cerca a la La clasificación por rendimiento en la detección de la expresión diferencial encontrado por Choe et al. ([15], Figura 7f]. Esto sugiere que la falta de normalización que nuestro método es capaz de medir es, en efecto, de importancia para la capacidad de detectar genes regulados.
Además, la figura 11 da una indicación de la forma en que el recién renormalizado expresión medidas podrían mejorarse. Por ejemplo, para el renormalizado MAS5, es obvio que existe poca necesidad de trabajar sobre la normalización aspecto; modificaciones de la expresión en lugar medida podría orientarse a reducir la variabilidad de los valores MAS5, posiblemente mediante el uso de la información en el MM como sondas de pesos en el resumen medida.
Renormalizado MBEI RMA y por otro lado todavía sufren de insuficiencia de normalización; mientras llevamos a cabo los pasos en la normalización ya la vez la sonda y la sonda de nivel conjunto, parece prometedor para centrarse en los pasos intermedios como la instalación de los chip multi-modelo y Estudio si estos pasos son propensos a los sesgos sistemáticos.
La única condición para el uso de la prueba de correlación es un chip bastante grande, con sondas que cubren una amplia gama de la genoma en estudio. Para los chips que están diseñados para estudiar sólo algunos relacionados con las vías de tejidos altamente especializados o con sólo un par de centenares de sonda, por supuesto, la hipótesis de correlación cero no podrá ocupar, porque los genes de la que queremos muestra al azar ya han sido pre-seleccionados por El diseño de chips. El ejemplo de la KEGG sonda fija en el chip U133A sugiere, sin embargo, que varios miles de sonda conjuntos organizados en un centenar y algunos trayectos es el tamaño de una caja fuerte.
Cabe señalar que este enfoque no se limita a la alta densidad de los chips de oligonucleótidos. El mismo argumento para entre-chip tiene, en principio, la normalización de cDNA o de cualquier otro de dos colores microarrays sistema, aunque la intensidad habitual basada en la normalización entre tinte canales en el mismo chip simplifica un poco la situación [16].
Hemos presentado un sencillo método gráfico para evaluar la calidad de los de bajo nivel de análisis de datos de expresión oligonucleótido gama. La principal ventaja de nuestro enfoque radica en el hecho de que no haga uso de los datos de referencia externos, pero en lugar explotar la correlación interna de la estructura de grandes conjuntos de datos de expresión. Esto nos permite seleccionar, evaluar y modificar los procedimientos de bajo nivel para los conjuntos de datos específicos. Con el fin de demostrar el uso y la utilidad de nuestro enfoque, hemos aplicado a tres grandes y tres conjuntos de datos ampliamente utilizado métodos de bajo nivel (MAS5, RMA, MBEI). Hemos encontrado una serie de resultados interesantes: a) el caso de un gran conjunto de datos sobre el cáncer de mama, a la normalización de los genes de limpieza no funciona en absoluto, independientemente de la expresión medida, b) la normalización de calidad para los tres conjuntos de datos y las tres medidas de expresión está más cerca relacionados A la ausencia / presencia de un estado de la sonda conjunto que a su nivel de intensidad, c) y RMA MBEI normalizar ausente sonda fija mal para los tres conjuntos de datos; d) la eliminación predominantemente ausente sonda fija mejora la normalización de todos los conjuntos de datos y todas las expresiones Medidas. El porcentaje de ausentes de corte exige una sonda establecer que se incluyeron en el análisis puede ser elegido sobre la base de nuestra gráfica de criterio. También hemos evaluado el efecto de una segunda ronda de la normalización de la sonda conjunto de datos de ámbito nacional. Encontramos que esta mejora de la normalización significativa para los tres conjuntos de datos, de forma compatible con el observado mejoras en la detección de genes de la regulación [15].
Hemos utilizado tres conjuntos de datos, dos de los cuales están a disposición del público de GeneLogic [17]. (1) La dilución conjunto de datos es una colección de 75 fichas HGU95Av2, en la que el RNA a partir de dos fuentes distintas (el hígado y el sistema nervioso) se hibridó en diferentes concentraciones y ratios de mezcla. (2) La espiga-en el conjunto de datos consta de 94 fichas HGU95Avl, por el cual once bacteriana cRNA fragmentos se agregaron en las distintas concentraciones y combinaciones a una base de muestra de una línea celular contra el blanqueo de dinero. Ambos conjuntos de datos han sido ampliamente utilizados para la evaluación de métodos de normalización y de expresión medidas [4, 7, 10].
En cambio el ARN para el tercer conjunto de datos se extrae de recogida de muestras de tejido tumoral de base poblacional de cáncer de mama en la cohorte del Hospital Karolinska, de Estocolmo. Después de la tramitación de la ARN, varias medidas de control de calidad, y la selección de los pacientes médicos criterios dio lugar a los datos de 159 fichas HGU133A. Detalles sobre la preparación de datos, la selección de los pacientes, y la definición de parámetros clínicos como la terapia de reemplazo hormonal se da en [comunicaciones personales para ver Hall P, Ploner A, Bjöhle J et al.].
MAS5 expresión valores fueron calculados como se describe en [5]. Se usó el promedio global de la normalización para identificar la expresión como valores por defecto, en el supuesto de que el promedio registrado en toda la expresión de todos los valores de las sondas debe ser constante en todos los chips, y ajustar el nivel de cada una añadiendo un chip de corrección constante a todas las sondas. Esto es aproximadamente equivalente a usar el Affymetrix factores de escala en los datos primarios, pero la estimación de la corrección en el plazo de registro escala ha demostrado ser menos variable [18]. El diario de los valores corregidos se utilizaron para el análisis.
Por RMA, la persona PM sonda valores fueron de fondo y corregido antes de la computación quantilenormalized valores de la expresión, tal como se describe en [7].
El cálculo de los valores seguidos MBEI expresión [6]: MM PM y los valores se normalizaron por separado a una línea de base de la gama media de la tarde y las intensidades MM. La gama de referencia se obtuvo a través de una suavización empíricamente identificado conjunto de rango-invariante sondas. Un modelo multiplicativo se ajustó a la diferencia entre PM y MM normalizaron los valores. Expresión valores se han registrado, no con valores positivos conjunto a los desaparecidos.
Limpieza de genes normalización se basa en las sondas con el sufijo 2000_ en la HGU133A chip. El mismo principio que con la media mundial de normalización fue contratado, salvo que la corrección constante se basó en el promedio de los genes de limpieza. Para el MAS5 valores, se consideraron dos variantes: a) multiplicativo de corrección (factor de escala) de la ONU logarithmized expresión de los valores, a que se refiere como «cruda limpieza 'en las leyendas de las figuras 3 y 4 ter] aditivo corrección de la expresión logarithmized valores, Como la media mundial de la normalización, denominado «registro de la casa 'en la figura de leyendas. Limpieza y normalización de RMA MBEI se hizo additively para la expresión logarithmized valores calculados a partir de la unnormalized datos de la sonda, por lo que estas son tratadas también como 'diario de limpieza de los valores en la Figura 3.
El renormalization de la expresión medidas descritas en el debate se realiza como en [15], utilizando la intensidad reiteró pairwise basada en la normalización a través de suavizado de curvas de loess ha descrito en [10]. El renormalization se realizó en la sonda de nivel fijado en la expresión de medidas calculadas y normalizado como se describe más arriba; correspondientemente, renormalizado RMA y MBE valores se han normalizado tanto en la sonda de nivel (inicialmente) y la sonda de nivel conjunto (segunda vuelta), mientras que MAS5 Se ha normalizado el doble de la sonda de nivel establecido.
Todos los cálculos se realizaron utilizando el software de código abierto paquete estadístico R [19] y el paquete de affy el proyecto Bioconductor [20].
Para cada conjunto de datos, seleccionados al azar, 5000 pares de sonda fija de la colección de conjuntos de sonda disponible sobre los diferentes tipos de chips. Para cada par, que calculó el coeficiente de correlación de Pearson entre los dos conjuntos de la sonda a través de todas las fichas en la base de datos subyacente, lo que resulta en una muestra aleatoria de 5000 los coeficientes de correlación. Al mismo tiempo, se calculó para cada par de conjuntos de la sonda producto de las dos desviaciones estándar en todas las fichas en el conjunto de datos, los gráficos de dispersión en la parte inferior de la figura 1 muestra el resultado de 5000 pares (producto de la desviación estándar, Correlación).
El resumen de curvas se muestra en la parte superior (como en la Figura 1] o en su lugar (todos los demás cifras) de la letra de dispersión describen el comportamiento promedio de la dispersión de nubes. Fueron producidos por tomar el rango de valores para el producto de las desviaciones estándar de la muestra y la división en intervalos que contienen un número igual de observaciones, por lo general, alrededor de 500. Para cada intervalo, la media de las correlaciones se representan gráficamente en función de la media del producto de las desviaciones estándar. Los intervalos de confianza del 95% de los medios de la figura 2 se muestra en adelante se computaron sobre la base de la aproximación normal.
Asumimos como unidad experimental un microarray con el chip asociado muestras biológicas de la población en estudio. Cada chip de los rendimientos y observaciones i para i = 1 ... n genes especificado por la serie de diseño. Podemos escribir esto como una variable aleatoria
Y i = ψ θ + i + ε i (1)
Donde θ es una matriz aleatoria efecto, ψ i es un efecto aleatorio de genes, y ε i es la de genes específicos de error de medición. Tenga en cuenta que este gen efectos aleatorios asume sólo en la medida en que nos muestra de la población, y no especifica ningún tipo de tratamiento experimental o estructura.
Suponemos que los componentes aleatorios son independientes, y que la expectativa de tener cero errores. La covarianza entre la expresión observable valores para dos genes entonces simplifica a
Es decir, la covarianza entre la unobservable 'real' de genes expresiones más la diferencia de la matriz. Vamos a designar a la diferencia de cualquier Y como i
El primer término es la contribución de la matriz a efectos de la correlación, que es la fuente de la correlación artefacto. El segundo plazo varía según todos los posibles pares de genes, y esperamos que tenga media cero. Así obtenemos la relación inversa
Podemos investigar esta empíricamente. Dado un conjunto de microarrays, podemos tomar una muestra aleatoria de los pares de genes (i, j), y luego calcula su correlación r ij y las desviaciones estándar y s i s j. En virtud de nuestra hipótesis de la correlación media de cero y en el supuesto de que nuestro modelo simple posee, el patrón subyacente en la trama de la (s i s j, r ij) debería seguir esta relación inversa.