HDBStat!: Una independiente de la plataforma del software para el análisis estadístico de datos de alta dimensional biología
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.
Muchos esfuerzos en el análisis de microarray de datos se centran en proporcionar herramientas y métodos para el análisis cualitativo de datos de microarrays. HDBStat! (High-Dimensional Biología de Estadística) es un paquete de software diseñado para el análisis de datos de alta dimensional biología como los microarrays de datos. Fue desarrollado inicialmente para el análisis de microarrays de expresión génica de datos, pero también puede ser utilizado para algunas aplicaciones en proteómica y otros aspectos de la genómica. HDBStat! Proporciona estadísticos y biólogos flexible y fácil de utilizar para el análisis de microarray de datos complejas utilizando una variedad de métodos de preprocesamiento de datos, control de calidad y análisis de hipótesis.
Los resultados generados a partir de los métodos de preprocesamiento de datos, control de calidad y análisis de hipótesis de los métodos de prueba son de salida en forma de Excel CSV tablas, gráficos y un informe resumen de Html análisis de los datos.
HDBStat! Es independiente de la plataforma de software que está disponible gratuitamente a las instituciones académicas y las organizaciones sin fines de lucro. Se puede descargar desde nuestro sitio web http://www.soph.uab.edu/ssg_content.asp?id=1164.
Una de las tareas más importantes en el campo de la biología es la identificación y la forma en que los genes interactúan unos con otros en diferentes condiciones. Hasta hace pocos años, los investigadores sólo pudieron llevar a cabo esa tarea para un número limitado de genes, porque los métodos tradicionales de la biología molecular les permitió evaluar un solo gen a la vez. El advenimiento de la tecnología de microarrays ha proporcionado a los investigadores la oportunidad de evaluar simultáneamente los niveles de expresión de miles de genes. Microarrays también generan una gran cantidad de datos en poco tiempo. Extraer estadísticamente válidas y biológicamente información pertinente de esos conjuntos de datos masivos es un reto importante. HDBStat! Es fácil de usar y de plataforma independiente de software diseñado para el análisis estadístico de los datos mediante microarrays bien validado métodos para el control de la calidad de los experimentos y la identificación de los genes expresados diferencialmente.
El análisis de los datos en HDBStat! Se divide en cuatro fases - la importación de datos, procesamiento de datos, control de calidad y pruebas de hipótesis (Figura 1].
Los datos se importan a HDBStat! Utilizando dos archivos, un archivo de datos de expresión génica (Figura 2] y el chip de información a nivel de archivo (Figura 3], que debe ser Microsoft Excel 97 o más reciente (. Xls), o de valores separados por comas (. Csv) archivos [Ver archivo adicional 1 y archivo adicional 2]. La expresión de genes contiene el archivo de datos de salida del chip de procesamiento de imágenes de software, como el MAS 5,0, Bioconductor, o GenePix. El chip experimental nivel archivo contiene variables tales como el tratamiento, el tiempo, la experimentación y, en su caso, las variables de emparejamiento de las fichas. A la importación algunas estadísticas descriptivas se generan de forma automática sobre los datos en bruto, como las correlaciones de Pearson entre chips, media, desviación estándar, valores mínimos y máximos de los niveles de expresión genética para cada chip y se muestran en gráficos y tablas.
Opcionalmente, la normalización y / o transformación método (s) puede ser aplicado antes de la primaria de los análisis estadísticos. La normalización es un procedimiento destinado a eliminar la variabilidad de los chips que no está relacionada con las condiciones de tratamiento de interés. HDBStat! La media de ofertas Chip normalización, que divide cada observación por el chip significa, y Cuantiles-Cuantiles normalización, que ocupa cada observación en el chip basado en la expresión de valor y, a continuación, se convierte en el valor de una desviación que se esperaba de la norma basada en la distribución normal En el rango de observación. Cuantil-cuantil resultados en la normalización de datos de cada chip con una media de cero y desviación estándar de 1,0. La transformación es un proceso de aplicar una función matemática a cada observación en un conjunto de datos a fin de satisfacer mejor las hipótesis de determinados modelos estadísticos utilizados para el análisis. HDBStat! Ofrece tres diferentes escalas de la transformación logarítmica, de base-2, e-base, o de base-10. Combinaciones de normalizations y transformaciones pueden ser seleccionados.
HDBStat! Proporciona un único procedimiento de control de calidad basado en suprimido Residuos (RD). Suprimido residuos han sido tradicionalmente utilizados en el análisis estadístico de los datos cuando el número de observaciones en un grupo pequeño o puede ser influenciada por los valores aislados, como en el caso de microarrays. En HDBStat!, El eliminado los residuos de cada gen en cada chip se calcula tomando el valor observado de un gen en un chip restando la media de los genes en todas las otras fichas en ese grupo, dividido por la desviación estándar de la media para el gen En todas las otras fichas en ese grupo. La función de densidad de probabilidad (PDF) de los residuos para suprimido un gen siga una de la t de Student distribución con n-2 grados de libertad, donde n es el número de fichas en el grupo de tratamiento. Si asumimos que los genes a través de un chip son independientes idénticamente distribuidas (IID) la distribución de los residuos debe suprimirse la aproximación de un Estudiante de la t de distribución con n-2 grados de libertad. La diferencia de los datos observados de la distribución t-espera es gráficamente ilustrado (Figura 4] y la significación de la diferencia se prueba utilizando una prueba de Kolmogorov-Smirnov. Si un chip es significativamente diferente de la distribución t-puede ser una indicación de que el chip es un atípicas en comparación con las otras fichas en el grupo. Además, el usuario tiene la oportunidad de eliminar chip (s) de los análisis y re-analizar los datos.
Actualmente, HDBStat! Realiza una serie de pruebas de comparación par sabia. Sobre la base de la información proporcionada por los usuarios en el chip de información a nivel de archivo, una combinación de todas las posibles hipótesis se muestra en la interfaz de usuario. El usuario debe seleccionar al menos una hipótesis, a fin de realizar dos comparaciones de grupos.
HDBStat! Incluye paramétricos y no paramétricos métodos para la estimación de la importancia de los cambios en la expresión génica entre los grupos. La prueba t de Student, para los que el usuario puede elegir un pie de igualdad-diferencia t-test, que utiliza una diferencia a través de tratamientos combinados, o Welch's t-test, que asume la desigualdad de las diferencias entre los dos grupos de tratamiento [11]. Otro método basado en la desigualdad de Chebyshev, Chebby Checker es extremadamente robusta contra desviaciones de la normalidad y la igualdad de la diferencia entre los grupos de tratamiento, pero también tiene muy baja potencia [2]. El Chebby Checker es útil para identificar los genes que son expresados diferencialmente casi con seguridad sin tener en cuenta los supuestos estadísticos. Además, un método de remuestreo bootstrap [6, 8] se aplica. Uno puede realizar una exacta de arranque (todas las permutaciones posibles) o de forma aleatoria (que se utiliza determinado número de permutaciones) de arranque. La aplicación de los procedimientos de arranque y los dos pivotes alisa con el fin de calcular con mayor precisión el significado. Como exacta de arranque es más preciso que arranque aleatorio, que se prefiere para computacionalmente factible casos, pero una vez que el n superior a 6 por grupos es difícil de aplicar.
Debido al gran número de hipótesis a prueba simultánea en alta dimensional experimentos de biología, un ajuste para múltiples ensayos es adecuado a fin de evitar la falsamente llamada demasiados genes significativos. En HDBStat! Multiplicidad de varios métodos de control están disponibles para ser aplicadas a cualquier hipótesis de método de prueba. La multiplicidad de control de los ajustes disponibles son de Bonferroni [4], Sidak [10], dos Falso Discovery Rate (FDR) los métodos de estimación [3, 5], y un método basado en una mezcla de modelado de observar los valores de p [1], a que se refiere Como el "Mix-o-matic" (Figura 5] en el HDBStat! Software. El Bonferroni y Sidak proporcionar métodos experimento de sabios (o sabias de la Familia) de tipo I control. El FDR métodos están diseñados para controlar la proporción de falsos positivos entre todos los genes expresados diferencialmente declaró. El método permite la mezcla de modelado bayesiano para la estimación de la probabilidad de que cada gen es un falso positivo o negativo y este enfoque es también conveniente para la proyección de poder de las estimaciones para futuros estudios [9].
Para la planificación de los futuros estudios HDBStat! Implementa el método de Gadbury et al poder extrapolar de los datos experimentales [9]. HDBStat! Permite el cálculo de la tasa de descubrimiento de espera (RED), posterior verdaderos positivos, y posterior cierto tasas negativas para los grandes y pequeños tamaños de las muestras que fueron inscritos como piloto de datos. (Figura 6]
Si un investigador está interesado en empíricamente comparando el tamaño de las diferencias observadas en la expresión de genes, un método empírico de Bayes se ofrece para proporcionar estimadores encogimiento de la verdadera diferencias en la expresión genética [7]. Además grupo de medios y cambios en la expresión veces se calculan los resultados a la producción y directorio especificado por el usuario.
HDBStat! Se realiza utilizando el lenguaje de programación Java utilizando diversos y con licencia de código abierto, como las bibliotecas de Visual Numerics JMSL, Yakarta PDI, Velocidad, y JFreeChart. Amplias pruebas de software se realiza utilizando JUnit biblioteca.
En la realización del cálculo de los residuos y suprimido el análisis de una hipótesis, los resultados son de salida a una fecha / hora con marcas en el directorio de usuario directorio especificado. Chip nivel de las estadísticas, los datos que se procesan, eliminado los residuos, la norma atípicos, diferentes par sabio pruebas de comparación (Tabla 1], la combinación-o-matic y el poder son los resultados de análisis de la producción en forma de archivos CSV Excel. Los gráficos generados a partir de estadísticas del chip, eliminado los residuos, la mezcla-o-matic y el poder son los resultados de los análisis en la producción. Png formato de los archivos de imagen. HDBStat! También genera un archivo HTML que contiene un resumen de los análisis incluyendo la hipótesis a prueba, fichas de cada grupo. Este mecanismo de la salida de resultados proporciona al usuario la oportunidad de ver los resultados de control de calidad y modificar las hipótesis, los métodos de preprocesamiento, y / o chip de la selección antes de proceder al siguiente paso.
El objetivo de HDBStat! Es para ayudar a los investigadores analizar datos de microarrays para extraer inferencias válidas, las estimaciones y de la interpretación a través de un flexible y fácil de usar interfaz gráfica. Permite al usuario saltar de preprocesamiento y métodos de control de calidad no sólo por la selección de los métodos. Después de la vista previa de los resultados preliminares de los datos brutos, que se procesan los datos o eliminado los residuos, el usuario tiene la flexibilidad a la baja por un chip basta con desmarcar la casilla de verificación de cheques en la interfaz de usuario. Esta característica permite al usuario diseñar cualquier número de posibles comparaciones en tanto que el análisis está en curso.
Para ayudar a los nuevos usuarios con el uso de HDBStat!, Clips de vídeo que demuestra cómo analizar y unpaired pares de datos, ejemplos de cómo hacer que los archivos de entrada para datos apareados y unpaired análisis, capturas de pantalla, y preguntas más frecuentes se encuentran disponibles en nuestro sitio web. Una descripción detallada de los métodos y las explicaciones de la salida de los archivos de este software se encuentra también disponible en formato PDF en nuestro sitio web.
Adicionales de los métodos estadísticos y se añaden de forma permanente. Apoyo a la importación de datos desde un archivo de texto y los resultados de salida en un archivo de texto estará disponible para grandes conjuntos de datos. En la versión actual, sólo en un solo canal o diseño de los microarrays de referencia común de datos pueden ser analizadas utilizando dos comparaciones de grupos. En un futuro próximo, vamos a añadir la capacidad de analizar los dos canales de datos y el apoyo a ANOVA y GLM.
Hay muchos programas de software disponibles para el análisis de microarray de datos, cada uno de ellos ofrece distintas características y funciones. En el Cuadro 2, hemos comparado las características y funciones de HDBStat! A SAM, BRB Array Herramientas y TM4.
Los requisitos del sistema para un usuario final son el entorno de ejecución de Java (JRE 1.4.2 o superior), por lo menos 256 MB de RAM y 25 MB de espacio en disco duro. El uso de la tecnología Java Web Start, HDBStat! Se pueden descargar desde nuestro sitio web en http://www.soph.uab.edu/ssg_content.asp?id=1164.
JWE, JPLB, KK, GPP escribió la aplicación documentos sobre especificaciones de los distintos modos. GLG y DBA desarrollado combinación-o-matic método, desarrollado prototipos de aplicación en S-Plus y escribió el documento de especificaciones de la aplicación. GPP y JWE desarrolló el enfoque suprimido residuos. DBA JWE y desarrollado prototipos de aplicación de las estimaciones empíricas de Bayes. JWE PT y desarrollado un prototipo de aplicación de los métodos estadísticos en SAS. JW, PT, y VS TM aplicado y probado el código java. JWE, PT, JW, SOZ, GPP, VS, TM y AP probado el software. GPP y JWE dirigido el contenido de HDBStat! Todos los autores leído y aprobado el manuscrito.
Este trabajo es apoyado por becas de la UAB HSF FMAM, NSF 0217651 y NIH U54CA100949.