Theoretical Biology & Medical Modelling, 2006; 3: 19-19 (más artículos en esta revista)

Un método estadístico para predecir las variantes de empalme entre dos grupos de muestreo, mediante un GeneChip ® expresión serie de datos

BioMed Central
Wenhong Fan (wfan@fhcrc.org) [1], Najma Khalid (nkhalid@fhcrc.org) [1], Andrew R Hallahan (a.hallaham @ uq.edu.au) [2], M James Olson (jolson @ fhcrc.org) [2], Lue Ping Zhao (lzhao@fhcrc.org) [1]
[1] División de Ciencias de la Salud Pública, Fred Hutchinson Cancer Research Center, 1100 Fairview Ave. N., Seattle, WA 98109, EE.UU.
[2] División de Investigación Clínica, Fred Hutchinson Cancer Research Center, 1100 Fairview Ave. N., Seattle, WA 98109, EE.UU.
[3] Departamento de Pediatría y Salud Infantil, Universidad de Queensland, QLD, 4029, Australia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Splicing alternativo de pre-ARN mensajero ARN resultados en las variantes con las combinaciones de los exones seleccionados. Es una de las funciones biológicas esenciales y componentes de regulación en células eucariotas superiores. Algunas de estas variantes son detectables con los Affymetrix GeneChip ® que utiliza múltiples sondas de oligonucleótidos (es decir, fijar la sonda), ya que el objetivo de secuencias de las múltiples sondas son adyacentes dentro de cada gen. La intensidad de hibridación de una sonda se correlaciona con la abundancia de la correspondiente transcripción. A pesar de las múltiples sonda-en función de la actual GeneChip ® fue diseñado para evaluar los valores de la expresión de genes individuales, sino que también medidas transcripcional abundancia de una sub-región de una secuencia génica. Esta capacidad adicional motivado a desarrollar un método para predecir splicing alternativo, antes de tomar una amplia repositorios GeneChip ® de la expresión génica serie de datos.

Resultados

Hemos desarrollado un enfoque en dos etapas para predecir splicing alternativo de GeneChip ® de datos. En primer lugar, hemos agrupado las sondas de una sonda en la creación de conceptos pseudo-exones basado en la semejanza de la sonda y la intensidad física de adyacencia. Un pseudo-exón se define como una secuencia en el gen en el que múltiples sondas han comparables sonda valores de intensidad. En segundo lugar, para cada pseudo-exón, evaluamos la significación estadística de la diferencia en la sonda de intensidad entre dos grupos de muestras. Diferencialmente expresado pseudo-exones se prevé que ser, alternativamente, unidas longitudinalmente. Hemos aplicado nuestro método empírico de los datos generados a partir de GeneChip ® Hu6800 arrays, que incluyen conjuntos de sonda 7129 y veinte sondas establecidos por la sonda. El conjunto de datos consta de sesenta y nueve meduloblastoma (27 metastásico y 42 no metastásico) y cuatro muestras de cerebelo muestras como los controles normales. Nos predijo que 577 genes sería empalmados alternativamente cuando se compararon muestras de cerebelo normal a medulloblastomas, y predijo que trece genes sería alternativamente longitudinalmente cuando medulloblastomas metastásico en comparación a los no-metastásico. Se verificaron la coherencia de algunas de nuestras conclusiones con la información de la UCSC Genoma Humano del navegador.

Conclusión

El enfoque en dos etapas descritas en este documento es capaz de predecir algunos splicing alternativo de múltiples oligonucleótidos basados en la expresión génica serie de datos con tecnología de GeneChip ®. Nuestro método emplea la amplia repositorios de la expresión génica gama de datos disponible y genera splicing alternativo hipótesis, que puede ser más validadas por estudios experimentales.

Fondo

Splicing alternativo de pre-ARN mensajero es un elemento esencial biológica funcional y normativo de componentes en células eucariotas superiores. Aumenta la complejidad de los procesos biológicos y da a las células una mayor capacidad para responder a diversos factores, tales como cambios de desarrollo y estímulos ambientales. Algunas variantes de empalme se han asociado con enfermedades, como la tumorigénesis mamaria [1] y el cáncer de ovario [2]. Cerca del 15% de nucleótido único mutaciones en el exón proceso de reconocimiento se asocian con enfermedades genéticas humanas [3]. Entender el mecanismo de splicing alternativo también puede dar lugar a encontrar posibles tratamientos para enfermedades relacionadas con el [4].

En el presente trabajo se describe un método para la detección de variantes de splicing alternativo utilizando la GeneChip ® de la expresión génica serie de datos. Affymetrix GeneChip ® emplea tecnología de sondas por múltiples genes para medir la expresión génica. Estas sondas son múltiples secuencias cortas situadas en diferentes posiciones dentro de cada gen. A pesar de estas distribuciones sonda secuencias no son optimizados para la detección de splicing alternativo, la sonda secuencia de los datos obtenidos por la actual tecnología de GeneChip ® pueden utilizarse para evaluar splicing alternativo. En nuestro método, permite inferir "pseudo-exones" de la hibridación de intensidades múltiples sondas que están distribuidos a lo largo de la sonda conjunto. Un pseudo-exón se define como una serie de secuencia expresada en el genoma que se infiere a ser un exón sobre la base de la sonda y la intensidad física de adyacencia.

La Figura 1 ilustra cómo GeneChip ® expresión serie de datos puede utilizarse para detectar splicing alternativo. Mostramos la sonda lugares para un hipotético gen en la Figura 1A y sus correspondientes intensidades de hibridación en la Figura 1B. Desde la sonda de intensidad, se infiere que tres grupos de sondas representan tres pseudo-exones (Figura 1C). Para cada uno de los pseudo-exones, probar si la diferencia de la sonda intensidades entre 1 y tejido de tejidos 2 es significativo. Si la diferencia es estadísticamente significativa, permite inferir que hay alternativa de empalme entre los dos tejidos para la región correspondiente al seleccionado pseudo-exón. En nuestro ejemplo, la región entre la sonda # 7 y # 14 sonda, es decir, pseudo-exón 2 se prevé que ser, alternativamente, unidas longitudinalmente entre 1 y tejidos tejidos 2.

Con anterioridad, Hu et al informaron de un método, basado en los cambios veces, para predecir splicing alternativo de expresión GeneChip ® serie de datos sobre diez tipos de tejidos [5]. Para cada una sonda, se calculó la diferencia en el pliegue del cambio entre cada tipo de tejido y la media de los restantes tipos de tejidos para la correspondiente sonda. Si el pliegue del cambio es mayor que uno empíricamente determinado umbral de valor R, seleccionaron la secuencia genética que corresponde a que la sonda seleccionada como una alternativa de empalme sitio para que tipo de tejidos. Sin embargo, hay algunos problemas con el planteamiento de Hu. En primer lugar, el pliegue del cambio planteamiento no tiene en cuenta la variación de muestra y, por tanto, es menos fiable cuando se muestra a muestra las variaciones son grandes. En segundo lugar, su método está diseñado para predecir las variantes de empalme en un conjunto de datos con múltiples tipos de tejidos. Hu et al informaron de que la predicción de energía disminuyeron en el caso de un conjunto de datos que figuran sólo tres tipos de tejidos en comparación con un conjunto de datos que consistió de diez tipos de tejidos. La solidez de su método depende del número de tipos de tejidos en el conjunto de datos. De este modo, su método no es adecuado para la comparación de dos tipos de tejidos, tales como la detección de variantes de empalme entre dos fenotipos, enfermedad o dos, o dos estímulos experimentales.

En este trabajo, proponemos un método para predecir las variantes de empalme entre dos grupos de muestras de expresión GeneChip ® serie de datos, teniendo en cuenta la variación de muestra. Nuestra prueba "t" enfoque basado en estadísticamente es más vigoroso y fiable que el cambio veces métodos basados en. Por otra parte, nuestro método no se basa en un gran número de tipos de tejidos. Se implementó el método de Hu et al frente y el empalme predijo variantes de los dos enfoques. Nuestra base de datos consta de cerebelo normal, no metastásico medulloblastomas, y metastásico medulloblastomas. Las comparaciones se hicieron entre cerebelo normal versus medulloblastomas, y no metastásico medulloblastomas versus metastásico medulloblastomas.

Resultados
Los algoritmos computacionales

Nuestro enfoque tiene dos pasos. En el paso 1, se infiere pseudo-exones sonda utilizando múltiples intensidades. En el paso 2, nos identificamos pseudo-exones que se expresó diferencialmente entre dos grupos de muestras. En el paso 1, para cada sonda, en primer lugar calcular la media de la diferencia en la sonda de intensidad entre los dos grupos de muestras. Luego, con base en la similitud de las intensidades de la sonda y la sonda de adyacencia en la secuencia genética, fusión de las sondas en las agrupaciones que representan un pseudo-exón. En el paso 2, comprobamos si el pseudo-exones son expresadas diferencialmente entre los dos grupos de muestras. La expresión de valor de un pseudo-exón se trata como una entidad en el actual análisis, comparable a la expresión de genes de una sonda en el conjunto habitual de análisis de datos de expresión génica. El seleccionado pseudo-exones se interpretan como una indicación de splicing alternativo en esta región del gen entre los dos grupos de comparación.

Predicción de empalme entre las variantes normal y cerebelo medulloblastomas

A título ilustrativo, se aplicó el método anterior para predecir empalme entre las variantes normal y cerebelo meduloblastoma muestras tumorales, la cual incluye tanto la no-metastásico y tumores metastásicos. En el Paso 1, utilizando un nivel de significación de 0,05 en el t-test, hemos identificado pseudo-10838 exones de un total de 142580 (7129 × 20) representan las sondas que la sonda de 7129 establece en el Hu6800 GeneChip ®. En el paso 2, se comparó la diferencia en la expresión los valores entre los dos grupos para cada pseudo-exón. El histograma de Z-resultados de estas pruebas se muestra en la Figura 2. Con la importancia umbral de la Z-score fijado a 4,8 (equivalente a un error de falsos positivos en el descubrimiento), descubrimos 811 pseudo-exones, derivados de 577 genes, fueron significativamente diferentes entre normal y cerebelo meduloblastoma muestras tumorales. Tenga en cuenta que para algunos genes más de un pseudo-exón fue seleccionado.

Predicción de empalme entre las variantes no metastásico medulloblastomas y metastásico medulloblastomas

Siguiendo el mismo procedimiento, previsto empalme entre las variantes no metastásico y el metastásico medulloblastomas. Se identificaron 8319 pseudo-exones, trece de los cuales fueron significativamente diferentes entre no-metastásico y medulloblastomas metastásico (Tabla 1]. En lugar de llevar a cabo la validación en un experimento biológico, se realizaron búsquedas en el genoma dos navegadores para pruebas de apoyo para nuestra predicción. Nosotros de entrada los trece genes en la Tabla 1 en el navegador integrado de Genoma (IGB) de Affymetrix [7] para ver si las sondas identificados en la seudo-exones se coloca en los exones separados dentro de un mismo gen, que es un requisito previo para la alternativa empalme. Para mayor coherencia, hemos comprobado si la pseudo-predijo exones se informaron como variantes de empalme en la UCSC Genoma Humano Browser [8] bajo la pista denominada "mRNA secuencias de GenBank". En la IGB, encontramos cuatro de los trece genes con predijo empalmados alternativamente pseudo-exones residido en diferentes exones. Estos cuatro genes se glutaredoxin (GLRX), carboxypeptidase N polipéptido 1 (CPN1), Keratin 7 (KRT7) y lectina de células asesinas similares a los receptores de la subfamilia miembro C 3 (KLRC3). Por ejemplo, predijo que en los últimos tres sondas para GLRX estaban dentro de un pseudo-exón. En IGB, sobre la base de información RefSeq, estas tres sondas son diferentes en un exón. Se realizaron búsquedas en su defecto transcrito variantes depositados en GenBank en las "secuencias de mRNA de GenBank" pista en UCSC Genoma Humano del navegador para los genes confirmados por IGB. Todos ellos, excepto para CPN1 tener al menos dos secuencias de transcripción en la base de datos GenBank. Al menos una de estas secuencias carecen de la región que se prevé que, alternativamente, unidas longitudinalmente, y al menos una de estas secuencias contienen las previsiones región. También se realizaron búsquedas en PubMed informó de empalme para las variantes de los trece identificado los genes. Cinco de fuera de los trece genes fueron reportadas en la literatura que han empalme variantes. Ellos son el óxido nítrico sintasa 1 (NOS1) [9], lipoproteínas de baja densidad de receptores (LDLR) [10], thrombopoietin (THPO) [11], síndrome de Down región crítica gen 1 (DSCR1) [12], caja de genes pareados 2 ( PAX2) [13].

Comparación con Hu et al planteamiento de

Para comparar nuestro método con el Hu et al, hemos implementado su método y aplicado a nuestro conjunto de datos. Al comparar normal cerebelo y medulloblastomas muestras utilizando Hu et al método, nos inferirse 31 genes empalmados alternativamente con el criterio de selección utilizado por Hu et al en su papel (Cuadro 2]. Entre estos 31 genes, siete se superponen con las conclusiones de nuestro enfoque (Tabla 3]. Para cuatro de ellos, D87119_at, U14971_at, U29953_rna1_at, X04828_at, la ubicación de la alternativa de empalme fueron consistentes entre los dos métodos. En la comparación entre la no-metastásico y metastásico muestras de meduloblastoma, no hemos encontrado ningún gen que alternativamente se longitudinalmente por Hu et al método. También investigó el efecto de diferentes criterios de selección a Hu et al método (es decir, el umbral I, que es la razón de la sonda de intensidad en un tejido más de la media de la sonda intensidades en los otros nueve tipos de tejidos para la misma sonda). El cuadro 4 muestra la relación entre los genes de 577 previstos por nuestro enfoque y los genes seleccionados con diferentes umbrales de R en el planteamiento de Hu. Números de predecir genes empalmados alternativamente como aumentar los valores más pequeños R (menos estricta) se utilizan.

Se verificaron tanto IGB y UCSC Genoma Humano Navegadores de pruebas de apoyo para los siete predijo empalmados alternativamente variantes en el cuadro 3. Se encontraron cuatro genes que había predicho pseudo-exones ubicados en los exones separados de acuerdo a IGB y alternativa longitudinalmente mRNA de GenBank en UCSC Genoma Humano del navegador. Se trata de guanina proteína de unión de nucleótidos que inhiben la actividad alfa del polipéptido 2 (GNAI2), proteína ribosómica S9 (RPS9), leucocitos activados molécula de adhesión celular (ALCAM), y minichromosome mantenimiento deficiente 7 (MCM7). Existen variantes de empalme en PubMed ALCAM de la literatura [14].

Discusión

Hemos desarrollado un enfoque en dos etapas para predecir las variantes de empalme entre dos grupos de muestras GeneChip ® utilizando la expresión génica serie de datos. Nos ilustra el método utilizando datos empíricos de lo normal cerebelo, meduloblastoma metastásico y no metastásico muestras de meduloblastoma. Hemos previsto un total de 577 genes empalmados alternativamente cuando cerebelo normal en comparación con medulloblastomas muestras tumorales y trece genes empalmados alternativamente cuando se compararon no metastásico con medulloblastomas metastásico medulloblastomas. Una comparación de los resultados de nuestro enfoque y el método descrito por Hu et al en el mismo conjunto de datos puesto de manifiesto cierta superposición empalmados alternativamente genes.

Nuestro método propuesto puede ser usado para predecir empalme variantes y se aprovecha de las grandes repositorios de la expresión génica serie de datos. Inferirse de empalme variantes se puede utilizar para generar hipótesis alternativa de empalme para su posterior validación experimental. Superior calidad de la señal en la nueva generación de GeneChip ®, como U133 Plus 2,0 matriz, deben hacer nuestras previsiones más robusto. Recientemente, un genoma humano en toda la serie se convirtió en el exón disponibles de Affymetrix [7] para detectar conocido splicing alternativo en una muestra biológica. Evitar la necesidad de que la definición de "pseudo-exones" en el PASO 1 de nuestro enfoque, se puede utilizar directamente el paso 2 de nuestro método para predecir empalme variantes. Como era de esperar, este tipo de exón serie junto con nuestro riguroso método estadístico puede mejorar el poder de predecir más variantes de empalme.

Existen algunas limitaciones asociadas con el uso de GeneChip ® de la expresión génica serie de datos para detectar empalmados alternativamente variantes. Actualmente, las sondas GeneChip ® cubrir 600 pares de bases en la secuencia de extremo 3 '. Por lo tanto sólo podemos detectar las variantes de empalme en el extremo 3 '. Por otra parte, algunos extremo 3 'empalme variantes podría ser debido a polyadenylation sitios alternativos, y nuestro método no distingue entre estos en el análisis. El empalme variantes resultantes de la 3 'no-translacional región podría ser destituido por comprobar si las previsiones pseudo-exones en el extremo 3' se encuentran en regiones traslacional.

Desde nuestro enfoque depende de la intensidad de la sonda al grupo sondas en pseudo-exones dentro de un solo gen, no específicos de hibridación en una gama de expresión podría complicar este paso (STEP 1), por lo tanto, dar lugar a falsos tanto positivos y falsos negativos. Cruz-la hibridación puede ser abordado en parte mediante la exclusión de grado inferior sonda fija, como establece la sonda con el sufijo _s o _x, lo que puede hibridizar con múltiples genes, ya sea antes o análisis de la lista de genes después de su análisis.

Conclusión

En el presente trabajo se describe un método que puede generar hipótesis de splicing alternativo para una investigación más a fondo. Nuestro enfoque permite superar dos limitaciones de un método propuesto con anterioridad [5]: 1) que usamos las pruebas t-en lugar de doblar los cambios, 2) podemos predecir variantes de empalme entre dos grupos de muestras. Estas diferencias hacen inferencia nuestra más firme y no depende de múltiples tipos de tejidos para estabilizar la inferencia.

Métodos
Dataset

Nuestro conjunto de datos empíricos se compone de GeneChip ® Hu6800 expresión gama de datos de sesenta y nueve muestras de meduloblastoma y cuatro muestras de cerebelo como controles normales. Entre las muestras de meduloblastoma, cuarenta y dos son de no tumores metastásicos y veinte y siete son de tumores metastásicos. Hay 7129 la sonda fija en la gama Hu6800 expresión, y veinte sondas sonda en cada set.

Inferir pseudo-exones dentro de un gen (PASO 1)

En este paso, las sondas de fusión dentro de un gen en las agrupaciones que representan a pseudo-exones. En primer lugar, calcular la diferencia en la intensidad de la sonda de hibridación entre dos grupos de muestras para cada sonda. Luego, para cada gen, fusión de las sondas en grupos basados en la similitud de las diferencias en la intensidad de la sonda (entre los dos grupos de muestras) y la sonda de adyacencia en la secuencia del genoma. Por un gen, por no hablar Y (i, 1), n 1 y ser la intensidad de la sonda para el i-ésimo on sonda en la muestra del grupo 1, la varianza, y el tamaño de la muestra, respectivamente. Del mismo modo, Y (i, 2), y n 2 son para la muestra el grupo 2. Dentro de los genes, el índice i aumentos de la dirección de los 5 'finales para el extremo 3'. Empezamos con la primera sonda de los 5 'finales y calcular:

dónde es la media de intensidad de la sonda. Si el valor absoluto de t i no supera el valor límite en el nivel de significación α = 0,05, fusionar el i-ésimo on sonda con la (i +1) ª sonda para generar una pseudo-exón. El resultado pseudo-exón se convierte en el nuevo on on sonda en la próxima iteración de la t-test. El pseudo-exón se extiende con cada iteración hasta que los resultados de la prueba "t" o convertirse en importante llegar a la última sonda sonda dentro de un conjunto. Si t i supera el valor umbral importancia, no fusionar el i-ésimo on sonda con la (i +1) ª sonda, pero el comienzo de una nueva generación de pseudo-exón de este (i +1) ª sonda, utilizando el mismo procedimiento de iteración . Después de terminar la última sonda en el extremo 3 ', que podrá, o bien tener varios pseudo-exones, o sólo a una pseudo-exón (es decir, todo el conjunto sonda) si todos los t-estadística de la sonda dentro de un conjunto no es significativa.

Verificar la existencia de significación estadística (ETAPA 2)

Para cada una pseudo-exón, determinar si existe una diferencia en la intensidad de la hibridación entre los dos grupos x 1 y x 2. Nuestra hipótesis nula es que, para cualquier pseudo-exón, la diferencia en la sonda de intensidad entre los dos grupos es igual a cero. Si rechazamos la hipótesis nula de un pseudo-exón, lo que significa que las intensidades de hibridación entre los dos grupos son importantes para que los distintos pseudo-exón, entonces inferir que existe una variante de empalme entre los dos grupos de muestras para la región correspondiente dentro de el gen.

En el mismo sentido como Li Wong y del modelo para analizar la expresión de genes en la sonda de nivel [15], se propone un factor multiplicativo heterogeneidad modelo asociado a la sonda intensidades de un pseudo-exón directamente con la covarianza, es decir, grupo indictor x k:

jik, donde Y es la intensidad de hibridación para el i-ésimo on sonda en el jth jth pseudo-exón en la KTH KTH muestra, N es el número de sondas en el jth jth pseudo-exón, δ k y λ k heterogeneidad son factores para la normalización, x k es el grupo indicador de la muestra KTH KTH, β j es el coeficiente de jth jth pseudo-exón, ji φ es el multiplicativo sonda específica para el i-ésimo parámetro on sonda en jth jth pseudo-exón, y ξ es la variación aleatoria plazo . Para evitar que cualquier hipótesis de distribución, hemos aplicado las técnicas de estimación de ecuaciones para calcular los coeficientes y sus errores estándar para hacer inferencias de estadísticas [16 - 19].

Abreviaturas

IGB: Integrado Genoma del navegador; UCSC: University of California, Santa Cruz

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

WF realizó el análisis de datos, el manuscrito elaborado y desarrollado conjuntamente con el método LPZ. NK revisó el manuscrito. ARH y JMO concebido el estudio. LPZ concibe el estudio y el método desarrollado conjuntamente con WF. Todos los autores leído y aprobado el manuscrito final.

Material complementario
Archivo Adicional 1
Alternativa longitudinalmente pseudo-exones seleccionados por nuestro método: Comparación de cerebelo normal con medulloblastomas. Resultados completos de la pseudo-811 exones se prevé que, alternativamente, unidas longitudinalmente entre normal y cerebelo medulloblastomas.
Agradecimientos

Los autores se agradecen a Harvard y del MIT para los investigadores que nos permite utilizar sus datos de microarrays para este papel. Este trabajo fue apoyado por becas de los Institutos Nacionales de Salud.