PLoS Computational Biology, 2005; 1(2): (más artículos en esta revista)

Reconocimiento de desconocidos conservado alternativamente exones empalmados

Biblioteca Pública de la Ciencia
Uwe Ohler [*], Noam Shomron, Christopher Burge B [*]
Resumen

La división de la estructura de proteínas de mamíferos, la mayoría de los genes de codificación permite la posibilidad de producir múltiples ARNm y proteínas diferentes isoformas de un solo gen locus a través del proceso de splicing alternativo (AS). Proponemos un enfoque computacional llamado UNCOVER sobre la base de un modelo de Markov ocultas par para descubrir conservadas las secuencias de codificación exonic sujetos a AS que hasta la fecha han sido detectados. Aplicando UNCOVER a ortólogos intrones conocido de los genes humanos y de ratón predice omiten exones o intrones mantenerse presente en ambas especies, mientras que la discriminación de las secuencias no conservadas. La precisión del modelo se evaluó en un comisariada conjunto de genes conocidos con los acontecimientos conservados AS. La predicción de exones omitidos en el ~ 1% del genoma humano representado por el ENCODE regiones conduce a más de 50 nuevos candidatos exón. Cinco novela predijo AS exones fueron validados por RT-PCR y análisis de la secuencia de 15 intrones con fuerte UNCOVER predicciones y que carecen de pruebas EST. Estos resultados implican que un considerable número de secuencias conservadas exonic y las isoformas son todavía totalmente ausente de la actual anotación de genes conocidos. UNCOVER también identifica un número reducido de candidatos para conservadas intrón retención.

Introducción

Casi todos los genes codificantes de proteínas de los seres humanos y otros mamíferos tienen una estructura dividida con varios exones e intrones. Intronic secuencias se eliminan de la transcripción primaria en el proceso de pre-mRNA de empalme [1], un paso fundamental en la expresión de genes eucariotas. El número de variantes generadas funcional de una transcripción puede ser aumentado por splicing alternativo (AS), en la que uno o varios exones o partes de ellos son ignoradas, o un intrón se mantiene, en comparación con otra de la misma transcripción de genes [2 -- 4]. Mediante este mecanismo, un organismo puede generar varias isoformas de proteínas de un solo gen, que puede conducir a un gran número de variantes de la proteína, y como es un medio importante de la regulación génica, que se utiliza con frecuencia durante el desarrollo o en la diferenciación. También es un caso muy común: Según estimaciones conservadoras, incluso la fracción de los genes humanos con más de una isoforma en el 40% [5], con similares tasas estimadas en todos los animales [6]. Los tipos básicos de AS son la omisión de exón, intrón retención, y las alternativas de 5 'y 3' empalme uso de un sitio, con la omisión de exón siendo la más frecuente en los mamíferos [7 - 10]. Hasta la fecha, como se han identificado los eventos a gran escala principalmente de las comparaciones y los alineamientos de secuencias expresadas (EST) etiqueta y secuencias de cDNA, y las bases de datos sobre la base de estas alineaciones se han descrito [8, 10, 11]. Ab initio AS predicción de eventos de una sola secuencia genómica se ha intentado sólo en raras ocasiones: la Complejidad de detección de las secuencias de intrones similares a los exones vecinos reveló candidato duplicado exones, que puedan participar en el empalme mutuamente excluyentes [12]. Un modelo oculto de Markov (HMM) muestreo enfoque puede detectar probables variantes de las estructuras completas de genes [13]. Estos estudios, sin embargo, no predijeron AS verificar experimentalmente los acontecimientos.

A pesar de la gran cantidad de tecnologías ecológicamente racionales que se han secuenciado de una variedad de organismos y tejidos, la cobertura de la transcriptome sigue siendo limitado, especialmente para los genes expresados en los niveles inferiores o bajo condiciones limitadas. Cada vez es más difícil distinguir funcional, pero rara EST-detectado variantes de isoformas no artifactual y secuencias contenidas en las bibliotecas [7]. Por lo menos en los mamíferos, el menos común isoformas a menudo no están conservados, en contraste con el alto grado de conservación de la vista más comunes variantes [14, 15]. Exones sujetos a nonconserved saltos de eventos son significativamente diferentes de exones conservados alternativa (ACE, pares de ortólogos humanos y de ratón exones ambos sujetos a la omisión de exón), que es menos probable que preservar marco de lectura y más probabilidades de contener en el marco de los codones de parada, lo que sugiere que Una fracción importante no dar lugar a proteínas funcionales [3]. ACE también tienden a ser flanqueada por largo, muy conservadas intronic secuencias, posiblemente debido a la presencia de la secuencia de elementos necesarios para regular la inclusión de los exones en determinados tipos de células o condiciones. ACE son las regiones que contienen por lo tanto, a menudo entre las más altamente conservadas en los segmentos del genoma humano [16, 17]. Dos no EST computacional basada en enfoques han hecho uso de estas características específicas para clasificar éxito exones conservados en cuanto a si están sujetos o no a saltar [17, 18], que confirmó que la cobertura actual de isoformas de empalme de tecnologías ecológicamente racionales por sí sola es aún limitada , Pero que la mayoría EST-derivados saltar eventos puede, de hecho, no se conserva. En cuanto a la retención de los acontecimientos intrón (IREs), un estudio reciente calcula que se producen en aproximadamente el 15% de los genes humanos [19], sin embargo, requisitos más estrictos esta estimación inferior al 5% [7, 19], y la mitad de estos casos se han producido en Sin traducir región y, por tanto, no alteran la proteína codificada. Sólo diez de los IREs determinado fehacientemente, la codificación o no, resultaron ser claramente conservadas entre humanos y del ratón, sobre la base de que dispone actualmente y de cDNA EST pruebas, lo que sugiere que este modo de regulación no es común en los genes de mamíferos.

Resultados
Diseño de un HMM a Pair Descubre Conservadas AS

Dado que se conserva como la codificación de los eventos tienen el potencial de alterar la proteína isoformas bajo circunstancias estrictamente regulados, estas secuencias deben ser de los más importantes segmentos funcionales del genoma. Métodos computacionales para predecir ACE [17, 18] demostró que inferir AS eventos de tecnologías ecológicamente racionales por sí solas perder una parte considerable de saltar conservadas eventos: aquellos para los que las bibliotecas actuales EST contener únicamente las isoformas que incluyen el exón. Presumiblemente, esto es causado por el hecho de que la mayoría de las isoformas incluir el ACE que se examina. En este sentido, nos propusimos desarrollar un enfoque complementario para predecir los acontecimientos conservados AS en la que la mayoría de las isoformas no incluyen el ACE intrón o mantenerse, y para el cual la secuencia exonic sujetos a AS es, pues, completamente ausente en las secuencias disponibles, y ha EST No se han descrito antes.

Para identificar sistemáticamente tales previamente desconocido ACE y IREs perdido por comparativa de genes-y la búsqueda de cDNA EST y alineaciones, hemos desarrollado un sistema de predicción de los mamíferos comparativas conservadas codificación AS eventos denominado UNCOVER (por "desconocido conservado variable exón reconocimiento"). UNCOVER se basa en un par HMM (pHMM) [20 - 22], un modelo probabilístico que se pueden utilizar para obtener una óptima adaptación y anotación simultánea de dos secuencias. Un pHMM consta de los estados que pueden ser tanto par los estados, que contienen una distribución de probabilidad de la ocurrencia de pares de nucleótidos alineados, o solo los estados, que un modelo de nucleótidos en la secuencia, pero no los demás, por lo tanto, la descripción de las inserciones y deleciones. Diferentes estados se utilizan para distintos modelos de modelo de conservación, por ejemplo, la distribución en el estado para el tercer codón posición generalmente contienen mayores probabilidades de que la falta de adaptación de la primera o segunda posición, y los desajustes no cambiar la voluntad de aminoácidos codificados Ser más frecuentes que otras. Mientras que la computación óptima adaptación, una pHMM etiquetas de la alineación con los estados que han sido utilizados en el proceso, y la secuencia alineados puede ser comprendida en categorías funcionales basados en las etiquetas.

El UNCOVER pHMM fue diseñado específicamente para alinear una ortólogos humanos y de ratón intrón pareja a la vez y para predecir si potencialmente alberga sin descubrir AS eventos (Figura 1]. El modelo afirma describir la probabilidad de pares de nucleótidos alineados en el 3 'y 5' sitios de empalme, la codificación de las regiones, y no alignable regiones, así como nonalignable único de los nucleótidos en las regiones (es decir, inserciones o deleciones en la secuencia humana en comparación con el ratón ). Las probabilidades de transición del modelo de conectar los estados de diferentes maneras que corresponde a ninguno de submodelos o cualquier uno de los cuatro eventos básicos como: saltos, la retención, y las alternativas de 5 'y 3' exones. Una etiqueta UNCOVER alineación puede predecir si un patrón de conservación visto en el intrón par encaja mejor conservadas no secuencia, a la secuencia de codificación de todo-intrón sugiriendo mecanismos de retención o conservado a la secuencia de (3 'empalme sitio, la codificación de exón, 5' empalme ) En algún sitio dentro del intrón par, lo que sugiere la presencia de un ACE (véase la figura 1 para obtener una descripción detallada del modelo, y la Figura 2 para un ejemplo de alineación). La alternativa para UNCOVER submodelos 5 'y 3' exones son utilizados en este momento sólo para lograr una mejor discriminación entre los diferentes tipos AS, y no se analizan en detalle en este estudio.

Candidato por las actuales estructuras anotó desde el principio de determinación de los algoritmos de genes están limitados en que tienen que cumplir las restricciones de todo el modelo de gen-incluyendo la presencia de un marco de lectura y la distribución a lo largo de la duración prevista de los exones. El modelo, como se muestra UNCOVER no impone estas restricciones y, por tanto, tiene el potencial de detectar eventos perdido conservadas por computacional de genes buscadores. Se puede utilizar para predecir nuevos hechos como dos especies en forma simultánea, o para ofrecer nuevas pruebas para un caso como conservadas en el caso de la cobertura limitada o EST EST de sólo una de las dos especies. Una de las ventajas de nuestro pHMM es que, además de la identificación de eventos AS, que también identifica las secuencias no conservadas, que potencialmente contienen elementos reguladores cis-de empalme o de transcripción. UNCOVER per se identifica cualquier tipo de codificación de la secuencia de montaje pHMM modelo, lo que significa que predijo omiten exones puede, de hecho, simplemente se perdió por los exones existentes anotación que se conservan, pero no como alternativa empalmados. En la práctica, sin embargo, el oleoducto para determinar la aportación intronic regiones usos anotaciones de las estructuras conservadas de genes, que en general son inferidos de las EST y ADNc pruebas, y, por definición, más verdadero positivo predijo exones son, por lo tanto omiten exones.

Aplicación de UNCOVER en un Dataset Curada de conocidos omitido exones

Para establecer una línea de base para lo bien ACE puede detectarse con nuestro enfoque, hemos recogido 241 ortólogos intrones contienen conocido ACE derivados de humanos y de ratón EST y ADNc alineaciones, que van de longitud de alrededor de 250 a cerca de 93000 nt nt. UNCOVER realizado un total de 309 predicciones con 210 verdadero positivos (Tabla 1], con éxito identificación de la ubicación exacta de la ACE: 89% de los verdaderos positivos UNCOVER predicciones identificado al menos un sitio de empalme exactamente. Las inexactitudes de los restantes 11% refleja la fuerte secuencia de conservación alrededor de ACE, por lo que resulta difícil inferir la ubicación exacta de los sitios de empalme correcto en algunos casos. Para la comparación, se realizó un sencillo BLASTN análisis [23], el mantenimiento de todos los hits más de 30 nt E con valores de menos de 10 -10. Esto dio lugar a 667 predicciones, de los cuales 253 coinciden en parte con los 233 conocidos exones. Sin embargo, ni un solo hit corresponde a la exacta fronteras exón. BLASTN puede así detectar la ubicación aproximada de la gran mayoría de ACE en esta serie, pero en una forma muy inespecíficos; TBLASTX utilizando en lugar de BLASTN dio resultados muy similares. Manteniendo sólo el mejor éxito con al menos el 70% de identidad de secuencia, pero independiente de E valor dado lugar a 212 golpes (88%), la superposición de ACE. UNCOVER La tasa de detección es por lo tanto prácticamente idéntica a la mejor BLAST hit análisis, pero sin hacer ninguna hipótesis poco realista en cuanto a si o cuántos ACE pueden estar presentes en un intrón (y, sobre todo, las predicciones UNCOVER general, presentan uno o ambos sitios de empalme correcto) .

Como alternativa a la secuencia de los modelos probabilísticos, el Ka / Ks prueba recientemente se ha aplicado al problema de la búsqueda comparativa de genes. Este es un método establecido para la detección de adaptación evolución molecular, basado en la observación de que la codificación de las secuencias son en general en virtud de selección para conservar la secuencia de aminoácidos. En una aplicación de la Ka / Ks prueba a la búsqueda de genes [24], el 92% de los exones internos han superado la prueba en un valor de p de 0,05. Sin embargo, sólo el 47% de la prueba omiten exones conservados en el conjunto de 241 exones superado la prueba en el mismo p-valor, incluso en el supuesto de conocer exactamente el exón límites. Esto es, al parecer debido al menor tamaño de la omiten exones (mediana de 84 frente a 123 nt nt en el conjunto de exones constitutivos utilizados en [24]] y la mayor tasa de conservación de la secuencia sinónimo ACE frente a los exones constitutivos (véase el Protocolo S1 Para más detalles). El Ka / Ks prueba, por lo tanto, tiene limitaciones inherentes cuando se aplica para detectar exones empalmados alternativamente.

Análisis de las Regiones Objetivo ENCODE

Como una aplicación de UNCOVER en una escala genómica, que se centraron en el 1% subconjunto del genoma humano conocido como el ENCODE (Enciclopedia de Elementos de ADN) regiones, en la actualidad objeto de un análisis experimental y computacional [25]. 135 predicciones UNCOVER hizo en el 73 de un total de 1776 ortólogos intrones (4,1%), ubicado en 40 de un total de 323 genes (12,4%). En comparación, hubo 982 votos a 321 BLAST intrones con los límites fijados como se indica más arriba, más de siete veces más hits en un nivel similar de sensibilidad. Un total de 42 correspondieron a UNCOVER predicciones ya sea anotado humanos omiten exones o cubiertas por secuencias EST humanos en dbEST (al 23 de agosto de 2004): 15 coincide con anotada ACE en genes conocidos Ensembl, siete coincide con anotada Ensembl EST genes o VEGA (el manual Vertebrados comisariada Genoma Anotación base de datos [26]; Http://vega.sanger.ac.uk ) Genes, y tres empalmados coincide con las tecnologías ecológicamente racionales que no correspondan a ninguna anotación, que indica la presencia de ACE aún sido objeto en los genes LUC7L, C16orf35, y CDH2. El resto coincide con las predicciones unspliced EST correspondiente al 11 intronic regiones. Muchas de estas tecnologías ecológicamente racionales se polyadenylated, y una de las coincidencias fue anotado como una alternativa terminal EST exón de un gen. De hecho, se observó que, con una sola excepción, estas predicciones se UNCOVER situado en el 3 'terminal región de los genes. La ubicación de estos exones putativo terminal no se puede esperar que se predijo exactamente por UNCOVER, ya que no termina con el 5 'y contener sitio de empalme 3' secuencia sin traducir.

Para la validación experimental, se seleccionaron los 20 que contiene intrones predijo ACE sin ninguna evidencia de que se EST flanqueado en ambos lados por fuertes sitios de empalme. Hemos seguido una RT-PCR de secuencias de protocolo en una serie de ocho adultos y tejidos humanos células HeLa, y confirma la expresión de acompañamiento de los exones 15 de los 20 probados intrones (es decir, en cinco casos, pero no hemos podido observar ninguna expresión en la Tejidos seleccionados utilizando varios conjuntos de primers). Para cinco de estos 15, que en varias ocasiones observaron dos bandas de PCR, con la secuencia de los productos más pequeños que concuerden con los exones de acompañamiento de las predicciones, y, en un caso adicional, vimos la expresión de un producto utilizando los cebos colocados en el interior de la ACE y predijo vecina Exón. En tres de estos seis casos (incluyendo el gen ST7), la secuencia de los productos alternativos incluyen la UNCOVER predijo exones, lo que demuestra que nuestro enfoque condujo al descubrimiento de nuevos ACE expresó en niveles muy bajos, que aún no han sido cubiertas, a pesar de la disponibilidad de Más de 5 millones de humanos de las tecnologías ecológicamente racionales (figura 2, véase también Dataset S1 para más detalles). Uno de los casos (CRAT) corresponde a un exón omitido en la que sólo una pequeña parte en el centro se conserva entre los humanos y de ratón, y que por lo tanto podrían no ser predicha por UNCOVER. En los dos casos restantes (incluidos MCF2L), incluyó la secuencia alternativa no coincide con ningún nonredundant secuencia en la base de datos GenBank, sugiriendo lagunas o misassemblies en estos intrones. Además, confirmó que dos de los diez posibles nuevas alternativas terminal exones, utilizando los cebos colocados en el interior del exón predicho y el exón inmediatamente aguas arriba. Sin contar los casos con nonmatching secuencia, por lo que aquí se conserva AS ocho y cinco eventos verificados por RT-PCR de novo sobre la base de las predicciones más tres pruebas con empalmados EST-15, además de conocer los acontecimientos presentes en el Ensembl anotación de las regiones ENCODE (A partir de agosto de 2004), y proporcionar apoyo adicional para ACE ocho más que sólo se han anotado como parte de Ensembl EST genes o intersectoriales especies de homología.

Un genoma de búsqueda en toda conservadas para mantenerse intrones

En cuanto a la retención intrón conservadas, que prorrogó el UNCOVER análisis a la totalidad de su genoma. Nuestro análisis abarcó un total de 84233 pares ortólogos intrón, 46 veces el número ENCODE dentro de la región, que abarca el 1% de los nucleótidos en el genoma de genes, pero es algo rico. A pesar de este gran número de intrones, y sin supuestos en el marco de lectura del exón aguas arriba, sólo 23 se predice que sea más probable que se conserve IREs con potencial de la codificación a puerto no se conserva secuencia (véase el cuadro 2 y Dataset S2]. De estos, 12 fueron cubiertas por las tecnologías ecológicamente racionales humanos (al 25 de octubre de 2004), con un total de diez anotado conocido como EST o de los genes. La longitud de 12 candidatos es un múltiplo de tres, y 13 de 19 para los que se podría determinar el marco de lectura abierta de ADNc de longitud completa se prevé que continúe en el marco de las actividades preliminares exón. En vista de las pruebas de longitud, el marco de lectura, EST cobertura, y la presencia de proteína dominios abarcan el candidato IRE, otros cuatro (entre ellos PAX6 y PCDH17), además de los diez ya anotado se puede considerar muy probable IREs, y la participación de otros dos Una alternativa de empalme 5 'en un sitio de empalme mutuamente excluyentes moda a uno de los exones vecinos.

Discusión

Nosotros proponemos un enfoque de análisis comparativo de secuencias de detectar hasta ahora desconocido y empalmados alternativamente exones conservados, seguido de la validación experimental. Teniendo en cuenta los 53 intrones con UNCOVER ENCODE predicciones en la región que no contienen anotado omiten exones, y ajustar el número de la sensibilidad (87%) y especificidad (68%) de UNCOVER comisariada ACE en el conjunto de datos, lleva a un total estimado de 53 (0,68) / (0,87) = 41 ENCODE intrones contienen ACE actualmente no anotada. Esto demuestra que, incluso para el bien conocido y estudiado los genes, EST cobertura actual está lejos de ofrecer un panorama completo de AS. Ampliarse a la totalidad de su genoma, que contiene 46 veces el número de ENCODE intrones en la región, alrededor de 1900 intrones pueda alojar aún desconocidas ACE. Desde la especificidad puede ser sobreestimado un tanto comisariada ACE utilizando el conjunto de datos, como una estimación más baja, una extrapolación de la recta hasta ahora verificado experimentalmente ACE sugiere que por lo menos varios cientos de ACE actualmente están todavía en espera de descubrimiento. Esperamos que UNCOVER será especialmente útil cuando se enciende a las regiones del genoma menos cubiertos por las tecnologías ecológicamente racionales [27] que el ENCODE objetivos. Por otro lado, la retención de la traducible intrones no parece desempeñar un papel importante en la generación de codificación de la proteína conservada isoformas en los mamíferos. Nosotros no descartamos un papel para nonconserved regulado intrón retención o conservadas IREs en UTRs o en especies distintas de mamíferos.

Teniendo en cuenta los resultados de RT-PCR, las isoformas que incluyen el recién verificado exones se expresan a niveles inferiores a las isoformas en el que se omiten los exones. Esto está de acuerdo con la falta de apoyo en EST datos: se la isoforma con el exón incluido el más importante, nosotros esperamos que se han observado en los datos de EST. Detalladas mediciones de la frecuencia de cada uno de los eventos AS, como para el bien estudiados los receptores de la superficie celular CD44, puso de manifiesto que la inclusión de los exones empalmados alternativamente funcional puede ser mucho menos común que saltar [28]. Una serie de puntos para discutir la relevancia funcional de nuestro recientemente detectados menor isoformas: estamos por lo general en condiciones de ampliar ellos poniendo los cebos en el acompañamiento exones (véase la figura 2], que se expresan en un tejido específico en forma humana, y Observar en la expresión del ratón y (Figura S1], y su secuencia se conserva, no sólo en ratones sino en una serie de otras especies de vertebrados (véase el Dataset S1].

En su estado actual, UNCOVER está diseñado para predecir que únicamente codificación de los exones. Además de una fácil adaptación a los pares de especies de mamíferos no como nemátodos o insectos, el desarrollo de UNCOVER podría conducir a la eliminación de esta restricción a fin de incluir en los exones con marco de los codones de parada y no 3 'termina. Esto nos debería permitir predecir mejor terminal exones que son sólo parte de codificación: se demostró que estos pueden predecirse por la versión actual de UNCOVER, sino un modelo explícito de conservación y no polyadenylation sitios sin duda dar lugar a mejoras. Además, incluso en el marco de los codones de parada puede permitir predicciones de ACE adicionales sujetos a descomposición mediada por una tontería (NMD), un mecanismo que degrada las transcripciones contienen codones de terminación prematuros [29]. Dicho sistema se ha propuesto como un importante mecanismo de regulación de genes en relación con el AS [9]. Un PCR verificación de las predicciones sujetas a dicho sistema que se podría hacer la siguiente desmontables de las enzimas importantes en la Dirección Nacional de Vigilancia vía, que se pueden acumular y ampliar las transcripciones. Para ganar una mayor confianza en estas predicciones, UNCOVER deberían hacerse extensivas a más de dos especies, que, además, debe permitir la predicción fiable de la alternativa 5 'y 3' de empalme que puede dar lugar a distintas isoformas por sólo unos pocos nucleótidos. Esto puede hacerse de una manera similar a un enfoque basado en modelos probabilísticos filogenética [30].

Independiente de los últimos métodos basados en el análisis comparativo del genoma [17, 18, 31], lo que puede considerarse como complementaria de la labor descrita aquí, han tenido éxito en la clasificación conocida como omiten exones conservados o constitutiva. Estos enfoques se basan en la metodología de la teoría del aprendizaje estadístico, y una verdadera integración con un enfoque probabilístico como UNCOVER no son tan sencillas. Sin embargo, pueden ser utilizadas fácilmente para filtrar nuestras predicciones. Un genoma en toda verificación de tales predicciones está previsto, que debería contribuir a completar nuestra visión de la gravedad y la prevalencia de la conserva AS.

Materiales y Métodos
La formación y la prueba de conjuntos de datos.

Un conjunto completo de forma fiable anotado exón-intrón estructuras de los genes de mamíferos, incluida la información sobre otro tipo de estructuras, así como la conservación de especies múltiples, era un punto de partida crucial para nuestra investigación. El gen anotación GENOVA sistema es un conjunto de los programas para la empalmados alineación de juegos de secuencias de mRNA y de las tecnologías ecológicamente racionales en contra de toda una genoma y se usan para alinear el humano y el ratón tecnologías ecológicamente racionales y secuencias de cDNA (que se describe con más detalle en otro lugar [32]]. GENOVA detecta coincidencias entre una repetición enmascarada de cDNA y la secuencia genómica de ADN utilizando BLASTN y mapas de la original cDNA a la asamblea genoma humano utilizando el algoritmo mRNAvsGen empalmados alineación. Posteriormente, se detecta BLASTN coincidencias entre una repetición enmascarada de cDNA secuencia y secuencias EST y mapas de tecnologías ecológicamente racionales a las regiones con cDNA alineados ADN genómico utilizando SIM4 [33] para asegurar una alta calidad de la anotación. SIM4 alinea con las tecnologías ecológicamente racionales que contiene las secuencias genómicas afines genes, lo que permite intrones en la secuencia de ADN genómico y un número relativamente pequeño de los errores de secuenciación.

Se obtuvo el cromosoma asambleas (hg13) del genoma humano, de la Universidad de California en Santa Cruz servidor Web ( Http://genome.ucsc.edu ), Transcripción de datos en forma de alrededor de 94000 secuencias de cDNA humanos de la combinación de los archivos de GenBank gpri y gbhtc (despacho 134), las tecnologías ecológicamente racionales y humanos de la base de datos en dbEST repositorio 032703. En conjunto, suman alrededor de 86000 GENOVA ADNc y 890000 EST, que se han traducido en unos 20800 genes regiones en el genoma humano que exhiben múltiples estructuras de exón. El relativamente bajo número de alineaciones se debió a la aplicación de estrictos criterios de alineación. Sólo las tecnologías ecológicamente racionales que había al menos parcial superposición con un cDNA fueron alineados al genoma, y sólo las alineaciones que abarcó por lo menos un intrón y que cumplen con los estrictos cobertura (90%) de la identidad y de los niveles (> 90%) fueron considerados. De la misma manera, se aplicó a GENOVA genoma de ratón, teniendo la versión 3 de la reunión y de las mismas versiones de GenBank y dbEST como anteriormente. Con los mismos criterios que los utilizados para los datos humanos, hemos podido alineados sobre ADNc 19000 y 480000 tecnologías ecológicamente racionales, dando lugar a 14800 genes regiones.

Para regiones de genes candidatos alternativos con el exón-intrón estructuras, la empalmados alineaciones se compararon para cada exón. Anotado 5 'terminal y 3' terminal exones internos fueron separados de los exones y excluidos de un análisis más detallado. Exones internos fueron clasificados como constitutiva, la alternativa 3 'sitio de empalme, la alternativa 5' sitio de empalme, salta, se superponen, y que contiene mantenerse intrones. Con estas alineaciones y de la anotación de orthologs de Ensembl [34], se determinó que contiene pares de genes ortólogos conservadas AS eventos. La aplicación de filtros estrictos de calidad, hemos identificado un conjunto de 241 omiten exones con sus correspondientes U2-tipo sitios de empalme de ambas especies que no tenían otra detectado AS acontecimientos relacionados con los exón omitido. Este conjunto constituye nuestra prueba de ACE conocido. De los 241 exones, cinco fueron enmascarados al aplicar RepeatMasker (A. Smit y P. Green, datos no publicados), lo que demuestra que algunas clases de mamíferos conservan repite puede llevar a los exones conservados alternativa. Entre estos cinco, dos fueron SINEs de los mamíferos intercaladas repetir tipo (MIR), uno era un L3/CR1 LINE, uno era un ERV LTR clase I, y uno fue un pequeño ARN. Un mayor número de humanos omiten exones se derivan de los primates específicos de elementos repetitivos y, por tanto, no se conserva entre los humanos y el ratón [3].

De la misma manera, los exones constitutivos 5066 conservadas en los genes que exhiben AS eventos en otros lugares se identificaron. De estos, que ocupan los 5 'y 3' sitios de empalme para capacitar a la par sitio de empalme de salida distribuciones en el modelo. Para establecer un programa de capacitación para la codificación de los estados, ortólogos humanos y de ratón de codificación de las secuencias fueron extraídas de Ensembl, y los que la codificación de las secuencias de inicio y anotado con los codones de parada en humanos y ratones se mantienen. Este conjunto consta de 5377 ortólogos con secuencias conocidas marco de lectura, con un total de 7140008 nt en humanos y en ratón 7005234 nt. Por el par de estados, estas secuencias fueron alineadas con BLASTN [23]. Para evitar que predijo incluidos los exones de los codones de parada, los codones de parada fueron eliminados de todas las secuencias de codificación de la formación, que en la práctica dio lugar a una probabilidad de emisión cero para los codones de parada. Por último, un estudio sobre la clasificación funcional versus conservadas de las secuencias no siempre alineaciones de las 63 regiones conservadas no funcional con una longitud total de 28959 nt en humanos y 28167 nt en ratón [35].

El análisis de las regiones objetivo ENCODE ( Http://www.ensembl.org/Homo_sapiens/encode.html ) Se basa en los 323 genes situados en esas regiones y anotada por Ensembl recíprocas como mejor hit orthologs en humanos y ratón (Ensembl v. 22; de junio de 2004). Nuestro análisis utiliza la estructura de genes Ensembl anotaciones de estos genes. Ortólogos intrones se determinaron por el acompañamiento concatenando 30 nt de los exones aguas arriba y aguas abajo y voladuras exón cruce de estas secuencias (EJSs) contra todos los demás EJSs de los genes ortólogos. La EJS pares si se mantiene la alineación extendido a través de la unión y se incluyeron secuencias de las dos aguas arriba y aguas abajo exones. EJS idénticas de pares procedentes de diferentes transcripciones de un mismo gen se consolidaron. Intrones no se consideraron si el intrón duración fue menor de 40 nt, o si por lo menos uno de los exones de acompañamiento fue inferior a 30 nt. Este análisis dio lugar en 1823 intrón pares, de los cuales 1776 eran de menos de 30 kb, en ambas especies, y con sujeción a nuestro análisis por UNCOVER.

Para el análisis de la retención intrón, que se centró en intrón pares en el que cada secuencia es más corta que nt 1000, y la diferencia de longitud no superior al 20% de la longitud de la secuencia más larga. La parte retenida junto con el acompañamiento exones constituye una gran exón, que está sujeta a las restricciones de longitud observada para los mamíferos exones. Esta es una razón por la que los pocos casos conocidos conservados de intrón retención en la participación de todos los mamíferos relativamente corto intrones de menos de 500 nt [19]. Además de las regiones objetivo ENCODE, se determinó ortólogos intrones en el completo de genomas humanos y de ratón como anotado por Ensembl. De los intrones ortólogos 84233, 25074 cumplen estas restricciones de longitud y se analizaron por UNCOVER.

PHMMs: estructura, la ejecución, y la formación.

HMMs proporcionar un enfoque probabilístico a un gran número de problemas en biología computacional, y se han aplicado con éxito a la diversidad de temas que van desde la búsqueda de genes de las proteínas de modelado de dominio [20]. Un discreto HMM contiene un conjunto de los estados que emiten símbolos de un alfabeto (en este caso, los cuatro nucleótidos) de acuerdo a una distribución de probabilidad. Los estados están conectados por transiciones, a la que se asignan probabilidades. El estado de tal HMM tiene asociada una probabilidad de observar cada uno de residuos, y las transiciones determinar la posible orden de los estados. Una serie de algoritmos de programación dinámica para la formación y la aplicación HMM son bien conocidas. La adelante algoritmo calcula la probabilidad de que un total de la secuencia puede ser generado por un modelo, y se puede aplicar a los problemas de clasificación, con varios HMMs en representación de diferentes clases. El algoritmo de Viterbi analizar el rendimiento de una secuencia con el más alto riesgo, por lo tanto, la asignación de los símbolos modelo a los estados que pueden representar las diferentes categorías funcionales como los exones e intrones. PHMMs son extensiones de HMMs, descrita inicialmente para llevar a cabo local o mundial alineaciones de las dos secuencias [20]. En general, los estados de la modelo ahora contienen distribuciones de probabilidad de una alineación de dos residuos, y el uso de diferentes estados, un pHMM se puede utilizar para modelar diferentes modelos de conservación. Por ejemplo, pHMM sistemas para identificar los genes codificantes de proteínas [36, 37] incluyen diferentes estados correspondientes a los pares de codificación y no alineados nucleótidos, así como sitios de empalme. El estándar HMM algoritmos se han generalizado y se describen con más detalle para pHMMs [22, 37] o, más en general, filogenética HMMs [30, 38]. Al aplicar el algoritmo de Viterbi pHMM, obtenemos la óptima de analizar la alineación en diferentes clases funcionales, junto con la alineación, sobre la base de la secuencia de los estados utilizan para generar la mejor alineación.

El pHMM estructuras de datos y algoritmos fueron implementados en C + + en Linux, con clases individuales para el modelo de estados y en el propio modelo. Una interfaz de línea de comandos permite una conveniente formación de los estados modelo, montaje de los estados en un modelo, y aplicando el modelo de alinear dos secuencias. Estados puede ser o único estándar HMM par de estados o estados asociados y tiene una salida de la distribución que puedan tener k-Markov para la dependencia de un pequeño valor de k. Todo el único par de la producción y la distribución en el exón omitido de forma independiente modelo estimado por máxima verosimilitud utilizando conjuntos de datos se ha descrito anteriormente. Pseudocounts se añadieron para evitar las probabilidades de cero para que no se los eventos, con excepción de la conserva plenamente U2 sitio de empalme dinucleotides y el codón posiciones (para excluir alineaciones con los codones de parada o sustituciones de codones de los aminoácidos con propiedades muy diferentes). El Markov orden de la distribución de la producción por lo general se establece en uno (es decir, las probabilidades de emisión se estaba supeditada a la anterior de nucleótidos), con la excepción de los estados codón, que fue el acondicionamiento de los dos nucleótidos. Como el modelo de topología incluye muchas linealmente conectados estados con una probabilidad de uno, muy pocos las probabilidades de transición tuvo que ser determinado. Estamos derivados de la brecha parámetros funcionales de codificación y no secuencias de las respectivas bases de datos, y ajustar manualmente el resto de parámetros.

Con N es el número de estados en el modelo, y L la longitud de una secuencia de entrada, el tiempo de ejecución de la complejidad par Viterbi algoritmo para calcular la alineación de las mejores a nivel mundial es de orden N 2 L 2. Así, muchas aplicaciones de pHMMs, como la genética comparativa en la búsqueda de los genomas de mamíferos, donde genes pueden extenderse a lo largo de cientos de kilobases o más, a menudo tenemos que confiar en precomputed aproximados alineaciones como entrada y el uso pHMM sólo para clasificar y, posiblemente, mejorar la alineación. Por el tamaño de la mayoría de los intrones, es prácticamente posible utilizar el pHMM para calcular el óptimo global alineación. Pairwise una óptima adaptación de las secuencias es generalmente determinada por rastreo a través de toda la matriz de programación dinámica. Esto requiere considerables recursos de memoria: el espacio de la complejidad es O (2) 1000-2000 pb cada una, la matriz de adelante no se puede almacenar en la actualidad ninguna norma de la memoria principal Más tiempo. Para este tipo de secuencia de pares, por lo tanto, pasaron a un "divide y vencerás versión dinámica de la programación conocida como la HIRSCHBERG algoritmo [39], lo que reduce la necesidad de memoria O (NL) a costa de duplicar el tiempo de ejecución: el algoritmo de Viterbi Se inicia dos veces en ambas direcciones desde el comienzo y el final de las secuencias, llenando la matriz de la alineación en los dos extremos hasta el centro de la columna. Durante este paso, la actualidad sólo computa las columnas anteriores y la necesidad de que se los mantenga, desechando las columnas calculadas anteriormente y, por tanto, la reducción de la memoria con eficacia la complejidad de una dimensión. La suma de las dos columnas centro contiene entonces la puntuación de la mejor alineación, y determina un estado de transición y par de símbolos en la mejor alineación. El algoritmo se aplica luego recursivamente a dos subproblems, la alineación desde el principio en la esquina superior izquierda del centro dividir punto, y desde el centro a punto de dividir la parte inferior derecha de la matriz, lo que reduce el tamaño del problema a la mitad en Cada uno de los pasos, lo que lleva a un total de duplicación en tiempo de ejecución.

Para aumentar la velocidad, que utiliza el logaritmo de la producción y las probabilidades de transición, escala de -100 y se redondean al entero más cercano al límite de todas las operaciones sobre las probabilidades de sumas de los enteros positivos. Esto también asegura que no sobre-o underflow de los números ocurrido. Además, en los resúmenes de Viterbi matriz no se tomaron más de todos los estados, pero sólo más de una lista de posibles predecesores (los positivos con las probabilidades de transición). Esta lista se generó a la carga del modelo, y ha proporcionado una considerable aceleración de la transición escasa matrices. Estamos alineados todos los 241 pares ortólogos intrón de la ACE conjunto con la pHMM, que van en tamaño hasta alrededor de 90000 cada nt. Por razones prácticas, que limita el análisis de la región a ENCODE pares en la que ambas secuencias son más pequeñas que nt 30000, dejando a un lado intrón 47 pares ya que eso.

El tracto polypyrimidine aguas arriba de los 3 'sitio de empalme a veces aparece como secuencia de baja complejidad, así como partes de las regiones de codificación de la proteína. Por lo tanto, sólo enmascarados elementos repetitivos y no de baja complejidad secuencias de ADN. Además, enmascarados secuencia fue desenmascarado en ambos extremos para el 30 de nt, para evitar que los elementos funcionales de ser enmascarado por vecinos repite. Secuencias repetitivas son enmascarados con cadenas de texto de la carta N, que se tratará como un unalignable carácter especial que sólo puede ser emitido por única (pero no en parejas) pHMM estados. Eso excluye la posibilidad de que cualquier secuencia de los segmentos conservados cruz enmascarados secuencia.

Experimental RT-PCR validación.

Primer pares fueron destinados a la exonic regiones de acompañamiento previsto omitido el exón (hasta 150 nt en cada lado). Se utilizó el software Primer3 ( Http://fokker.wi.mit.edu/primer3 ) Con los siguientes valores de los parámetros típicos: el asunto de longitud mínima, 18 nt, deseado, el 21 de nt, y la máxima, 24 nt; temperatura de fusión mínimo, 55 ° C, deseada, 58 ° C, y la máxima, 61 ° C; producto de la longitud, 150-250 nt, y de prefiltering potencialmente mispriming secuencias con la biblioteca de la humanidad siempre se repite. Una segunda ronda de los primers incluyó un primer puesto dentro de la ACE y predijo un primer ni en la de abajo-o el exón. Primer secuencias fueron ordenadas de Invitrogen (Carlsbad, California, Estados Unidos).

PCR se llevó a cabo con la Invitrogen Taq ADN polimerasa en un kit GeneAmp ABI 9700 (Applied Biosystems, Foster City, California, Estados Unidos), con 40 ciclos de separación (30 s a 94 ° C), recocido (30 s a 55 ° C), y la extensión (45 s a 72 ° C). Se utilizó BD Biosciences (San Jose, California, Estados Unidos) Grupo I Humanos MTC normalizado cDNA para ocho bibliotecas de tejidos humanos y células HeLa línea de cDNA. Para estos últimos, primer capítulo de síntesis del cDNA se llevó a cabo por incubando total de RNA, utilizando aislados reactivo TRIzol (Invitrogen), con un oligo (dT) cartilla a los 65 ° C durante 5 minutos para la desnaturalización y luego colocado en hielo para recocido. SuperScript III transcriptasa inversa (Invitrogen) se utiliza para la transcripción reversa. En primer lugar, la prueba de la presencia de la alternativa prevista empalmados en el exón cDNA cerebro y el hígado, ya que estos tejidos se informó que los niveles más altos de AS [32]. Si no se detecta o débiles, la prueba de expresión en los seis restantes tejidos del Comité de Transporte Marítimo de Grupo I (corazón, placenta, pulmón, músculo esquelético, riñones y páncreas) y en células HeLa.

Productos de PCR se separaron en geles de agarosa al 2% con bromuro de etidio completarse, el ADN fue visualizado bajo una luz ultravioleta, y las bandas fueron extirpados y extrajeron de la secuencia en un analizador de ADN ABI 3730 (Applied Biosystems), utilizando el QIAquick Gel Extraction Kit (Qiagen, Valencia , De California, Estados Unidos), según el protocolo del fabricante. Por la debilidad de las bandas, se realizó una segunda amplificación de PCR en el extraen bandas como se describe más arriba, para aumentar la cantidad de ADN a los niveles necesarios para el éxito de la secuenciación.

Apoyo a la Información

Damos las gracias a Dirk Holste y Gene Yeo útil para los debates y para proporcionar el conjunto de 241 omiten exones, y Rong Kong, Tung Vivian, Zefeng Wang, Aniket Schneider, y Grace Zheng de asistencia con la validación experimental. Esta labor cuenta con el apoyo de una donación de la Fundación Nacional de Ciencias de la broca y los Institutos Nacionales de Salud de subvención R03-LM08536-01.