Genome Biology, 2005; 6(8): R69-R69 (más artículos en esta revista)

Tandem repetir copia de la variación en el número de regiones codificantes de proteínas de los genes humanos

BioMed Central
Colm T O'Dushlaine (codushlaine@rcsi.ie) [1], Richard J Edwards (redwards@rcsi.ie) [1], Stephen D Park (spark@rcsi.ie) [1], Denis C Shields (dshields @ Rcsi.ie) [1]
[1] Bioinformática Core, Departamento de Farmacología Clínica y el Instituto de Ciencias Biopharmaceutical, Real Colegio de Cirujanos en Irlanda, 123 St Stephen's Green, Dublín 2, Irlanda

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0, que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original esté correctamente Citada.

Resumen

Tandem repetir polimorfismos en proteínas humanas se caracterizaron utilizando el conjunto de datos UniGene. Este análisis sugiere que 1 de cada 20 es probable que las proteínas contienen tándem repetir copia de varios polimorfismos dentro de la codificación de las regiones, que son prevalentes entre la proteína vinculante de las proteínas.

Antecedentes

ADN tándem se repite dos o más adyacentes aproximados y copias de una secuencia de nucleótidos. La presencia de repeticiones en tándem se ha asociado con una serie de enfermedades y condiciones fenotípicas. Por ejemplo, repetir polimorfismos en 5 'y 3' regiones se sabe que causan enfermedades como la enfermedad de Huntington [1] y de ciertas formas de síndrome de X frágil [2]. Otros tándem repetir polimorfismos en regiones no son conocidos para modificar la función a través de sus efectos en la regulación de genes [3, 4]. Estos polimorfismos pueden derivarse de eventos tales como la desigualdad de crossover, la replicación o deslizamiento de doble filamento romper reparación [5 - 7].

Polimorfismo de repeticiones en tándem de codificación de secuencias de proteínas que se conoce la modulación de los riesgos de enfermedades y pueden producir cambios en la proteína de los productos de los genes, dando lugar a enfermedades como la distrofia miotónica [8]. Un número de enfermedades causadas por repetir polimorfismo surgen de la expansión de trinucleótidos repetidos [9]. Otros polimorfismos repetir ya se han postulado para modificar el riesgo de enfermedades (por ejemplo, plaquetas glicoproteína Ib-α (GP1BA) repetir [10], el macabro repetir en la apolipoproteína (a) (LPA) [11], y P-selectina ligando (SELPLG ) Repetir [12]].

Si bien-polimorfismos de nucleótido único (SNP) son actualmente objeto de numerosas investigaciones, se repite en tándem puede exhibir un alto nivel de polimorfismo de longitud que se puede alterar la función de proteínas. Además, la comparativamente mayor mutabilidad de determinadas clases de repeticiones en tándem puede dar lugar a una diferente gama de efectos sobre la función, como ligeramente deletéreos variantes de origen reciente puede que no han tenido tiempo de ser eliminado. En estudios anteriores [13, 14] han predicho polimorfismo utilizando un umbral mínimo de la repetición de las unidades y un mínimo de los criterios de homogeneidad. El umbral se refiere al número mínimo de unidades que necesita para repetir un lugar que se anotó de probabilidades de contener polimorfismo, y la homogeneidad se refiere al porcentaje de nucleótidos dentro de una repetición que puede desviarse de la unidad básica repetitiva. Los criterios dependen de la longitud de la unidad de repetición y fueron extraídas de la literatura sobre los polimorfismos de repetición. Por ejemplo, para un bloque de dinucleotide repetir que se anotó como un probable polimorfismo, un número límite de ocho repetir unidades y un mínimo de 0,9 homogeneidad era necesario.

Este enfoque se utiliza para predecir 11265 potencialmente polimórficos tándem repite y condujo a la propuesta de que el 22% de UniGene [15] grupos contienen al menos un locus polimórfico potencialmente [14]. De ellos, un 8% se prevé que estará en la codificación de las regiones. Si polimórficos, estos loci podría causar mutaciones frameshift, que podría alterar significativamente el producto proteico. Sin embargo, estos estudios sólo analiza un único representante de cada secuencia UniGene cluster, y no investigó la variabilidad observada entre todas las secuencias dentro de la agrupación. Estudios adicionales predecir potencialmente polimórficos repite han centrado en minisatélite repite. Por ejemplo, Denoeud y colegas [16] estaban más interesados en altamente polimórficos minisatélites y sólo se utilizan definiciones estrictas de minisatélites (unidad de longitud superior a 17 nucleótidos, por ejemplo). Naslund y compañeros de trabajo [17] utilizó una regresión logística para predecir enfoque potencialmente polimórficos repite. Sin embargo, fueron específicamente interesados en minisatélites con un mínimo repetir unidad de longitud de seis nucleótidos, y no todo el espectro de longitudes de unidad de repetición. Denoeud Vergnaud y han llevado a cabo comparaciones de los genomas de las bacterias relacionadas a observar tándem repetir secuencia longitud diferencias [18]. Sin embargo, ese análisis no se ha llevado a cabo para detectar humanos repetir polimorfismo.

Se ha planteado la hipótesis de que un exceso de diversidad de repeticiones en tándem de codificación contribuye a la variación genética dentro de la Neisseria procariótico patógeno [19]. Las variaciones en el número de repeticiones en el colágeno en la región-como Bacillus anthracis correlacionado con la variación de la longitud de filamentos de esporas en la superficie y se han propuesto a afectar a las propiedades de las esporas en respuesta a los distintos ambientes [20]. De hecho, repetir mediada variación puede formar parte integrante de la capacidad de muchos agentes patógenos para adaptarse y seguir siendo adaptado a sus huéspedes y ambientes [21] y ha sido propuesto como una base molecular para la rápida adaptación de los procariotas y eucariotas, a los cambios ambientales [22]. En nuestras investigaciones tratan de encontrar pruebas de la existencia de esta en los seres humanos. Hemos propuesto que se repiten dentro de polimorfismo de las proteínas de defensa de acogida-en la población humana podría ser una ventaja, como ya se postula [14], y, por lo tanto, podríamos esperar niveles más altos de repetir tándem variación de la longitud de la secuencia de estos genes. Esas proteínas exposición rápida de las tasas de evolución de entre las comparaciones, en consonancia con los cambios positivos para la selección en respuesta a las presiones de selección de patógenos [23, 24].

Aquí mostramos una investigación sobre el aparente nivel de polimorfismo en el gen humano dentro de la base de datos UniGene, y examinar si tales polimorfismo es elevada en los países de acogida de los genes de defensa.

Resultados y discusión
Codificación de la proteína de repetir distribución

De los 106937 UniGene [15] secuencia de las agrupaciones, 14953 (14%) contenían la secuencia de codificación de anotación. De ellos, un total de 13749 (13%) había grupos de más de una secuencia de la superposición de una repetición de bloque, lo que permite una búsqueda de repetir tándem copia-número variantes.

Un total de 89243 tándem repite fueron detectados en las regiones de codificación de la proteína de la 13783 UniGene representante secuencias. El detectados fueron en su mayoría los que se repite con unidad de repetición de corta longitud de dos a seis nucleótidos (Figura 1a]. La distribución mostraron una clara elevación de las unidades de que se repita un múltiplo de tres, que está de acuerdo con resultados anteriores de codificación de la proteína que se repite región-cuya copia número variación pueda causar frameshift errores se producen con una menor frecuencia en la codificación de las regiones [25 - 27 ]. Hemos observado un mayor exceso de trimer se repite en relación con los dímeros y tetramers en este conjunto de datos que en un anterior análisis genómico de exonic secuencias [27]. Es probable que en gran medida reflejan la exclusión de los 5 'y 3' no traducidas regiones (UTRs) de nuestro conjunto de datos; intronic y regiones intergénicas en el análisis genómico tenido una incidencia aún mayor de los dímeros y tetramers comparación con trimers [27]. Así, aunque hay una aparente sesgo mutacional contra trimer repite en secuencias genómicas, en el marco de regiones codificantes de proteínas-que son las más frecuentes de la clase tándem repite. De los detectados repite el 82% fueron del 100% homogénea. Así, el 18% del conjunto de datos incluidos fueron inexactos repite, con una mayor proporción de inexacta repite entre las matrices compuestas de unidades ya repetir.

Rango de repetir tándem copia número variación -

Detectado variantes fueron seleccionados para asegurar que representa la variación de longitud derivados como copia de las diferencias en el número de ADN genómico, en lugar de la retención o intron splicing alternativo. Sólo las variaciones de longitud que corresponde a una diferencia de longitud que es un múltiplo de la unidad de repetición fueron seleccionados. Esto redujo el número de grupos con una variación de 4458 (16483 consulta / hit pares) a 623 (3111 sugerencias / hit pares). Para este conjunto, el tándem repite fueron detectados en la variante de secuencia y comprobado para garantizar que la copia-observó número está de acuerdo con la espera, dada la longitud del bloque afectado y la duración de la unidad de repetición, reduciendo aún más el conjunto de datos a 218 agrupaciones en las observaciones de la variación de longitud (753 sugerencias / hit pares).

En total, 249 única repetición de los bloques (que abarcan 218 grupos) mostró variación que es compatible con un cambio en el número de repetición de copia (Figura 1]. Hemos encontrado 295 variantes alélicas que diferían de la UniGene representante secuencia (archivo de datos adicional 1) y el 85,8% de estas variantes son un múltiplo de tres nucleótidos (253/295). Casi el 70% de las variaciones que son un múltiplo de los tres nucleótidos y repetir la unidad de longitud se plantea dentro de los bloques de trinucleótidos tándem repite (Figura 1]. Aunque algunos de los invariantes se repite imperfecto, todas las variantes se repite 100% homogénea (es decir, cada unidad de repetición es idéntica), y una gran proporción son de corta (48% de la variante se repita arrays menos de 20 nucleótidos de longitud). La media del porcentaje coinciden con los de gama repite con duración inferior a 20 nucleótidos fue 98,52%. La media del porcentaje coinciden con los de gama repite con longitud igual o superior a 20 nucleótidos fue 90,50%.

Figura 2 se muestra la duración diferencias observadas entre representante y otras secuencias. La mayoría de base ya se observaron diferencias en repite con una larga unidad de repetición. Asimismo, en la mayoría de los casos la mayoría de las diferencias para una repetición de una determinada longitud es igual a una copia de repetir que, tal como indica el tamaño de los círculos en la figura 2. Entre las unidades ya repetir, la variante alelos normalmente sólo se diferencian por una sola unidad de repetición (a lo largo de la diagonal). Variantes alélicas que difieren por un mayor número de unidades de repetición son vistos más a menudo entre los más cortos repite. El más largo de las unidades de repetir que se exhiben polimorfismo 18 (3 representantes), 30 (2), 45 (1), 48 (2) y 57 (2) de nucleótidos de longitud (Figura 2, véase también el archivo de datos adicional 1). De estos grandes variantes, los efectos de los receptores de dopamina D4 (DRD4) y SELPLG polimorfismo han sido bien investigados [28, 29], lo que indica probables efectos sobre la función y la enfermedad. El impacto clínico o funcional de las otras variantes aún no se han evaluado, sin embargo. Evidentemente, la toma de muestras UniGene enfoque es incompleta, y es probable que se repite más grandes en la variante humana de proteínas, por ejemplo, la conocida GP1BA polimorfismo, con un tamaño de la unidad de 39 nucleótidos, y la mucina 2 (MUC2) polimorfismo [ 10, 30]. Estas variantes no fueron identificados por este estudio, ya que los tamaños de cluster UniGene estos genes son demasiado bajos para detectar las variantes comunes [31]. Tres de los trimer repite exhiben diferencias sustanciales duración (39, 42 y 63 nucleótidos, Figura 2], que de nuevo son susceptibles de afectar a la función de proteínas. Estos fueron en los genes de la subunidad alfa 1A de la tensión dependen de los productos básicos, P / Q tipo de los canales de calcio (CACNA1A), la caja TATA de la proteína de unión (PDD) y la trasladaron a la región promotora oncogén activado MET (TPR) (adicional Archivo de datos 1). Aunque la mayoría de las variantes alélicas CACNA1A estaban en el 'normal' rango de variación, la más larga de 24 de alelo se repite en el rango de tamaño asociados con el bien estudiados trinucleótidos repetir expansión de la enfermedad ataxia espinocerebelosa 6 (SCA6) [32]. PDD para los ocho variantes alélicas se encontraban por debajo de la longitud asociada con una forma hereditaria de ataxia [33, 34]. TPR no se ha asociado con la expansión de repetición de trinucleótidos enfermedades. Una región de este oncogén, sin embargo, ha sido asociado con deleciones cromosómicas no aleatoria [35], y el papel de este polimorfismo en el cáncer puede ser de interés.

Como independiente para comprobar la integridad de nuestras observaciones, la base de datos del Genoma Humano Mutación (HGMD) [36] se preguntó con un conjunto de todos los símbolos oficiales HUGO gen. Un total de 18 figuran repetir la secuencia de codificación de polimorfismos. De éstos, ocho (o 44%) se detectaron en nuestro análisis - HD, ATXN1, ATXN2, AR, CACNA1A, PDD, SELPLG, y ATN1. Cuatro de los diez restantes carecen de la secuencia de codificación de anotación en el Hs.seq.uniq representante que excluyen el uso de la aplicación de este método. Uno de los seis restantes fue un polimórficos mononucleotide repetir - repite estos no se incluyeron en nuestro análisis. Otras dos genes contenidos crípticos GCN repite. Los tres últimos no tenían la variante hits en UniGene, ya sea por el tamaño pequeño grupo (13, 170, 56), la secuencia de error de reducir la cantidad de hits (dentro de la categoría de alineaciones), o la falta de suficiente cobertura de más de la secuencia de repetición región. Así, en total, siete variaciones se repita "perdidas", ya sea debido a la falta de UniGene secuencia de codificación de anotación (4) o como resultado de la agrupación tamaño / secuencia de las limitaciones de la calidad (3), y tres no se ajustan a los tipos de repeticiones Considerado en nuestro análisis. Por lo tanto, en relación con las variaciones repetir previamente asociados con la enfermedad y considerar en nuestro análisis, hemos detectado variaciones en el 53% (8 / 15) de los genes asociados.

Este análisis pone de relieve el hecho de que, mientras UniGene es un recurso útil para mirar el polimorfismo, tiene sus limitaciones, concretamente en relación con el tamaño de la muestra, la calidad y la secuencia de anotación. De los 218 grupos de genes con repetir variación, 34 tenían entradas en la HGMD, ocho de los cuales - HD, ATXN1, ATXN2, AR, CACNA1A, PDD, SELPLG, y ATN1 - había codificación de la región repiten los polimorfismos que se han detectado en nuestro análisis. Otro gen - VWF - fue anotada como una pequeña supresión que correspondió a uno de nuestros repetir variantes. Otro gen - TWIST1 - fue anotada como una pequeña supresión en el síndrome de Saethre Chotzen-fenotipo, que se detectó en nuestro análisis como de 12 nucleótidos indel por un período de tres nucleótidos repetir (GGC). Mientras que la variación observada en VWF puedan haber surgido de una repetición deslizamiento caso, la variante de TWIST1 es poco probable que lo han hecho. Además de estas variantes, tres genes - NUMBL, E2F4 y NOTCH4 - fueron anotados por herencia mendeliana en línea Man (MIM) [37] como expositoras trinucleótidos repetir variación. Así, el 13 de variantes detectadas en el análisis fueron previamente identificadas.

Frecuencia de la repetición de variantes

Dada la probabilidad de errores y sesgos de muestreo, no esperábamos frecuencias de repetición de variantes de población reflejan cierto frecuencias. Sin embargo, para repetir las variaciones conocidas de la literatura que también fueron detectados en nuestro análisis, en comparación heterozygosities por GDB consultar la base de datos [38]. Para un conjunto de cinco genes que se habían heterozigosidad información y existe en la base de datos GDB (HD, AR, PDD, ATN1, el Comité de Derechos Humanos), el GDB se heterozigosidad en general similares (valores de 0,8, 0,63, 0,81, 0,79 y 0,55, respectivamente) Estima que a partir de esta base de datos (archivo de datos adicionales 2).

Repita copia-número y alcance de la variación

Se comparó la media copia-el número de repeticiones en tándem entre grupos que tienen y los que repiten sin variantes y se encontró una diferencia significativa (Mann-Whitney, p <0,0001). Como era de esperar, la tendencia se repite para la variante de tener un mayor número de copia (Figura 3]. Esta observación [39], ha constituido la base de estudios previos repetir la predicción de variación [13, 14]. Esta diferencia en el número de copia para el trimer repite no sólo reflejan un cambio en la media del número de copia, que se produjo un importante superior de la cola en la distribución, lo que indica que la posibilidad de un trimer polimórficos que se aumenta a medida que el número de copias aumenta. En cambio, que no la tenía marcada de las variantes de cola relativamente alto número de copia-dímero repite (Figura 3]. Esta diferencia entre dímero y trimer variación podría representar una diferencia en los mecanismos mutacionales, o, en su defecto, los dímeros puede estar sujeta a la purificación de selección en contra de la ampliación, ya que la mayoría de las variantes de dímero puedan causar frameshifts.

Origen de variación

Curiosamente, la gran mayoría de dímero, tetramer y pentamer copia número de variantes dado lugar a una diferencia de longitud que no es divisible por tres (Figura 1b]. Dada la preferencia por la variación de repetir que es un múltiplo de tres nucleótidos, que se había anticipado que habría una mayor proporción de copiar el número de variantes que amplíen o contrato dímero y tetramer repite exactamente por tres copias (por ejemplo, esperábamos ver a un Mayor número de dímero tándem variantes que difieren en la longitud de seis nucleótidos). La observación de que esas variantes son muy raros (Figura 1b], a pesar de que no perturban el marco de lectura, apoya firmemente el modelo de mutación gradual microsatélite repite [40, 41], y sugiere que la inserción / deleción mutaciones de más de una unidad A la vez son muy inusuales. Es probable que el número de copia frameshifting variantes son principalmente los últimos mutaciones que son deletéreos selectiva, la reducción de las posibilidades de expansión gradual de la gama tándem variante en el tiempo, trimer podría repetir variantes suelen ser mucho mayores. Así, la mayoría de copiar el número de mutaciones en tándem con arreglos de corto tamaño de la unidad es probable que surjan por deslizamiento [42], lo cual ocurre más a menudo se repite en homogéneo [43, 44]. En consonancia con esto, la mayoría de las variantes observadas de estas repeticiones se diferencian por una sola unidad.

En cambio, para algunos de los más grandes tándem repite (tamaño de la unidad de 12 y más) la observaron variantes, en algunos casos, difieren en más de una copia, no con el muestreo de un alelo intermedio (Figura 2]. Esas variantes ya repetir pueda derivarse a través de la recombinación, en lugar de mecanismos de deslizamiento, dando la posibilidad de que la ganancia o pérdida de más de una unidad a la vez. También cabe mencionar que el uso de UniGene para detectar la variación se opone a la capacidad de determinar si existe variación en el ADN o nivel transcripcional. Nuestra exigencia de que las variaciones observadas duración tenían que ser compatibles con un cambio en el número de repetir copia minimizado la probabilidad de detectar la variación resultante de una alternativa sitio de empalme que surgen dentro de un bloque de repetir. Esto, sin embargo, no descarta la inclusión de otros empalmes los sitios de empalme en que podría coincidir con los límites de las unidades de repetición en tándem. Inspección del intrón / exón estructura de los genes en nuestros resultados utilizando EnsEMBL [45] no reveló esos ejemplos (datos no presentados).

Frameshifting copia número variación -

Este conjunto de datos es probable que se subestime la frecuencia de las variantes frameshifting repetir, ya que un gran número de tonterías frameshifts estimular mediada por RNA decadencia, sesgar en contra de sus posibilidades de ser detectados en UniGene. Mensajes desempeño codones de parada de más de 50 nucleótidos río arriba de un intrón son típicamente sujetas a una rápida decadencia ARNm [46]. En segundo lugar, una tontería polimorfismos normalmente se producen con una frecuencia baja en proteínas humanas [47], lo que refleja la selección contra alelos deletéreos, y es posible que frameshifting tándem copia número de variantes podrán ser en una menor frecuencia. Dado el pequeño tamaño de la muestra para muchos de los UniGene grupos, la incidencia de frameshifting polimorfismos es probablemente fuertemente subrepresentadas.

Algunas de las variantes observadas no sea cierto frameshifts, sin embargo, ya sea debido a errores en la secuencia de codificación de anotación, la secuencia de errores, errores de transcripción o pseudogenes transcritas en la base de datos. Si bien no podemos definitivamente estos norma, la validación de repetir variantes para asegurarse de que representan un cambio en el número de repetir copia reduciría posibilidad de que algunos de estos errores se derivan. No obstante, por las dos razones expuestas, creemos que la observación de un polimorfismo de repetición frameshifting tándem por 404 (34 de cada 13749) de proteínas encuestados (0,25%) que representa un límite inferior de la frecuencia. Wren et al. [14] predijo que el 0,5% de las proteínas es probable que contienen frameshifting polimorfismos tándem repetir.

Es por supuesto posible que frameshifting tándem repite la secuencia puede surgir de los errores, los errores de transcripción o pseudogen transcripciones. Se examinaron los 34 que contiene las secuencias de frameshifting dinucleotide variantes, y encontró que, en todas menos una secuencia, el porcentaje de bases que son ambiguas (señalados con base 'N') fue menos del 1% (el de las demás fue del 4%). También se realizaron búsquedas en los 51 frameshifting secuencias y el representante alelo contra el genoma humano, y en cada caso los dos alelos del mismo orden, es decir, no había pruebas de la existencia de un pseudogen con una mayor similitud a la frameshifted alelo.

No podemos descartar la posibilidad de ocasionales transcripcional deslizamiento dando lugar a una pequeña proporción de la variación observada: experimental pantalla para tales errores transcripcional su frecuencia estimada en alrededor de 1 en 5000 en las transcripciones dinucleotide tándem repite [48]: en nuestra encuesta de 5304 Secuencias que contienen dinucleotide repite 8449, hemos observado una incidencia de 36 frameshifting dinucleotide mutaciones, en comparación con una expectativa de menos de dos, derivados de errores transcripcional. En segundo lugar, dos de los tetramer frameshifting repite, y cuatro de los dímero repite, se observó en más de una secuencia, que es una fuerte indicación de un ADN, en lugar de un transcripcional, la diferencia. Ninguna de las variantes detectadas participan completa supresión de la repetición, con el menor número de copia en la que se variante 1.8 (véase el archivo de datos adicional 1).

Asociación de copia de la variación y el número de acogida de las funciones de defensa

Mientras trabajos anteriores han demostrado claramente ontológico de las tendencias que se repite exposición variación, se limita a ciertas clases de repeticiones [49]. Hemos probado si existe un exceso de repetir tándem polimórficos variación en la defensa de acogida de las proteínas mediante la comparación de la frecuencia de los genes polimórficos entre los clasificados como relacionado con 'respuesta de defensa "(GO: 0006952) [50] o no. Hubo 484 UniGene mapeado en el que las agrupaciones de defensa de las proteínas y la respuesta de 8129 las agrupaciones que no lo hicieron. La variación media fue ligeramente mayor en la defensa de la categoría, pero esta respuesta no fue significativa (p = 0,982, Chi-cuadrado) (Tabla 1].

La capacidad de detectar repetir variación dentro de un grupo determinado depende en parte tanto el número de secuencias en las que hemos detectado tándem repite, y el número de bloques de repetir en la secuencia. Estos son altamente correlacionado con el número de secuencias de la agrupación y la secuencia de longitud, respectivamente (datos no presentados). Es posible que estas dos variables - la categoría de tamaño y longitud de la secuencia - podrían estar relacionados con grupos de proteínas con ciertas funciones. Además, el tamaño de cluster puede ser afectada por el sesgo de verificación de ciertos genes muy bien expresado en la muestra de tejidos, y puede haber un sesgo hacia la comprobación variante secuencias que se han seleccionado para la secuenciación de preferencia. Por lo tanto, se realizó un análisis de regresión logística donde la variable dependiente categórica descrita o no el grupo que figura repetir una variante de población, y esta prueba categórica en contra de la 'respuesta de defensa' variable (si la descripción de la agrupación vinculada a la GO plazo). Se consideraron como covariables el número de secuencias dentro de cada grupo, así como la longitud de la proteína. Se encontró que la variación no se depende de la respuesta de defensa de la clasificación cuando tanto el número de secuencias y de la longitud de la proteína se consideraron como covariables (p = 0,882) (Tabla 1].

Por lo tanto, no hay pruebas de que los humanos de las proteínas de defensa de acogida-tienen un exceso de repetir tándem variación. Es posible que el gran tamaño de los genes humanos y sus promotores innata variabilidad (en el SNP, el tándem se repite, indeles y otros polimorfismos) ofrece amplias oportunidades de patógenos en respuesta a los desafíos de una rápida selección de las variantes de la modulación de la función de genes. Es posible, por tanto, no ser fuerte a largo plazo la presión de selección para desarrollar una innata reserva de posibles variaciones en las secuencias de la proteína. Anticipamos que puede ser más probable que ese tándem ventajosa repetir polimorfismos se producirán en los países de acogida de las proteínas de defensa de los organismos que la falta de adaptación del sistema inmunológico y tienen mucho más amplio de tamaños de la población.

Asociación de repetir tándem copia-número y la variación genética de Ontología (GO) términos

Estamos investigando si la aparición de la copia de varios polimorfismos se asoció con ningún otro GO términos. De las 362 nivel-4 en términos GO [50], 167 lo que podría vincularse a nuestra base de datos y tenían por lo menos un grupo con vínculos a la expresión. Hemos probado o no variación se asoció significativamente con ninguno de estos términos utilizando una prueba exacta de Fisher. Este encontrados 13 términos son significativos, de los cuales sólo el término 'proteína vinculante "(GO: 0005515) sigue siendo importante después de la corrección de Bonferroni para múltiples pruebas. Una vez más, hemos querido garantizar que el cluster UniGene tamaño y longitud de la secuencia no fueron las asociaciones de confusión entre la variabilidad y GO. Por lo tanto, hemos realizado la regresión logística se ha descrito anteriormente, de los cuales 67 de los 167 términos tenían un tamaño de muestra suficientemente grande para ser probado. Doce de estos términos son importantes, una de las cuales sigue siendo significativa después de la corrección de múltiples ensayos. Una vez más, este término es' unión a proteínas ". Para asegurarse de que la observada importancia no se puede atribuir en gran medida a las diferencias en el número de copia repetir entre las variantes y no variantes (Figura 3] hemos realizado la regresión logística con la media repetir copia de número por el grupo como una covariable. El significado sigue siendo el mismo en virtud de este modelo (p <0,00001).

Longitud cambios en repite que participan en las interacciones proteína-proteína puede afectar a la evolución de las vías de señalización celular [51]. Este proceso puede verse facilitado por la ausencia de limitación en el selectivo repetir si no hay efectos negativos sobre el fenotipo. Una elevación de la variabilidad de secuencias a nivel de la población en estas proteínas también es coherente con la falta de limitación a la evolución de proteínas regiones. Trabajos anteriores ha demostrado que para poliglutaminas repite entre humanos y de ratón, existe una asociación entre la nueva y se repite una alta tasa de divergencia nonsynonymous secuencia, correspondientes a las regiones de baja purificador de selección [52]. Otras investigaciones de las clases de que se repite en los diferentes grupos polimórficas de los genes es de interés [53], pero los tamaños de las muestras son demasiado limitados para establecer inferencias.

Hemos investigado con más detalle los 45 grupos vinculados a la variante 'proteína vinculante ". Investigación de la hija GO términos no reveló ninguna asociación con cualquier llamativo subcategoría (datos no presentados). Un número de grupos que corresponden a esta categoría han sido previamente descritas de estar asociados con la enfermedad, en particular la expansión de repetición de trinucleótidos enfermedades [54, 55]. La existencia de repeticiones en el ADN y las proteínas-proteínas que unen se ha relacionado con sus funciones [56 - 60]. La cuestión es si los polimorfismos en estos repite probablemente haya de producir un impacto funcional. Existen dos modelos que pueden explicar el mayor nivel de polimorfismo. Una de ellas es que estas proteínas suelen estar en condiciones de baja restricción selectiva, en las regiones repetitivas como proteínas y ADN-proteínas que unen a menudo son sustancialmente estructuralmente desordenado [60] y la expansión es poco probable que la proteína desestabilizar general de plegado. En apoyo de esta observación es la de que surjan nuevos repite en las regiones de las proteínas que están sujetos a menor de la media de los niveles de purificador de selección [52]. El segundo modelo es que esos polimorfismos son promovidas por equilibrar selección o de selección reciente de adaptación para el cambio. En el perro, se ha encontrado evidencia de repetir la conservación de mamíferos a través de las órdenes a pesar de los altos índices de mutación, lo que sugiere la estabilización de fuerte selección que actúen en estos loci. Además, se ha constatado que las diferencias morfológicas entre razas de perros en correlación con las variaciones en el número de repetición [61]. Así, en la fuerte presencia de la selección, la importante repetir polimorfismo pueden surgir.

Incidencia global de polimorfismo de repetición en tándem

Observamos que nuestra estimación de polimorfismo fue mayor cuando sólo los grupos con un mayor tamaño de la muestra se utilizaron (por ejemplo, 3,06% entre 3331 tándem se repite para los que el tamaño de cluster UniGene fue al menos 200 secuencias), lo que indica que nuestra estimación global es menor Estimación de la verdadera frecuencia. Wren et al. [14] predijo que alrededor de 92% de proteínas polimórficas repite en la codificación de las regiones-sería un múltiplo de tres nucleótidos, que es concordante con la observación de verse en la Figura 1b. Ellos confirmaron experimentalmente el 40% (17/42) de sus proteínas polimórficas predijo-se repite dentro de la codificación de una muestra de al menos 60 cromosomas. De los 249 polimorfismos únicos repetir detectado en nuestro análisis, el 56% están por debajo del umbral mínimo utilizados por Wren et al. Para predecir el polimorfismo. Así pues, si bien el método de Wren et al. Es un algoritmo de predicción útil, que no logra predecir muchos observaron polimorfismos en el más breve tándem arrays. Polimorfismo predice refleja las consecuencias de la mutación, mientras que el polimorfismo real refleja la combinación de mutación y posterior selección de las presiones, y, por tanto, los dos enfoques pueden conducir a conclusiones diferentes.

No es de extrañar que un punto de vista puramente computacional de predicción tendrá falsos negativos, ya que deben proteger contra el problema de la predicción de demasiados falsos positivos. Se hacen las siguientes hipótesis: en primer lugar, el Wren et al. Método de predicción sólo ofrece cobertura de 44% (error estándar 0,03) de los polimorfismos tándem repetir, teniendo en cuenta que el 56% de nuestras variantes fueron por debajo de los umbrales de polimorfismo de predicción, en segundo lugar, sólo el 40% (error estándar 0,08) de predecir repite en realidad son polimórficos; En tercer lugar, hay un computacionalmente predijo polimórficos tándem repetir por 23000 nucleótidos de la proteína codificante del ADN [14], y en cuarto lugar, la duración media de la proteína ADN codificante es 1666 nucleótidos (basado en el conjunto de datos analizados aquí UniGene). Esto implica entonces una estimación revisada de las estimaciones de polimórficos tándem repetir copia de la variación a la número 1 en 25000 nucleótidos (con un intervalo de confianza del 95% de los 17911-43066) [62], y que la media de frecuencia de las repeticiones en tándem polimórficos proteínas humanas es de 6 %. La existencia de anotación y experimental de este error puede sesgo al alza, mientras que la existencia de absurdo mediada por RNA decadencia Mayo sesgo en la estimación baja.

Dado que el 14,24% (42/295) de los polimorfismos no son un múltiplo de tres nucleótidos, y hasta el 1% de las proteínas puede contener frameshifting polimorfismos tándem repetir. Es probable que un número mucho mayor de los genes contienen menos frecuentes frameshifting copia número de variantes de un 1% por debajo de la frecuencia umbral utilizados para definir los polimorfismos [63].

Nuestro análisis confirma que el tándem repetir variación es una importante fuente de variación en muchas proteínas. Gran parte de esta variación es de potencial importancia para la función de proteínas y la enfermedad. Una más completa evaluación de la frecuencia de la secuencia de codificación de repetir tándem polimorfismo será posible una vez que el resequencing humanos de los exones de un grupo de personas esté disponible. Esto permitirá un planteamiento imparcial evaluación de la medida de común frameshifting tándem repetir variantes. Sin embargo, la caracterización de la frecuencia de los más raros frameshifting tándem repite requerirá más grandes que el tamaño de las muestras típicas actual resequencing proyectos, ya que muchos se repite con grandes efectos biológicos, como frameshifts, es probable que se produzcan en baja frecuencia. Así, extensas resequencing o genotipado a través de grandes cohortes de individuos será necesaria con el fin de definir su verdadera incidencia y proporcionar una imagen más clara de la balanza de mutaciones y selección de las presiones que actúan sobre la generación, la fijación y la eliminación de la copia-tándem repetir varias variantes De los genes humanos.

Materiales y métodos
Detección de repeticiones en tándem

Dos archivos, Hs.seq.uniq y Hs.seq.all, a partir de la base de datos UniGene [15] construir 172 fueron descargados. Hs.seq.uniq se utilizó como modelo para repetir tándem detección y constó de una secuencia UniGene por el grupo que contenía el más largo de la región de alta calidad secuencia de datos. Hs.seq.all consistía en un conjunto redundante de las secuencias de genes orientada - es decir, múltiples secuencias pueden corresponder a la misma agrupación de identificación de genes. Tandem repite detectado en Hs.seq.uniq se definieron como las consultas. Tandem repetir Hs.seq.all bloques detectados en la utilización de las consultas se define como el de visitas.

Para asegurarse de que no hay sesgo significativos derivados de las etiquetas de secuencias expresadas (EST), de origen canceroso, eliminamos estas secuencias de nuestros resultados mediante el uso de la TissueInfo [64] EST clasificación de las bibliotecas (diciembre de 2002).

Tandem repite patrones son a menudo complejos y se constató que se repite a menudo son más pequeños detectados como sub-patrones en la utilización de un menor puntaje mínimo para reportar un repetir. Esto ocurrió el 69-para repetir en nucleótidos MUC2 por ejemplo, donde la unidad de repetición como se detectó una serie de seis y tres unidades de nucleótidos repetir. Como queríamos detectar el mayor número de repeticiones posible manteniendo repetir patrones que fuese correcta, decidió mantener bajo detectado repite todos los valores de los parámetros por defecto y luego para buscar repite utilizando parámetros más sensibles. Sólo repite detectadas en la última búsqueda que no se superponen con los de la ex fueron incluidos.

Tandem repite se detectó por primera vez en Hs.seq.uniq Tandem Repite usando el Finder (TRF), la versión del programa, 3,21 [65] con los parámetros por defecto para repetir la detección. Un minscore de 12 en lugar de 50 se utilizó la segunda vez, lo que corresponde a un mínimo de tres copias de un 2-nucleótidos repetir como ejemplo. La TRF de detección de corte de 12 fue elegido deliberadamente a ser baja: este fue motivado por el deseo de determinar el nivel de variación de repetir en todos se repite, con independencia de su origen mutacional. Así, se repite de la investigación que hemos realizado, el 98% (87787/89243) tuvieron resultados por debajo de la puntuación por defecto TRF de 50. De las variantes detectadas, el 67% (167/249) tenían una puntuación inferior a 50 TRF. Por lo tanto, las búsquedas de la variante tándem repite necesidad de considerar de bajo número de copias se repite, así como los de alto número de copia que se repite más probable que sea la variante. Para más corto arrays que se informó por TRF, que tendrá que ser 100% homogéneo que se detecta. Evidentemente, puede haber otras inserciones o deleciones entre arrays corto inexacta repetir que no hemos detectado. 25 carecen de las secuencias de nucleótidos de la secuencia de acompañamiento a ambos lados de la detectados tándem repetir bloque se omitieron en un análisis más detallado.

Hemos restringido nuestro análisis de la variabilidad entre las proteínas de repetir secuencias de codificación. Las definiciones de secuencia de codificación (CDS) iniciar y detener puntos fueron tomados de la cabecera de la secuencia Hs.seq.uniq secuencias en UniGene. CDS secuencias que carecen de la información y la repetición de las secuencias tándem que no reside exclusivamente dentro de la codificación de las regiones no se incluyeron. Mononucleotide repite tándem se excluyeron del análisis, hemos considerado como la probabilidad de detectar errores de secuencia demasiado grande [66].

Detección de variación repetir tándem

Similitud de los tándem repetir dentro de la región Hs.seq.uniq representante de la misma región en el marco de otros secuencias dentro del grupo se evaluó mediante el cotejo de las correspondientes secuencias utilizando sus flancos de 25 nucleótidos. Longitud se detectaron diferencias al comparar la longitud de la representante tándem repetir bloque a la de las otras secuencias en la agrupación.

Detectado por lo tanto, repetir bloques tienen las siguientes propiedades: a 25-secuencia de nucleótidos de acompañamiento de ambas partes (que se utiliza para alinear repetir bloques de diferentes secuencias de la agrupación), y que pertenecen a un grupo que contenga más de una secuencia de la superposición de repetir la secuencia en tándem Y su bloque de 25 nucleótidos flancos.

Detectado variantes fueron seleccionados para asegurar que representa la variación de longitud derivados como copia de las diferencias en el número de ADN genómico en lugar de la retención o intron splicing alternativo: Sólo las variaciones de longitud que corresponde a una diferencia de longitud que es un múltiplo de la unidad de repetición fueron seleccionados. Para este conjunto, el tándem repite fueron detectados en la variante de secuencia y comprobado para garantizar que el observado copia-de acuerdo con el número esperado, dada la longitud del bloque afectado y la duración de la unidad de repetición.

Se calculó la diversidad de genes (o heterozigosidad)

Donde Pi es la frecuencia de la on on de longitud k repetir en un lugar ([67] y el archivo de datos adicionales véase 2).

Gene Ontología de datos (GO)

Para probar la hipótesis de que el número de genes con el tándem repetir variación es elevada en los genes implicados en los procesos relacionados con la defensa, el término "respuesta de defensa" (GO: 0006952) fue seleccionado de GO. UniGene Humanos GO grupos vinculados a los términos y sus jerarquías fueron obtenidos por la vinculación de ambos LocusLink a UniGene y GO y también por la vinculación de UniGene EMBL y luego a la vinculación, a través de la EMBL adhesiones, y de ahí a UniProt a GO. Enlaces posteriormente se completará mediante la adición de enlaces a todos los padres de cada uno de los términos GO GO plazo utilizando el GO_GRAPH_PATH y GO_TERM tablas de la base de datos de ontología de genes (de fecha 1 º de julio de 2004). Al hacer referencias a nuestro GO plazo de intereses con el archivo a vincular GO UniGene, hemos sido capaces de asignar una clasificación binaria (sí / no relacionados con nuestra GO expresión de interés) a cada UniGene cluster. Esto nos permitió evaluar estadísticamente las diferencias en los niveles de variación entre genes relacionados y no relacionados con la respuesta de defensa. Términos significativos fueron corregidos para múltiples pruebas usando el método de Bonferroni. El análisis estadístico se llevó a cabo en STATA 8.

Adicional de los archivos de datos

Los siguientes datos adicionales está disponible con la versión en línea de este documento. Adicional 1 archivo de datos es una tabla con los 295 repetir variantes (que abarca 218 agrupaciones UniGene) detectado en nuestro análisis, con información sobre las repeticiones y una descripción de la secuencia grupo representante. Adicional archivo de datos 2 contiene longitudes de bloque se repite agrupados en 249 loci única repetir. Para cada locus, la heterozigosidad del alelo frecuencias de repetición de longitud se ha calculado. Adicional archivo de datos 3 contiene los datos utilizados para la Figura 3. Condes de la variante y repite invariante de diferentes longitudes y unidad de copia de los números se tabulan.

Material suplementario
Adicional 1 archivo de datos
295 repetir variantes (que abarca 218 agrupaciones UniGene) detectado en nuestro análisis, con información sobre las repeticiones y una descripción de la secuencia grupo representante.
Adicional archivo de datos 2
Bloque de longitudes de repeticiones agrupadas en 249 loci única repetir. Para cada locus, la heterozigosidad del alelo frecuencias de repetición de longitud se ha calculado.
Datos adicionales archivo 3
Los datos utilizados para la figura
3
Condes de la variante y repite invariante de diferentes longitudes y unidad de copia de los números se tabulan.
Agradecimientos

Damos las gracias a Philip Cotter y Kate Johnston para comentarios y sugerencias durante la preparación de este manuscrito, y Patrick Dicker de asesoramiento sobre pruebas estadísticas utilizadas. El trabajo fue apoyado por la Autoridad de Educación Superior de Irlanda.