PLoS Genetics, 2005; 1(3): (más artículos en esta revista)

Selección positiva de un pre-Expansión CAG Repita Humanos de la SCA2 Gene

Fuli Yu [1], Pardis Sabeti C [2], Paul Hardenbol [3], Qing Fu [1], Ben Fry [2], Xiuhua Lu [1], Sy Ghose [1], Richard Vega [1], Ag Pérez [1], Shiran Pasternak [1], Suzanne M Leal [1], Thomas Willis D [3], David L [1] Nelson, John Belmont [1], A Richard Gibbs [1]
[1] Centro de Secuenciación del Genoma Humano, Baylor College of Medicine, Houston, Texas, Estados Unidos de América
[2] Instituto Broad del Instituto de Tecnología de Massachusetts, y la Universidad de Harvard, Cambridge, Massachusetts, Estados Unidos de América
[3] ParAllele Bioscience, South San Francisco, California, Estados Unidos de América
Resumen

Una región de aproximadamente una megabase de cromosomas humanos 12 muestra amplia vinculación desequilibrio en los residentes de Utah con ascendencia del norte y occidente de Europa. Esta vinculación sorprendentemente grande desequilibrio bloque se analizaron con estadística y de los métodos experimentales para determinar si la selección natural podría estar implicado en la configuración de la actual estructura del genoma. Haplotipo Homozygosity ampliada y ampliada relativa Haplotipo Homozygosity análisis sobre esta región asignada un núcleo más fuerte de la región conservada de haplotipos para el exón 1 de la Espinocerebelosas gen ataxia tipo 2 (SCA2). Direct secuenciación del ADN de esta región del gen SCA2 reveló una asociación significativa entre un pre-expandido alelo [(CAG) 8 CAA (CAG) 4 CAA (CAG) 8] de la CAG repite en el exón 1 y el seleccionado de haplotipos de los genes SCA2 . Un Tajima significativamente negativo del valor D (-2,20, p <0,01) en este sitio sugirió constantemente en la selección CAG repetir. Esta región también fue investigado en las otras tres poblaciones, ninguno de los cuales presentaba señales de selección. Estos resultados sugieren que una reciente positivo de la selección antes de la ampliación SCA2 CAG repetir se ha producido en los residentes de Utah con ascendencia europea.

Introducción

La Internacional Haplotipo Mapping Project (HapMap) [1, 2] ha generado un gran conjunto de los genomas humanos espaciados variación de datos de las muestras de cuatro diferentes poblaciones [Utah residentes con ancestros del norte y el oeste de Europa (CEU); chinos han en Beijing, China (CHB); japonés en Tokio, Japón (JPT), y yoruba en Ibadan, Nigera (YRI)]. El marcador de distribución en la escala cromosómicas permite la identificación de las regiones que representan locus específicos de desviaciones de la estadística global de los patrones de genómica. Cuando los efectos de las técnicas de muestreo o factores son considerados adecuadamente, entonces las regiones de interés biológico se revelan. Con el genoma de toda densa marcador conjunto, los efectos de determinar el sesgo de selección en el marcador se reducen al mínimo, y otras fuerzas motrices (por ejemplo, la deriva, el crecimiento demográfico, la migración, y no el apareamiento al azar) están controlados, porque actúan a todos los lugares a través de todo el En un genoma similar y previsible de moda [3 - 5]. En este estudio, hemos demostrado los efectos de la selección de una región en torno a un único alelo. En primer lugar, observamos una región de extensa vinculación desequilibrio (LD), que contiene múltiples polimorfismos de nucleótido único (SNP) que sugiere una región que presente su candidatura para la selección natural de cromosomas 12 en el CEU. Seguidamente, se aplica más riguroso ampliada Haplotipo Homozygosity análisis (EHH) [6] para medir alélicas específicas de LD en la región de interés, y para identificar los genes y alelos seleccionados. Con el fin de controlar la tasa de recombinación a través de la variación del genoma, la relativa EHH (REHH) Se aplicó la prueba, en la que los diferentes alelos en la misma región sirven como controles internos para normalizar la recombinación variación de la cotización.

Un alelo se identificó el plazo de un haplotipo particular, que abarca el exón 1 de la ataxia espinocerebelosa tipo 2 (SCA2) de genes. La expansión de trinucleótidos repetir en este exón causas ataxia espinocerebelosa [7], un trastorno neurodegenerativo normalmente con graves olivo-ponto-cerebelosa atrofia [8, 9], que afecta a la normal sensorial / motor control de las funciones. Estudios anteriores de la distribución de frecuencia de trillizos alelo había demostrado que era inusual SCA2, en el que el alelo antes de la ampliación representan más del 90% de la muestra cromosomas [10], mientras que el polimorfismo mucho más altos índices de trillizos son comúnmente visto en otros genes que subyacen neurodegenerativas Enfermedades [11]. Nuestros resultados proporcionan pruebas de que la selección positiva ha favorecido esta expansión antes de la repetición de CAG en el gen SCA2 humanos, y que es responsable de su predominio en general en el CEU antes de la enfermedad de las versiones del gen.

Resultados
Identificación de una región seleccionada positivamente en el cromosoma 12 humano

Se realiza en gran escala de genotipos de cromosomas humanos 12 Inversion Molecular Probe usando tecnología [12, 13]. En las cuatro poblaciones, en promedio 47452 SNP marcadores fueron éxito genotipo y depositados en la base de datos de HapMap con la totalidad, la repetibilidad y precisión trío de 98,9%, 99,4% y 99,5%, respectivamente. Entre estos SNPs, ~ 70% de los marcadores tienen una menor frecuencia de los alelos (MAF) superior a 0,05 en por lo menos una población. El marcador en la densidad media es de un SNP por ~ 2,8 kb, que es suficiente para que la comprensión detallada de la estructura de haplotipos del genoma humano.

Uno de los efectos de una reciente selectivo de barrido es una gran manera significativa con intervalo de fuerte LD todo el sitio seleccionado [5, 14, 15]. Se utilizó este efecto como un criterio de selección para detectar a través de todo el cromosomas 12. Con el fin de identificar la gran región con un aumento de LD, en primer lugar, los bloques de haplotipos construidos usando la LD-bloque de la base empírica definición propuesta por Gabriel et al. [16]. El tamaño de los bloques de haplotipos de distribución de cromosomas 12 en el CEU tiene un tamaño medio de 26 kb, la desviación estándar de 43 kb, y la mediana de tamaño de 13 kb (Figura 1]. El mayor bloque abarca 987 kb sin embargo, y tiene 138 marcadores con MAF> 0,05. Esta es una de las demás llamativo en la distribución de tamaño de los bloques. Todos los marcadores estudiados en este bloque son muy fuertes en LD unos con otros, así como con los marcadores en dos bloques adyacentes centroméricas (Figura 2 A), con promedios de pareja | D '| y r 2 de 0,91 y 0,51, respectivamente , Que junto ampliar el importe total de la región (110230654-111393524) en el alto de LD ~ 1,2 Mb. Hay 168 SNP marcadores con MAF> 0,05 en este intervalo. Los haplotipos comunes (> 1%, más de 2 cromosomas observada) que se infiere utilizando Haploview [17] en el gran bloque representan el 75% de todos los haplotipos, con la más común presente en el 30% (Figura 2 A).

La LD global de los patrones de esta región en otros tres conjuntos de datos de HapMap (CHB, JPT, y YRI) resultaron ser similar, pero a escala fina, a diferentes CEU (Figuras 2 B, 2 C, y 2 D). En concreto, no hay más bloques que son más cortos en longitud, y la mide por LD | D '| y r 2 es más débil en la no-CEU muestras (Tabla 1], lo que refleja la existencia de espera más haplotipo bloque de interrupción y recombinación acontecimientos históricos En CHB, JPT, y YRI en este intervalo. Esto implica que el haplotipo estructuras subyacentes o fuerzas de la evolución en esta región son diferentes en el CEU, en comparación con las otras tres poblaciones.

Una posible explicación de este patrón LD fuerte fue la presencia de una gran inversión de frecuentes cromosómicas específicas a CEU, como una estructura similar con un haplotipo 900 kb invertido en 17q21.31 se ha encontrado en 20% de los europeos [18]. Hemos eliminado esta posibilidad en 12 cromosomas mediante PCR con cebadores que abarcó las regiones de frontera bloque LD (111393230-111397947 y 111428321-111437985), con posible rotura del CEU en 30 tríos (padre-madre-hijo combinaciones, Mesa de S1]. Hemos sido capaces de predecir las regiones con el potencial de interrupción debido a la nitidez de las fronteras LD bloque. Dado que tanto la totalidad de ~ 4 kb y el ~ 10 kb regiones se investigaron con baldosas primer pares que se han diseñado para ampliar las secuencias genómicas de referencia, al menos una reacción de PCR no se amplificar cualquier fragmento en un gran número de las muestras si un CEU Inversión de corte existen dentro de esta región,. Por el contrario, la espera sería fragmento amplificado en el CEU otras muestras sin la hipotética inversión. La amplificación resultados revelaron a la norma, pero no la inversión de fragmentos de interrupción (datos no publicados).

Aplicación de EHH y EHH Los análisis relativos a la causal Mapa Locus

Seguidamente, trató de determinar cuál de los múltiples genes dentro de esta región de 1,2 Mb (Tabla S2], y sus alelos seleccionados positivamente, podría ser el responsable de esta gran región de alta LD. Hemos aplicado el enfoque propuesto por EHH Sabeti et al. [6] para comparar las tasas de alélicas específicas LD decadencia. La prueba EHH explota el supuesto de que, en virtud de la teoría de la evolución neutral, LD común de alelos tiende a ser más escasas que para los poco frecuentes, debido al aumento de la frecuencia de recombinación y mutación, como una función del tiempo necesario para estos alelos a ser enriquecido en el Población. Por el contrario, las regiones en fase de selección positiva frecuentes han alelos, de largo alcance sobre los orígenes de LD. También se aplicó el test REHH, que corrige la variación de locales en la recombinación mediante la comparación de la tasa de EHHs básico de los diferentes haplotipos presentes en un lugar.

Se utilizó un método de deslizamiento ventana a rastrear todo el intervalo de 1,2 Mb y determinar una "causal región central" (Materiales y Métodos]. Esto se define como el núcleo común de haplotipos (frecuencia> 0.3), para los que la "haplotipo específico homozogosity" fue elevado cuando se analizaron en contra de los marcadores lejanos, y después de la normalización de relaciones con la recombinación variación de la cotización. En concreto, el punto de corte utilizado es que la REHH valores debe ser superior a 2 con marcadores de largo alcance, irradiando a distancias mayores de 200 kb de planificación sitio. Este punto de corte ha sido previamente demostrada de establecer un percentil 95 de importancia entre los conjuntos de datos simulados 5000 [6]. Esta prueba identificó un núcleo común de la región que abarca siete SNPs (Figuras 3 y 3 A, B). Entre los siete SNPs, tres (rs3809274, rs1544396, y rs9300319) están en el 5 'aguas arriba del gen SCA2, un (rs695871) en el 5' de codificación de la región, mientras que los otros tres (rs593226, rs616513, y rs653178) están dentro de Intrón 1 (Figura 4]. Estos datos, por tanto, condujo a la hipótesis de que la presión evolutiva que actúe en el gen SCA2 es el principal responsable de la extensa LD en la región de 1,2 Mb.

La prueba REHH identificó un núcleo de haplotipos (CH-1: TCGGGAT, frecuencia 39%) con elevados valores a través de largas distancias (Figura 3 A). CH-1 ha demostrado claramente la decadencia EHH notablemente más lento, en comparación con otros haplotipos, incluso a muy largo alcance. Hemos ampliado el intervalo de 1 Mb por tanto aguas arriba como aguas abajo, en un esfuerzo para detectar el ampliado fronteras. El alto EHH disminuido abruptamente en ~ ~ 1 Mb y 600 kb distancias del núcleo en el extremos proximal y distal, respectivamente (Figura 3 A). En distancias más básicas de la región, la diferencia de valores entre las diferentes EHH básico haplotipos no fue significativa. Hemos utilizado la siguiente bifurcación patrones ilustra en el diagrama para ver las conservas de largo alcance homozogosity específicos de cada núcleo de haplotipos. Cada diagrama es por un núcleo de haplotipos, con el punto negro que representan a la región central y cada nodo que representa un marcador. El grosor de las líneas ramificadas, refleja el número de muestras con un haplotipo específico. La bifurcación visualizar diagrama ilustra un largo predominio de un marcador de linaje CH-1 (Figura 3 C). Para evaluar la importancia de CH-1 del REHH valores, se calculó en REHH ~ 0,25 centiMorgans (cM) de distancia a ambos lados de un núcleo, para todos los posibles núcleos de cromosomas en 12. Elegimos 0,25 cM distancias de las pruebas, porque se ha sostenido que 0,25 cM tiene suficiente poder para detectar los últimos (~ 10000 años), las marcas de selección [6]. El REHH valores de la CH-1 superaron el percentil 95 cuando se enfrenta a REHH alelo frecuencia (Figura 5]. Los valores de p-REHH calculado en CH-1 del telomérica y centroméricas límites son 0,003 y 0,0002, respectivamente, cuando se calcula mediante la comparación con la totalidad de la distribución de cromosomas 12. Se obtuvieron resultados similares cuando se evaluaron 1000 contra simulada loci [p = 0,0009 y p = 0,001 a 1 Mb telomérica y 400 kb centroméricas distancias de la región central. (Figura S2]]. Además, esta región central ha sido recientemente identificado como un muy importante atípicas en todo el genoma-REHH distribución (PC Sabeti, datos no publicados).

REHH El análisis se centró en esta región central se aplica también a CHB, JPT, y YRI. Ninguno de los haplotipos frecuentes básico REHH mostró lo suficientemente elevado como para satisfacer a nuestros criterios (Figura S1]. Los resultados sugieren que la selección asociada a CH-1 es específica para CEU. Además, la observación de que el alelo frecuencias de los SNPs comunes en esta región en el CEU son muy diferentes de las otras tres poblaciones (datos no publicados) también apoya la existencia de CEU específicos de la presión de selección en esta región.

Selección positiva de un pre-Expansión CAG Repita de la SCA2 Gene

La razón por la que el gen SCA2 sería sometido a una fuerte selección positiva en el CEU no sea evidente. Una mayor expansión de trinucleótidos repetir que los códigos de poliglutaminas en el exón 1 se ha caracterizado por la mutación causante de la ataxia cerebelosa progresiva. Esta es la forma más común de ataxia cerebelosa autosómica dominante en diversas poblaciones étnicas y geográficas [19]. Los alelos normales de la CAG repetir varían en longitud de 14-31 trillizos, y suelen incluir una o más interrupciones CAA, mientras que la enfermedad de alelos tienen más de 31 tripletes CAG CAA sin interrupción. La gravedad de la enfermedad y la edad de inicio se correlacionó negativamente con la duración de CAG repetir. Porque el exón 1 es en el "núcleo" de la selección positiva para la región de 1,2 Mb, y debido a que contiene la mutación causal sitio para este lugar, la hipótesis de que un alelo específico de la repetición de trinucleótidos CAG se asoció con el haplotipo básicas y potencialmente desempeñado Un papel importante en la selección.

Con el fin de probar esta hipótesis, tanto el genotipo y secuencia de repetición CAG en muestras de CEU, CHB, JPT, y YRI. Hay 15 diferentes SCA2 CAG repetir alelos encontrados en estas muestras (Tabla 2]. Más alelos fueron detectados en YRI que en el CEU, CHB, y JPT, y el común de alelos (a-4 y una de 5) que se encuentran en los no africanos representan un subconjunto de los comunes (un-4,-5, y A-10) en YRI. En concreto, un-4 y de un-5 son en la actualidad relativamente alta frecuencia en las cuatro poblaciones, y en conjunto representan el 49%, 90% y 100% de los cromosomas en YRI, CEU, y CHB / JPT, respectivamente. El alelo-10 fue un único común (37%) alelo encuentra sólo en YRI. Esta observación es consistente con la historia conocida cuello de botella para fuera de las poblaciones de África. Otra observación importante es que con excepción de dos alelos comunes (a-4 y una de 5), ninguno de los alelos raros se encuentran en CEU son los mismos que los alelos raros en YRI, y casi todos los alelos raros en la actualidad, ya sea CEU o YRI Pueden derivarse de los comunes con una mutación puntual o una ligera CAG deslizamiento. Estos resultados sugieren que los alelos raros en el CEU y YRI surgido después de la separación de las principales poblaciones continentales.

Los alelos fueron secuenciados por etapas con el 7 SNPs en el núcleo en la región CEU. CH-1 está totalmente asociado con un-5 de la CAG repetir. La a-5 alelo se asocia con CH-1 cerca del 40% de las veces. Una prueba de ji al cuadrado confirmó la correlación significativa entre el CH-1 y un CAG-5 de repetir (df = 1, chi-cuadrado = 20, p <0,001) en el CEU. Se realizó una pareja LD prueba entre estos marcadores SNP 7 y repetir la CAG. Los resultados ilustran que una-5 de la CAG repetir había una fuerte asociación con cada uno de los otros 7 SNPs (Figura 6].

Los enfoques más tradicionales, incluyendo Tajima's D-test, y de Fu y Li's D *- F *- prueba y prueba, se realizaron para detectar la selección de repetir CAG (Materiales y Métodos, Mesa de S3]. Estos sitios polimórficos prueba y el espectro de frecuencias de los alelos para examinar las desviaciones de las expectativas de la teoría evolutiva neutral. Cada uno de ellos hacen hincapié en distintas características: Tajima's D es sensible a la presencia de alelos raros, mientras Fu y Li's D * y F * son sensibles a singletons. Estos enfoques son informativos acerca de la evolución en que las fuerzas positivas de selección está implícito en los valores negativos. El Tajima significativamente negativo del valor D (p <0.01) se observó para CEU, que de acuerdo con nuestra hipótesis de que este lugar ha sido objeto de una selección positiva.

Discusión

Este estudio muestra que la (CAG) 8 CAA (CAG) 4 CAA (CAG) 8 alelo (a-5) de la repetición de CAG en el exón 1 de la SCA2 se asoció significativamente con un haplotipo (CH-1) que se ha detectado A estar bajo la selección positiva en los últimos CEU. Como resultado de ello, una región de casi una megabase de cromosomas 12 en torno a esta amplia muestra locus LD. Esta es una dramática, en los últimos patrón evolutivo que parece estar restringido a los europeos.

Otros alelos a prueba por el EHH enfoque sirvió como controles internos para eliminar las posibilidades de reducción de cualquiera de las tasas de mutación o recombinación en esta región de la cromatina física o como una función de los diferentes alelos siendo responsables de la larga LD. Por ejemplo, el alelo TCAGGAT es sólo una base diferente de CH-1 en la región central y sólo unas pocas bases diferentes en toda la región ~ 1 Mb (Figura 2 A). Sin embargo, su EHH degradado muy rápidamente (Figura 3 A), y no mostró significación cuando dibujan REHH valores en contra de sus frecuencias de los alelos (Figura S2]. Estos resultados sugieren que no complicación de la recombinación local las variaciones de los tipos ha llevado al predominio de la CH-1 haplotipo. Además, la recombinación tasas (sexo a la media = 0,52, 0,87 = femenino, y masculino = -0,11) estima para esta región utilizando el logaritmo natural de la relación de distancias del mapa cM × 10 6 / Mb deCODE y sobre la base de marcadores hacer Marshfield No muestran inusual distribuciones estadísticas, y que no cuenta para el extremo de LD (J. Belmont et al., Datos no publicados).

El gen SCA2 tiene un inusualmente bajos repetir diferencia en relación con las otras enfermedades asociadas a la codificación de trillizos se repite [11]. El alelo distribución es muy sesgada hacia un-4 y de un-5 en el CEU. A pesar de que la tasa de mutación ha sugerido a ser relativamente bajos en este lugar debido a que se estabilice por CAA interrupciones [10], no puede explicar plenamente este bajo nivel de variación, debido a que un número comparable de alelos raros se encuentran en SCA2 como en SCA1 [ 10]. Además, los alelos raros fácilmente podría surgir de los alelos comunes, lo que implica que la presión selectiva puede actuar para mantener el predominio de sólo un pequeño número de alelos.

La población específicos de alelo espectros implica la acción de otras fuerzas impulsoras. En nuestro estudio, encontramos que un-4 y de un-5 representan el 100% de los cromosomas en la CHB y JPT muestras. Esto sugiere un cuello de botella histórico de la población que también pueden haber contribuido a la formación de la 1 Mb LD observado en CEU. El cromosoma escala patrón de distribución de manifiesto, sin embargo, que la LD es un "outlier", y por lo tanto es poco probable que esos factores pueden únicamente cuenta para ello. Por CEU, proponemos que un-4 y de un-5 emigrado de África a Europa con un-5 en mucho menor frecuencia que la que se encuentra en los europeos modernos, mientras que los últimos en una ventaja selectiva-5 enriquecido en la población. La región adyacente autoestop con este alelo y alcanzó una frecuencia alta de forma rápida, por lo tanto, la de largo alcance se conservan en LD CEU.

Los posibles mecanismos por los cuales funcional positivo selección actuó en la a-5 alelo del gen SCA2, en la reciente historia de la población humana no son claras. Parece poco probable que el número total de residuos de glutamina desempeña un papel (a-4 y de un-5 codificar cada 22 residuos Gln), sin embargo, diferencias en el número de CAG repite sin interrupciones en el nivel de mRNA puede alterar la función normal a través de cambios en el ARNm Plegamiento y la estabilidad [20] o de la asociación con factores de ARN vinculante. El alelo un-5 muestra una muy baja probabilidad de expansión de la enfermedad [21], pero dada la avanzada edad de inicio y la baja prevalencia de la enfermedad, parece poco probable que la enfermedad predisposición podría estar directamente relacionado con la selección en este locus .

El producto del gen SCA2 función normal es desconocida, aunque puede desempeñar un papel en la muerte celular regulada [22, 23], y los cambios en esta función podría ser claramente selectiva bajo coacción. Recientes análisis de un C. Elegans homólogo sugiere un papel en el control de la traducción en la línea germinal, otro posible funcionar bajo fuertes restricciones selectivas [24]. El reconocimiento de la función de la selección en este locus estimulará aún más la investigación de los mecanismos a través de estudios funcionales.

Sigue siendo posible que otros vinculados SCA2 alteraciones funcionales en los genes o en los alrededores de la CH-1 haplotipo antecedentes son necesarios para la selección de un-5, o incluso el objetivo principal de la selección natural, con el triplete de codificación en lugar hitchhiking a alta frecuencia.

Sobre la base de nuestros resultados por etapas, un-5 también se asocia con los haplotipos básicos distintos de CH-1, que no muestran significativamente alto REHH. Otros polimorfismos específicos de la CH-1 alelo posiblemente son elementos importantes para la selección. Un modelo es que tanto un-5 y otros desconocidos variantes genéticas en el CH-1 fondo cada contribuir modestamente a la función biológica identificados, y son necesarios para formar una combinación específica con el fin de conferir una ventaja selectiva. De hecho, dos de codificación de SNPs (rs695871 y rs695872) se encuentran dentro de los 200 pb de la repetición de CAG en el exón 1. Nuestros datos demuestran que un-5 se asoció significativamente con la rs695871 alelo G, que frente a los códigos de Val Leu. Además, como CH-1 se extiende una gran región (~ 70 kb), incluida entre las secuencias intergénicas SCA2 y BRAP, y la 5'-UTR y intronic secuencias de la SCA2, los polimorfismos que podrían inducir sitios de empalme alternativo, y que podría Regular la expresión diferenciada de los niveles de la SCA2 o adyacentes BRAP genes son posibles candidatos así como y la necesidad de mayor investigación. Otros genes en este ~ 1,2 Mb intervalo no puede excluirse por completo de ser el blanco de la selección a pesar de no ser detectados por el análisis REHH. Por ejemplo, el gen ALDH2 se ha sospechado de ser seleccionado para su hipotética funciones de la resistencia a las enfermedades endémicas en Asia oriental [25]. No obstante, la SCA2 está en el centro de la ventana de mapeado y sigue siendo el más firme candidato para la selección de genes.

La incertidumbre de la bioquímica precisa mecanismo para la selección ilustra el poder de la estadística genética métodos utilizados para la identificación de una "señal biológica" de este lugar. Esperamos que otras regiones genómicas para identificar de esta manera, y eventualmente la correlación de los resultados de este tipo de estudio con nuestra creciente comprensión de los procesos biológicos.

Materiales y Métodos
SNP genotipado a gran escala utilizando la tecnología de Sonda Molecular Inversion.

Nuestro esfuerzo genotipificación se llevó a cabo con Inversion Molecular Probe química [12, 13]. 2-Tanto tinte y tinte de 4 protocolos de etiquetado basado en la detección de microarrays se utilizaron. El SNPs fueron asignados por el Consorcio Internacional HapMap. Los ensayos fueron diseñados incluso con marcador espaciamiento de los nacimientos y genotipo 30 tríos (constaba de los padres y un niño) del CEU, 30 tríos de YRI, 45 individuos no relacionados de la CHB y 45 individuos no relacionados de JPT designados para el proyecto HapMap. Los datos se han presentado a www.hapmap.org.

Haplotipo definición de bloque.

NCBI construir 34 y HapMap publicación # 16 fueron usadas como referencia a lo largo de este estudio. La pareja D ", se calculó, y los bloques se definieron a partir de la D 'enfoque intervalo de confianza [16]. El mayor bloque de 12 mapas de cromosomas humanos a 12q24.12 -13, y la física son las coordenadas de 110405839-111393.524. El detalle de los bloques y su estructura subyacente de haplotipos se visualizaron utilizando Haploview 3,0 [17].

CAG repetir genotipo y secuenciación.

Genotipo ensayo, mediante amplificación por PCR se realizó con un par de los cebos, SCA y SCA-A-B, (F, 5'-GGGCCCCTCACCATGTCG-3 '; R, 5'-CGGGCTTGCGGACATTGG 3'), como ha sido descrito previamente [7], en SCA-A, que fue de 5 'extremo marcado, ya sea con o TET FAM. Veinte pmole cada uno de los cebos se añadieron a 25 ng de ADN humano con la Invitrogen 2 × múltiplex mezcla. Después de una desnaturalización inicial a 95 ° C durante 5 min, 36 ciclos se repitieron con una desnaturalización a 96 ° C durante 1,5 minutos, una temperatura de 62 ° C durante 30 s, una extensión a 72 ° C durante 1,5 min, y un Extensión final de 5 min a 72 ° C. Genotipado de microsatélites se llevó a cabo mediante el uso de Applied Biosystems 3730 secuenciador, y los datos fueron analizados mediante el uso de software Genemapper versión 3.5 (Applied Biosystems, Foster City, California, EE.UU.). El tamaño estándar utilizada en el análisis de los datos se GS500 (-250LIZ). Múltiples carreras fueron analizados para cada paciente y de los polimorfismos de microsatélites fueron confirmados por pedigrí de cheques.

En la secuencia de ensayo, y SCA-A-B fueron de cola con la secuenciación universal primers (Adelante, 5'-CTCGTGTAAAACGACGGCCAGT-3 '; inversa, 5'-CTGCTCAGGAAACAGCTATGAC-3'). Después de los productos de PCR fueron purificados con Exo-SAP, la secuencia de reacciones se llevaron a cabo con tanto SCA-A / B, y usando el estándar universal primers BigDye V3.1 protocolo. Las huellas fueron analizadas manualmente utilizando el programa Sequencher.

El CEU de muestras son a la vez genotipo y secuenciados. El pico de longitudes de genotipos completamente de acuerdo con sus correspondientes (CAG) n secuencias (datos no publicados).

Tajima's D, Fu y Li's D * H * y ensayos.

Hemos secuenciado 130 bases (de acuerdo con la secuencia genómica de referencia) se centró en repetir en SCA2 CAG como se ha descrito anteriormente. Todos los polimorfismos identificados en la CAG se repite, en particular el número de copias CAG cambios que se recodificado como polimorfismos de nucleótidos. El número de sitios polimórficos descubiertos son 31, 1, 1, y 27 en el CEU, CHB, JPT y YRI, respectivamente. Se realizó Tajima's D [26], y de Fu y Li's D * H * y pruebas [27] de (CAG) n utilizando DnaSP 4,0 programa [28]. La significación estadística fue obtenida mediante la comprobación de los límites de confianza de las estadísticas (dos de cola de prueba).

Haplotipo reconstrucción utilizando HAPLORE FASE 2,0 y programas de análisis y EHH.

A los 30 tríos CEU y 30 YRI tríos, los haplotipos se construyó desde sus SNP datos utilizando la lógica de las normas aplicadas en HAPLORE programa [29]. FASE 2,0 [30, 31] fue utilizado para inferir próximo haplotipos de los marcadores de algunos que no pueden construir haplotipos inequívoca sobre la base de los descendientes' de información. Para los no vinculados muestras de CHB y JPT, FASE 2,0 se aplica directamente para deducir los haplotipos.

El EHH se define como "la probabilidad de que dos cromosomas seleccionados en forma aleatoria, con un núcleo a prueba de haplotipos son homocigotos en todos los SNPs para todo el intervalo de la región central a la distancia x." El REHH es "la relación de la EHH en el núcleo a prueba En comparación con el haplotipo EHH agrupados de la serie de haplotipos en la región sin incluir el núcleo de haplotipos probado ".

Por definición de EHH análisis, la región de las necesidades básicas a tener casi ningún evento de recombinación. Como la mayoría de los cerca marcadores en el intervalo de 1,2 Mb son fuertes en LD con una alta | D '| en el CEU, que nos permitió utilizar un marcador de 4-ventana deslizante como el núcleo de nuestra región con marcador de 2 coincidencia entre las ventanas adyacentes a la exploración Toda la región. El "Sweep" programa (PC Sabeti et al., En preparación) se utiliza para la EHH y REHH detallado análisis sobre la región central identificado.

REHH importancia de estimación.

Hemos probado la importancia de REHH comparación con ayuda de dos bases de datos, los datos empíricos de cromosomas 12 del proyecto HapMap Release 16 y simulaciones. Para simulaciones, que generó 1000 loci de 1 MB longitud, calibrados para proporcionar datos compatibles con una variedad de medidas de los datos empíricos (es decir, H ST, heterozigosidad, menor frecuencia de los alelos de distribución), y el uso de un conjunto de parámetros del modelo (es decir, la demografía , La tasa de recombinación), de acuerdo con las estimaciones actuales (S. Schaffner et al., Datos no publicados).

Por tanto la comparación de conjuntos de datos, puesto que los haplotipos en 20 cubos con base en su frecuencia. Se comparó la REHH para cada haplotipo común en SCA2 a todos por igual frecuencia de los haplotipos de las simulaciones. Se obtuvieron valores de p-log-la transformación de la REHH en la papelera para lograr la normalidad, y el cálculo de la media y desviación estándar. Se realizó el análisis utilizando el programa de software Sweep (PC Sabeti et al., Datos no publicados).

Apoyo a la Información
REHH × Distancia Parcelas en la Otra Tres Poblaciones
(A) CHB.
REHH frecuencia por parcela
El REHH se enfrenta a la base en las frecuencias de haplotipos ~ 1 Mb telomérica (A) y ~ 400 kb centroméricas (B) a la región central.
PCR para probar la inversión de
(134 KB DOC)
Gene en la Lista Haplotipo bloque más grande en 12 cromosomas humanos
(33 KB DOC)
Las pruebas de selección de (CAG)
(31 KB DOC)

Damos las gracias a Steve Schaffner para uso de la simulación del programa antes de su publicación. Damos las gracias a David Reich para la lectura crítica de este manuscrito. Estamos también muy agradecidos por los dos revisores anónimos por sus comentarios constructivos sobre el manuscrito. Este trabajo fue financiado por el HapMap subsidio del Instituto Nacional del Genoma Humano (1U01 HG2755).