Inferir los haplotipos en el locus NAT2: el enfoque computacional
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.
Numerosos estudios han tratado de relacionar polimorfismos genéticos dentro de la N-acetiltransferasa 2 gen (NAT2) de las diferencias interindividuales en la respuesta a las drogas o en la susceptibilidad a la enfermedad. Sin embargo, el genotipo de los individuos-polimorfismos de nucleótido único (SNP) por sí sola no siempre puede dar la información suficiente para alcanzar estas metas. Es importante vincular SNPs en términos de haplotipos que llevar más información acerca de la relación genotipo-fenotipo. Especial técnicas analíticas han sido diseñadas para determinar de manera inequívoca la asignación de las mutaciones, ya sea a filamento de la DNA. Sin embargo, los métodos moleculares haplotyping son mano de obra intensiva y costosa y no parecen ser buenos candidatos para aplicaciones clínicas de rutina. Una barata y relativamente sencilla alternativa es el uso de algoritmos computacionales. El objetivo de este estudio fue evaluar el rendimiento del enfoque computacional NAT2 haplotipo en la reconstrucción de la fase de genotipo desconocido de datos, las muestras de población de origen étnico diferentes.
Estamos empíricamente evaluado la eficacia de cuatro haplotyping algoritmos para predecir las fases de haplotipos en NAT2, comparando los resultados con los obtenidos directamente a través de haplotyping molecular. Todos los métodos computacionales siempre extraordinariamente precisa y fiable NAT2 estimaciones de las frecuencias de haplotipos y fases individuales de haplotipos. El algoritmo bayesiano aplicado en el programa de FASE ha obtenido el mejor rendimiento.
Esta investigación constituye una base sólida para la confianza y el uso racional de los métodos computacionales que parecen ser una buena alternativa para inferir haplotipo fases en el caso particular de los genes NAT2, donde hay casi total vinculación desequilibrio entre los marcadores polimórficos.
N-acetilación polimorfismo es una de las primeras descubierto y estudiado más intensamente farmacogenéticos rasgos que subyacen a las diferencias interétnicas y interindividual en la respuesta a xenobióticos. En los seres humanos, acetilación es una vía principal de biotransformación para muchas arilaminas hidracina y drogas, así como de una serie de toxinas y agentes carcinógenos conocidos presentes en la dieta, el humo del cigarrillo y el medio ambiente [1 - 3]. Genéticamente determinado diferencias en la capacidad de N-acetilación han demostrado ser importantes factores determinantes de la eficacia de la respuesta terapéutica y el desarrollo de reacciones adversas a los medicamentos y la toxicidad de drogas durante el tratamiento [4]. En las últimas décadas, numerosas investigaciones se han realizado para dilucidar la base genética de la N-acetilación polimorfismo en diversos grupos étnicos con el fin de desarrollar pruebas de genotipificación y eficiente para adaptarse a las terapias específicas de los pacientes y las poblaciones de acuerdo con su constitución genética. Algunos de los medicamentos excretados por acetilación son, en efecto crucial en el tratamiento de enfermedades que representan una preocupación mundial, como la tuberculosis y el SIDA, las enfermedades relacionadas con el complejo [5, 6]. Además, varios estudios epidemiológicos han sugerido posibles asociaciones entre la N-acetylator fenotipo y una compleja variedad de enfermedades humanas, la más coherente con respecto a los resultados que se cáncer de vejiga urinaria y familiar de la enfermedad de Parkinson [7 - 10].
El gen que codifica para la arilaminas la N-acetiltransferasa 2 (NAT2) enzima se ha establecido como el lugar de la clásica humanos acetilación polimorfismo [11 - 13] y de las bases moleculares de la variación inter-individual y en la capacidad de acetilación está ahora bien documentado [14, 15]. Todas las mutaciones reportados a la fecha se encuentran dentro de la codificación de 870-bp de la región de genes NAT2. Entre los siete polimorfismos de nucleótido único (SNP) que se encuentran en los sectores de la población, cuatro dar lugar a una sustitución de aminoácidos que lleva a una disminución significativa en la capacidad de acetilación (una sola base de par sustituciones en las posiciones 191, 341, 590, 857). Los otros tres están en silencio ya sea mutaciones (C282T, C481T) o no sinónimo de sustitución que no altera el fenotipo (A803G).
Consenso en la nomenclatura de los genes NAT2 humanos, que abarca todos los alelos reconocido en la actualidad [16, 17], juegos de SNPs situados en toda la región de codificación están vinculados en términos de los haplotipos, que son ellos los que están organizados como segregar distintas en una sola persona en el cromosoma NAT2 locus. Cada combinación de SNPs identificados hasta ahora constituye un haplotipo que se toma como un alelo de los haplotipos del sistema. El examen de multilocus haplotipos parece más conveniente ya que existe creciente evidencia de que los genes que contienen múltiples SNPs en alta vinculación desequilibrio (LD) como NAT2 [18], en lugar de la estructura de haplotipos individuales SNPs puede ser el principal determinante de las consecuencias fenotípicas [19 -- 21]. Un polipéptido funcional es, en efecto, el producto de un haplotipo, que abarca toda la región de codificación y codificada por un solo cromosoma.
El NAT2 alelos descritos hasta ahora contener hasta cuatro de las mutaciones reconocido en varias combinaciones. Cada alelo se asocia con un fenotipo acetylator dependiendo de las mutaciones que contengan: por ejemplo, las sustituciones en las posiciones 191, 341, 590, y 857 son de diagnóstico para NAT2 defectuosos y, por tanto, la función de la lentitud acetylator fenotipo (Tabla 1]. Tres NAT2 fenotipos se han descrito: los sujetos con dos alelos de baja actividad se clasifican como acetylators lento, en tanto que las orgánicas con dos alelos se consideran acetylators rápido. Si es sólo un alelo de la lenta tipo, un fenotipo intermedio se observa. Muchos de los primeros estudios no distinguen entre rápido y acetylators intermedios, la categorización de los dos tipos de temas tan rápido acetylators.
Los problemas pueden ocurrir cuando los sitios múltiples genotipos NAT2 tienen que ser asignados correctamente a una combinación de dos multilocus haplotipos. De hecho, la actual rutina de los métodos de secuenciación y genotipificación normalmente no proporcionan información de haplotipos en diploide organismos como los seres humanos, y la fase de gametic haplotipos es de por sí ambiguo cuando los individuos son heterocigotos en más de un lugar. Como se ilustra en la figura 1, un tema con dos inactivación de las mutaciones pueden ser ya sea rápida o lenta acetylator dependiendo de si estas mutaciones se encuentran en el mismo o en diferentes cromosomas, respectivamente. Por lo tanto, es inequívocamente crucial para evaluar los patrones de mutación vínculo, este paso de ser un requisito previo para obtener estimaciones exactas frecuencias de haplotipos en las poblaciones y fiable genotipo-fenotipo predicciones.
Sin embargo, a pesar de su gran importancia, esta cuestión no ha sido tratada adecuadamente por los últimos estudios de investigación de la mayoría de los polimorfismos NAT2. Los primeros estudios de genotipificación sólo hacen pruebas de la presencia de tres polimorfismos (C481T, G590A, G857A), y un sujeto se define como un lento acetylator si se homocigotos para uno, para dos o heterocigotos (cada uno situado en un filamento de la DNA), de este Tres cambios de nucleótidos. Esta definición supone que no puede haber ningún alelo único con dos o más mutaciones de la prueba. En otros estudios seleccionados que un mayor número de SNPs en NAT2, los patrones de LD entre mutaciones puntuales se suele suponer, en referencia a los haplotipos descritos anteriormente y que se encuentran en poblaciones de origen europeo. Por ejemplo, la designación de NAT2 alelos normalmente se basa en el supuesto de que 481T y 803G están estrechamente ligados a la 341T, 590A y 857A y están vinculados a 282T [22]. Sin embargo, en raros casos, el vínculo patrón típico alélicas de las mutaciones puede ser interrumpido debido a la recombinación genética y esto puede dar lugar a errores de clasificación de alelos. En efecto, aunque tales patrones de vinculación supone son muy fuertes, otras variantes alélicas desempeño inusual o bien combinaciones de mutaciones o mutaciones de forma aislada se han descrito en algunos casos [23]. Además, la designación de NAT2 alelos de tal manera que necesariamente se ajusta a la actual nomenclatura de consenso reconocido haplotipos se opone a la divulgación de inesperadas combinaciones de mutaciones, distinta de la establecida variantes alélicas y, por lo tanto, el descubrimiento de nuevos alelos. Esa manera de inferir los haplotipos de unphased genotipos multilocus pueden introducir sesgos en NAT2 alelo designación individual fenotipo y predicción, y estos posibles errores son de mayor magnitud cuando no se trata de las poblaciones europeas. La mayoría de los estudios del supuesto particular de los patrones de vinculación descritas previamente en poblaciones de origen europeo, pero que no podrá ocupar en otros grupos étnicos. De hecho, trabajos recientes han demostrado que los patrones de LD pueden diferir notablemente entre poblaciones con diferentes orígenes étnicos y demográficos. A modo de ejemplo, Loktionov y colegas [24] señala la alta incidencia de mutaciones 803G aislados y 282T (definición de alelos NAT2 * NAT2 * 12A y 13, respectivamente) de Negro sudafricanos, en tanto que estos cambios de nucleótidos son casi siempre estrechamente vinculado a otros Mutaciones en las poblaciones europeas [25]. Asimismo, Dandara et al. [26] identificado recientemente un nuevo patrón de mutación vinculación (NAT2 * 6E), que parece ser común en tres poblaciones de África y que aún no habían sido notificados en los europeos. Además, Luli et al. [27] reveló una nueva combinación de reconocido mutaciones (NAT2 * 5G) en el Malapandaram tribu del sur de la India que no ha sido descrito hasta la fecha en cualquier otra población mundial. El genotipo-fenotipo discordancia observada en numerosos grupos étnicos mutación donde los vínculos no se han demostrado ampliamente experimentalmente podrían resultar de dicha inesperada compuesto alelos. Por ello, es necesario verificar sistemáticamente la postulada combinaciones alélicas.
Para evitar esos posibles problemas, muchos autores diseñado técnicas analíticas especiales para determinar de manera inequívoca la asignación de las mutaciones, ya sea a filamento de la DNA. Métodos moleculares mediante combinaciones de mutación específica de la reacción en cadena de polimerasa (PCR) reamplification junto a la restricción de la cartografía de la PCR se han desarrollado productos, que permiten el análisis por separado de cada alelo con el fin de obtener un mapa completo de ambos genes en todas las personas. En algunos estudios se aplican estos procedimientos se multiplican a todos los sujetos heterocigotos [24, 28 - 31], mientras que otros limitan su aplicación a casos particulares, como aquellos en los que una alternativa vinculación patrón de mutaciones daría lugar a un cambio en el fenotipo [5, 27, 32 - 36 ]. Sin embargo, estos métodos experimentales de haplotyping molecular no son totalmente satisfactorias, ya que implican un costo adicional y en la actualidad están intensidad de mano de obra, tiempo, propenso a errores experimentales y difíciles de automatizar. Por lo tanto, no parecen ser buenos candidatos para aplicaciones clínicas de rutina y para una generalización a gran escala.
Una barata y relativamente sencilla alternativa para la reconstrucción de haplotipos basados en el genotipo datos de las personas no relacionadas es el uso de algoritmos computacionales. El más utilizado algoritmos desarrollados hasta el momento se basan ya sea en una parsimonia, un máximo de verosimilitud, o un enfoque Bayesiano (ver [37] para una revisión). En la última década, numerosas investigaciones sobre la base de los datos empíricos y los grandes estudios de simulación han demostrado que tales in silico de haplotipos de los métodos de inferencia puede dar efectiva y predicción precisa de las fases de haplotipos, especialmente en regiones con alta LD sitios polimórficos entre los valores y las pequeñas probabilidades de recombinación Eventos [18, 38, 39]. Por lo tanto, podría ser bastante eficientes alternativas a los métodos moleculares de haplotyping cuando se aplica a los datos de genes NAT2. Sorprendentemente, a nuestro entender, sólo tres estudios han usado métodos computacionales para reconstruir los haplotipos NAT2 y estimar frecuencias de los alelos en la población muestras [40 - 42]. Una explicación de tal uso limitado puede ser la falta de pruebas que documentan en el desempeño de silico enfoques cuando se aplica a los datos reales NAT2. De hecho, la exactitud de estas estrategias, en comparación con los métodos moleculares, tiene que ser evaluada antes de que sus aplicaciones pueden ser defendido en una gran escala. Un reciente estudio proporcionó resultados preliminares sobre esta cuestión: Xu y colegas [18] empíricamente evaluado y comparado la exactitud de la algoritmo de Clark [43], la esperanza-maximización (EM) y un algoritmo bayesiano método aplicado en el programa de FASE [44] En la fase de inferencia en NAT2, tomado como ejemplo de un lugar con más de un pronunciado LD 850-bp región. En este estudio, NAT2 haplotipos (que consta de cinco de genotipos SNP en la posición 282, 341, 481, 590, y 803 nt) fueron determinado experimentalmente a través de la clonación y secuenciación de 81 individuos de ascendencia europea. Encontraron que los tres métodos computacionales siempre extraordinariamente precisa y fiable NAT2 estimaciones de las frecuencias de haplotipos y fases individuales de haplotipos.
El objetivo del presente estudio fue el de extender esta investigación para evaluar con mayor precisión el desempeño de la computación. Hemos llevado a cabo un extenso estudio basado en los datos experimentales de un mayor número de muestras, que se publicó desde distintas poblaciones de origen étnico, y la prueba de la participación de los haplotipos de los siete principales loci polimórficos de NAT2. Además, la mayor población de muestras investigadas son de mayor importancia: como el tamaño de la muestra crece, hay más oportunidad de observar los haplotipos raros que son los más difíciles de inferir estadísticamente. Este estudio comparativo se ha diseñado para evaluar el rendimiento de los diferentes algoritmos de haplotyping y para evaluar la coherencia de sus estimaciones. Además, proporciona información sobre el impacto de conjunto de datos diferentes características (tamaño de la muestra, la distribución de frecuencias de haplotipos, haplotipos frecuencias, desviación de Hardy-Weinberg (HW) de equilibrio, ...) sobre la estimación de la precisión; luego explorar la utilidad de Basada en los datos de diagnóstico para evaluar la probable exactitud.
Haplotyping Molecular de la NAT2 locus reveló entre ocho y doce haplotipos diferentes en cada una de las cinco muestras de población investigada. El número máximo teórico de los haplotipos de una serie de siete sitios bialélicas variable es 128 (2 7) si hay azar asociación entre los sitios polimórficos, que es de sólo 8 a falta de recombinación, mutación recurrente y la espalda. Por lo tanto, el pequeño número de haplotipos observados en NAT2 sugiere LD fuerte en el corto distancia física que abarca este gen. De hecho, se observó completa o casi completa de LD para todos los pares de SNPs con suficientemente altas frecuencias (sólo alelos con frecuencias en el rango 0.05-0.95 se incluyeron en el análisis porque las estimaciones de LD para los alelos de baja frecuencia en pequeñas muestras no son informativos) : 85% de todos los valores pairwise r 2 fueron muy significativas (Exactas valor de p <0,0001). Aunque los patrones de LD son bastante similares entre las diferentes muestras de población, diferencias sustanciales en los niveles se observaron LD (Figura 2): el coreano muestra, y en especial la de Sudáfrica muestra, muestran mucho más pequeños valores de la media pairwise r 2 (0,27 y 0,20, respectivamente ) Que los dos europeos y el nicaragüense muestras (valores entre 0,39 y 0,57), para los que una fuerte estructura haplotípica se observó.
Entre las 1608 personas investigadas en los cinco conjuntos de datos, el 45,5% (732/1608) fueron homocigotos para todos los sitios o SNP heterocigotos SNP en un solo sitio, por lo que sus pares de haplotipos pueden ser asignados directamente. Además, el 35,7% (574), 10,0% (160), 0,9% (15), y el 7,9% (127) personas fueron heterocigotos en dos, tres, cuatro y cinco sitios SNP, respectivamente. Estamos inferirse su haplotipo con cuatro fases haplotyping métodos computacionales, y comparó los resultados con los obtenidos a través de haplotyping molecular.
Dado que el programa Hapar menudo varias soluciones igualmente parsimoniosa para un determinado genotipo multilocus, no puede resolver una fracción relativamente grande de individuos heterocigotos en cada una de las muestras y, por lo tanto, no hemos podido deducir estimaciones de la frecuencia de los haplotipos observados. Por lo tanto, evaluamos Hapar sólo de su capacidad para identificar el conjunto de los haplotipos presentes en una muestra.
Hapar encontrado para cada muestra el más pequeño conjunto de los haplotipos que podría explicar el genotipo de datos, y PL-EM, y Haplotyper FASE proporcionado la lista de todos los haplotipos seleccionado para aparecer en al menos uno de los temas de la "mejor" de reconstrucción, Que es más probable cuando la pareja de haplotipos es seleccionado para cada individuo. El I H índices de los cuatro programas se muestran para cada población muestra en la Tabla 3. Para los británicos y muestras de Corea, todos los métodos computacionales identificado exactamente los mismos que los haplotipos determinado experimentalmente. En cambio, en las otras tres muestras, los algoritmos a veces inferirse un nuevo haplotipo, que no era realmente presentes, y / o una perdida de haplotipos que se muestra a estar presente por medio de haplotyping molecular. Sin embargo, estos errores de predicción en cuestión siempre rara frecuencia de los haplotipos <0,75% (singletons en la mayoría de los casos). El algoritmo FASE obtenido el mejor rendimiento.
También se evaluó y comparó la eficacia de los métodos computacionales en la reconstrucción de pares de haplotipos de los individuos. Cuadro 4 es, para cada conjunto de datos y un algoritmo para cada uno, la tasa de error individual. Cualquiera que sea el método, el número de individuos fue reconstruida incorrectamente notablemente bajo, con índices de error siempre por debajo del 4%. El mayor número de errores se observaron para los países de África muestra y, entre los tres algoritmos probados, FASE dado los más bajos índices de error. Además, es interesante observar que, en todos los casos de forma incorrecta predijo fases, no hay impacto en la predicción del fenotipo. Así, a pesar de estos errores, las proporciones de lento, medio y rápido acetylators en cada población se muestra en el 100% de acuerdo con los deducirse de haplotyping molecular.
Una comparación de las frecuencias de haplotipos determina molecularmente con los estimados computacionalmente mostraron muy alta concordancia. Ambos PL-EM FASE y métodos previstos índice de similitud (I F) valores muy cerca del valor máximo de 1 en todos los conjuntos de datos investigados (cuadro 5]. Esos valores altos se puede explicar por el hecho de que el índice F I da más importancia a las frecuencias cuyos haplotipos comunes son los más precisión estimada por los algoritmos computacionales. Para investigar el efecto de las frecuencias de haplotipos en la estimación de la precisión, que trazan el coeficiente de cambio (C) en contra de la más grande de las dos frecuencias de haplotipos (Max [
También se realizó análisis similares en otros seis conjuntos de datos anteriormente publicados, en los que los patrones de vinculación fase fueron sólo parcialmente resuelto por haplotyping molecular. Estos datos de que se trate alemán 844 [32], 248 de Polonia [33], 303 de Turquía [34], 50 de castas no Dogons de Malí, 52 de Gabón y el 60 caucásicos [5]. Haplotipo fase se dispone de información de 41% -74% de las personas en estos seis muestras de población (incluida la fase de resolver los genotipos, así como de no ambigua homocigotos o simplemente genotipos heterocigotos). FASE El algoritmo se aplicó en la unphased genotipo multilocus datos de cada una de estas muestras, y un 100% de concordancia se observó entre los haplotipos fase de la reconstrucción a través del método de cálculo y los patrones de vinculación determinada empíricamente, en todos los conjuntos de datos investigados (datos no presentados) . Esto significa que, a pesar de los esfuerzos invertidos, en términos de trabajo, tiempo y dinero, para resolver vinculación fase de mutación en una parte de cada muestra, no más información se ha añadido por haplotyping molecular que lo que podría ser extraído de algoritmos computacionales aplicados a estos datos .
Este estudio empírico demuestra cómo de cerca las frecuencias computacionalmente estimado de la etapa de la aproximación de los datos desconocidos de gen-contando estimaciones basadas en datos de la etapa conocida. En el caso particular de los genes NAT2, donde hay casi total entre los SNPs LD dentro de la codificación de región, en todos los enfoques silico siempre muy eficaz y precisa estimaciones de las frecuencias de haplotipos y cada haplotipo fases. Estimación de las frecuencias de haplotipos comunes fueron casi idénticas a las empíricamente determinada, mientras que los haplotipos raros de vez en cuando se miscalled cuando su presencia / ausencia que se había deducido. Como ya se ha señalado por Stephens et al. [44] y Lin et al. [39] y se confirmó en este estudio, de menor frecuencia de las variantes son menos fácilmente estimado estadísticamente, de hecho, hay menos información contextual acerca de la fase de simple versus nonsingletons. Así, por esas cuestiones de investigación para el cual el NAT2 haplotipos comunes son más importantes, la frecuencia estimaciones basadas en el SNP unphased a escribir los resultados de los individuos no relacionados será suficiente. Sin embargo, la identificación precisa de los haplotipos raros puede ser fundamental para muchos investigadores, como los genetistas de población interesados en la detección de características demográficas recientes de la historia que son específicos de la población o de las firmas de efectos selectivos en NAT2 secuencias, así como para los epidemiólogos y los clínicos interesados en la Posibilidad de que los haplotipos raros puede ser importante para el riesgo de enfermedades o para predecir la respuesta de drogas. En tales casos, molecular haplotyping será necesario determinar la vinculación inequívoca fase [57].
Para un locus como NAT2 donde una fuerte estructura haplotípica se observa, todos los algoritmos de siempre y muy eficaces y precisos para la reconstrucción de haplotipos. Así, por ejemplo, "ideal" de la inferencia estadística para datos no permiten discriminar adecuadamente entre los diferentes métodos de investigación. Sin embargo, a pesar de actuaciones más o menos similares, ligeramente mejores resultados se observaron con el programa de FASE. En particular, FASE superaron a los otros programas cuando las frecuencias de los haplotipos raros que se han deducido. Esto es coherente con los resultados de algunos estudios previos que evaluaron y compararon el desempeño de varios algoritmos de ambos datos empíricos y simulado [44, 54, 61]. FASE proporcionado la reconstrucción más precisa, probablemente porque la verdadera haplotipos se ajustaba más a la hipótesis de la coalescente aproximados antes que a las de antes de la Dirichlet.
Hay muchos factores que pueden influir en la precisión de la estimación de los enfoques computacionales. Que se puede evaluar empíricamente dentro de un conjunto de datos, además de ser utilizados como "diagnósticos" para predecir la posible falta de precisión en la estimación causados por las características relevantes en el conjunto de datos [38].
Tamaño de la muestra no parecen tener un gran efecto sobre las estimaciones de la comparación de las frecuencias de haplotipos fase-conocidos y desconocidos-fase resultados de los cinco conjuntos de datos incluidos en este estudio. Tal vez la baja tasa de error observado en los coreanos se debe en parte al gran tamaño de esta muestra (1000): una mejora en la precisión de la estimación de procedimiento con el aumento de tamaño de la muestra es, en efecto, dado que la redundancia de información en forma de copias múltiples de la misma Haplotipo en el conjunto de datos es necesario para la estadística algoritmos para funcionar correctamente [38, 48]. Por otra parte, los métodos computacionales también puede realizar mejor en pequeñas muestras, en el que hay poca oportunidad de observar los haplotipos raros que son los más difíciles de inferir estadísticamente. No obstante, dado que el número de nuevos haplotipos no se espera que aumente linealmente con el tamaño de la muestra, el análisis de muestras suficientemente grandes como para garantizar una buena fiabilidad en las estimaciones resultantes.
Aunque la mayoría de los algoritmos de asumir la prueba de equilibrio de HW, importantes desviaciones de HW proporciones no parecen tener ningún impacto en la exactitud de sus predicciones. HW mantiene así el equilibrio para el de Nicaragua, Reino Unido, el Cáucaso y Negro Sudáfrica muestras (resultados no significativa), mientras que el genotipo de distribución en el español y el coreano muestras muestran importantes desviaciones de HW proporciones (Tabla 2]. Los conjuntos de datos investigados no son los más adecuados para evaluar el efecto de una desviación de equilibrio HW: resultados significativos para las pruebas de HW ratios están muy cerca del valor límite (5%), y en el caso de la muestra de Corea, un exceso Homozygosity se observa, que no deben comprometer la ejecución del algoritmo. En efecto, en tal caso, hay un equilibrio entre la pérdida de precisión causados por la violación de HW equilibrio y la precisión de ganancia causada por la disminución de la fase que falta información a través de un exceso de homocigotos [38, 62].
Entre los cinco conjuntos de datos investigados en este estudio, los sudafricanos Negro está representada la más alta tasa de error en el cálculo de haplotipos inferencia. Una posible explicación puede ser la presencia en esta muestra de un gran número de diferentes múltiples heterocigotos con genotipos multilocus ambigua, que se producen en las frecuencias más o menos similares (lo que se refleja en la gran diversidad de genes NAT2 esta población está representada por la muestra (Tabla 2)]. En efecto, tanto el número de diferentes genotipos heterocigotos múltiples ambigua y sus frecuencias relativas han demostrado ser de gran importancia en la evaluación de los haplotipos de estimación de precisión [57]: ambos serían buenos indicadores del nivel de dificultad de un determinado conjunto de datos para haplotyping Algoritmos. La existencia de diferentes genotipos multilocus repartidos de manera uniforme implica que diferentes haplotipos ocurrir en baja frecuencia, y que, por consiguiente, mayor error y la incertidumbre se producen en la estimación de las frecuencias de haplotipos (ya que no solo haplotipo es overwelmingly frecuentes). En contraste, la presencia de un pequeño número de genotipos heterocigotos múltiples proporcionalmente en altas frecuencias implica que existen algunos haplotipos a altas frecuencias, y la estimación de las frecuencias de haplotipos y será más fácil lograr con mayor precisión [38, 57]. En tales casos, puede agregar molecular haplotyping poca información para la resolución de las fases de haplotipos.
El importe de LD entre los marcadores de SNP puede ser otro factor determinante para la predicción de la estimación de la fiabilidad cuando desde múltiples sitios polimórficos mostrar poco desequilibrio, como se observó en los países de África muestra en comparación con los demás, una gran proporción de los cromosomas puede ocurrir como poco frecuentes o Haplotipos raros, lo que implica un mayor nivel de dificultad en la inferencia estadística de los haplotipos.
Por lo tanto, estamos a favor de examinar previamente la unphased genotipo NAT2 datos de la distribución de frecuencia de heterocigotos multiplicar los genotipos y el nivel de LD entre los marcadores polimórficos, lo que permitirá evaluar el nivel de dificultad está representada por el conjunto de datos de la inferencia estadística, y, por lo tanto, Para predecir la capacidad y la precisión con la que se deducen los algoritmos computacionales haplotipo fases de dichos datos.
Por supuesto, los métodos estadísticos pueden ser utilizados en conjunción con los métodos experimentales para proporcionar estimaciones más precisas de cada uno de los haplotipos. Se ha afirmado que la capacidad de ciertos métodos computacionales para poder evaluar con exactitud la incertidumbre asociada a cada fase de la palabra les da la considerable ventaja de que permite la práctica experimental esfuerzo por ser dirigidos a sitios y / o personas cuyas fases son más difíciles de reconstruir estadísticamente o que Son fundamentales para las conclusiones del estudio [20, 44, 61]. Sin embargo, en nuestro estudio, se observó que la mayoría de las llamadas erróneas fase deducirse en el plano individual se apoya firmemente, con una probabilidad muy cerca del valor máximo de 1. Así, estos errores no se podría haber evitado, ya que no han sido seleccionados para la orientación molecular. Esto subraya por ello que, en el caso del descubrimiento de una novela NAT2 alelo haplotyping a través de métodos computacionales, la inusual patrón de vinculación debe ser siempre confirmada por la clonación y secuenciación del alelo en cuestión, promovida por Cascorbi y Raíces [25] para la novela combinaciones alélicas Detectado por técnicas moleculares.
A lo largo de este estudio, se asumió que la vinculación NAT2 patrones molecularmente se determinó la "verdad", y, por lo tanto, que no hay error en el haplotipo assigments sobre la base de los métodos experimentales. Sin embargo, las técnicas moleculares pueden tener tasas de error experimental tan alta como la tasa de error estadístico asociado a la determinación de haplotipos algoritmos computacionales [19]. De hecho, molecular haplotyping soporta el riesgo de falsos positivos o falsos negativos de amplificación alelo-específicas (debido a la especificidad de nucleótidos que dependen de esa técnica), así como incompletos o no específicos digestiones con las enzimas de restricción utilizadas en el análisis [25]. En el presente estudio, hemos estimado que el error de cálculo de tipos de no más de 3-4% de todos los algoritmos investigados. Esto no es más alta que la correspondiente tasa de error de haplotyping técnicas moleculares, en el orden del 2-3% [20]. Por lo tanto, es difícil determinar si las diferencias observadas entre experimental y computacional estimaciones se deben a errores estadísticos de los algoritmos, sino que pueden deberse a errores técnicos durante las manipulaciones y los datos moleculares utilizados como referencia para la comparación podría ser errónea.
La desventaja de in silico enfoques es que las técnicas algorítmicas son estadísticos y de exigir el análisis de una población y no en un solo individuo. Esto no es una limitación de los ensayos clínicos y estudios epidemiológicos, que se realiza siempre en una cohorte de base. En farmacia clínica, sin embargo, si un individuo específico de los haplotipos son de interés para predecir su respuesta a un tratamiento farmacológico, su unphased genotipo multilocus debe combinarse con un nivel de referencia fijado para inferir los haplotipos de la eliminación [20]. Esto implica un conocimiento profundo de la NAT2 distribución genotípica en la población étnica de la que este individuo se señaló.
Este estudio demuestra que los métodos computacionales pueden proporcionar una predicción precisa y eficaz de las fases de haplotipos, en el caso particular de los genes NAT2, que muestra altos valores de LD entre los sitios polimórficos. El objetivo de este estudio no es para abogar por el uso sistemático de métodos computacionales para NAT2 haplotipo inferencia a expensas de métodos moleculares haplotyping. Estamos convencidos de que estos últimos siguen siendo el más fiable y eficaz para resolver los patrones de vinculación fase y que se pueden producir, por un determinado tamaño de la muestra, mucho más precisas las estimaciones de las frecuencias de haplotipos que otros enfoques [63]. Sin embargo, el considerable esfuerzo necesario para obtener y analizar los cromosomas preferible hacer diseños alternativos, y la in silico enfoque parece ser el más práctico. Por lo tanto, para los investigadores no estaban dispuestos a invertir tiempo y dinero en el paso preliminar de NAT2 haplotipo reconstrucción, el uso de algoritmos computacionales constituye una manera segura y efectiva de obtener datos fiables haplotípica en la que nuevos análisis podían ser llevadas a cabo. Una vez que se construyen los haplotipos, diversos métodos estadísticos se puede aplicar sobre NAT2 haplotipo de datos para detectar alelo de la enfermedad o de las asociaciones para clasificar a los pacientes de acuerdo a su condición de acetilación.
Para evaluar el desempeño de los enfoques in silico NAT2 haplotipo en la reconstrucción, que nuestro estudio basado en los datos obtenidos de la literatura, para la que se resolvió la fase vinculación directa a través de haplotyping molecular. Molecular datos publicados anteriormente de cinco conjuntos de datos fueron analizados: en que se referían a 258 españoles de Centro España [45], 137 nicaragüenses con un indio de América Central Europeo origen mixto [30], 112 británicos de la zona de Cambridge [24], 101 Negro Sur Los africanos (en su mayoría personas de habla tswana) [24], los coreanos y 1000 [31]. Todos los temas incluidos en estos estudios fueron seleccionados al azar, que no guardan relación voluntarios sanos, cuyo origen étnico se habían definido claramente. En cada muestra de la población, siete han sido escritos en SNPs NAT2 para todas las personas (no hay datos que faltan), y mutación vinculación fase de multiplicar todos los individuos heterocigotos se resolvió molecularmente mediante PCR alelo-específicas y de restricción de la cartografía. Una breve descripción de los conjuntos de datos se presentan en la Tabla 2. Estos datos proporcionan una oportunidad para comparar las frecuencias de haplotipos estimados por conteo directo de genes en experimentalmente haplotyped de datos con las frecuencias de haplotipos estimados por haplotyping algoritmos fase cuando la información se pasa por alto.
A lo largo de este informe, usaremos el término «fase conocida» para referirse a la constitución genética del individuo para el NAT2 haplotyped sistema, incluida la vinculación fase de la componente SNP alelos. Considerando que se utilizará el término "fase-desconocido" para referirse a una persona genotipo multilocus en ausencia de la fase de información.
Se evaluó la capacidad de cuatro haplotipos basados en la población a los métodos de inferencia para reconstruir NAT2 haplotipos de la fase de genotipo desconocido en los datos.
Complejidad de los algoritmos de reconstrucción de haplotipos se puede utilizar para muchos propósitos diferentes. Nos centramos aquí en tres tareas: la búsqueda de la lista de todos los haplotipos presentes en una muestra, inferir la más probable pareja de haplotipos para cada individuo muestra, y la estimación de las frecuencias de haplotipos en la población. Así, tres diferentes medidas de precisión se utilizaron para evaluar el rendimiento de los algoritmos probados.
Se utilizó la eliminación de los datos conocidos para cuantificar la cantidad de LD entre todos los pares de sitios polimórficos de la computación por el coeficiente de correlación r 2 [58] para cada población de muestra por separado. Estas estadísticas se espera que sean 1 (perfecto LD) cuando la variación es segregar en una población, ya que sólo dos haplotipos. Significación estadística de LD entre pares de sitios se evaluó por prueba exacta de Fisher. Los cálculos fueron realizados con el software PowerMarker v3.21 [59], y un gráfico resumen de las matrices de desequilibrio fue mostrado por el programa GOLD [60].
Polimorfismo de nucleótido único (SNP)
Expectativa-Optimización algoritmo (EM)
Enlace en desequilibrio (LD)
La N-acetiltransferasa 2 (NAT2)
AS participó en la concepción y diseño del estudio, en la recogida de datos, en el desempeño de todos los análisis computacional, y en la redacción del manuscrito. PD participado en el diseño del estudio, en la interpretación de los datos y en la revisión del artículo críticamente importante para el contenido intelectual. Todos los autores leído y aprobado el manuscrito final.