BMC Bioinformatics, 2006; 7: 61-61 (más artículos en esta revista)

Análisis comparativo de los algoritmos de mapas de haplotipos asociación

BioMed Central
Phillip McClurg (pmcclurg@gnf.org) [1], Mathew T Pletcher (pletcher@scripps.edu) [1], Tim Wiltshire (wiltshire@gnf.org) [1], Andrew I Su (asu@gnf.org) [1]
[1] Instituto de Genómica de la Fundación de Investigación Novartis, en San Diego, EE.UU.
[2] Present address : The Scripps Research Institute, West Palm Beach, FL 33458 USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Encontrar las causas genéticas de los rasgos cuantitativos es una tarea compleja y difícil. Clásica métodos cuantitativos para trazar el mapa de senderos loci (QTL) en miceuse una F2 cruzamiento entre dos cepas con fenotipo sustancialmente diferente y un intervalo de cartografía método para calcular los intervalos de confianza para cada posición en el genoma. Este proceso requiere de recursos importantes para la reproducción y genotipo, y los datos generados por lo general sólo son aplicables a un fenotipo de interés. Recientemente, se informó de la aplicación de un método de asignación de haplotipos asociación que utiliza densa genotipo datos a través de un variado panel de puras cepas de ratón y un marcador asociación algoritmo que es independiente de cualquier fenotipo específico. Como la disponibilidad de datos de genotipos crece en tamaño y densidad, el análisis de estos métodos de cartografía de la asociación de haplotipos se debe al aumento del valor de la estadística genética comunidad.

Resultados

Presentamos un detallado análisis comparativo de las variaciones de nuestra asociación marcador método. En particular, se describe el uso de inferir los haplotipos de SNPs adyacentes, paramétricos y estadísticas no paramétricas, y el control de los múltiples ensayos de error. Estos resultados muestran que los métodos con técnicas son ligeramente mejor en el estudio de casos de prueba que, a pesar de la elección de la estadística de ensayo a menudo puede ser dependiente de la fenotipo específico y estructura de haplotipos que se estudian. El uso de múltiples ventanas para inferir SNP haplotipo estructura local es fundamental para el uso de un variado panel de cepas puras de cartografía de QTL. Por último, debido a que el efecto marginal de un único gen en un complejo de la enfermedad suele ser relativamente pequeño, estos métodos requieren el uso de métodos sensibles para el control de la familia sabia error. También nuestro informe inicial de aplicación de este método a fenotipos catalogado en la base de datos Phenome Mouse.

Conclusión

El uso de cepas puras de ratones de QTL cartografía tiene muchas ventajas sobre los métodos tradicionales. Sin embargo, también hay limitaciones en comparación con la tradicional vinculación análisis de las líneas de RI y F2. La aplicación de estos métodos requiere una cuidadosa consideración de las opciones basadas en algoritmos tanto teóricas como prácticas factores. Nuestros resultados sugieren directrices generales, si bien una evaluación completa de estos métodos sólo se puede realizar como más datos genéticos en enfermedades complejas que se disponga.

Antecedentes

El descubrimiento de los genes que afectan directamente a la salud humana es un área activa de la investigación biomédica. Aunque los estudios han sido históricamente con predominancia de la función de los distintos fenotipos de la enfermedad en los genes, más complejas son las enfermedades causadas por la influencia de múltiples genes con menos efectos individuales. Los esfuerzos actuales en la cartografía trait loci cuantitativo (QTL) tratan de desentrañar los complejos mecanismos a través de la identificación de uno o más loci genéticos que influyen en fenotipos específicos.

Todos los mapas QTL enfoques tienen tres componentes en común: una población de individuos con una diversidad fenotípica mensurables, una medida de la diversidad genotípica presente en esa población, y un método estadístico para evaluar la asociación entre el fenotipo y genotipo. En las últimas décadas, mucho se ha centrado la atención dirigida hacia la "clásica" QTL técnicas de cartografía en el ratón, que utilizan diversidad genética y fenotípica generados usando F2 intercrosses o retrocruzamientos y un intervalo método de asignación presentado por Lander y Botstein [1]. Este enfoque ha sido utilizado con éxito para el mapa miles de QTL en roedores para una amplia gama de fenotipos, que van desde el gusto preferencia a la susceptibilidad a la enfermedad. Sin embargo, dado que este método utiliza el ratón para generar cruces de diversidad genética y fenotípica, genética F2 repeticiones de la población no pueden ser fácilmente producidos. Por lo tanto, F2 genotipo de cada animal es necesario después de la etapa inicial de la cría, lo que hace que ambos mapas QTL tradicionales costosos y largos, que a menudo requieren meses o años en completarse. Además, de los miles de QTL que han sido identificados, sólo un pequeño porcentaje se han caracterizado a nivel molecular, en parte debido al gran tamaño de QTL intervalos [2].

Recombinantes puras (RI) grupos de ratones [3] en el que los genomas de un pseudo-F2 población son fijos también se han utilizado para la cartografía de QTL. Estas cepas tienen la ventaja de que isogénicas progenie puedan ser de fácil mantenimiento en el laboratorio y, en consecuencia, en las distintas cepas de genotipos se pueden aplicar a muchos fenotipos. Además, RI contienen cepas más recombinación acontecimientos relativos a los animales F2, potencialmente mejorar QTL resolución. Sin embargo, desde RI paneles también son costosos y largos para generar, la disponibilidad de determinados cruces se limita en la actualidad.

Aquí, describimos una clase de cartografía de QTL métodos que utiliza la actual variación genética y fenotípica que se produce en común puras de ratones de laboratorio para estudios de asociación (anteriormente denominada "in silico de cartografía" [4]]. Durante el último siglo de la reproducción y la consanguinidad para producir el moderno laboratorio de uso común de cepas de ratones, amplias variaciones en los rasgos fenotípicos se han observado. Los esfuerzos por catálogo tensión entre estas diferencias fenotípicas son muy avanzada (por ejemplo, el MPD, [5, 6]]. La estructura genotípica de las cepas también se está dilucidado a través de esfuerzos en la cartografía de densa polimorfismos de nucleótido único (SNP), y la diferencia entre estas cepas se está convirtiendo en la forma de estructura de haplotipos [7 - 10]. It has been hypothesized that these inbred mouse strains have the necessary experimental requirements to facilitate QTL mapping [ 4 , 9 ]. Esta hipótesis sugiere que el fenotipo específico ratón cruces no sería necesaria para la identificación inicial de QTL, y que en gran escala de genotipos esfuerzos se pudieran generar y combinados en un fenotipo de manera independiente. Además, este método sería aplicable a los organismos de cría controlada en la que no es factible.

Otros asociación cartografía esfuerzos utilizando un variado panel de cepas puras se han reportado [4, 11, 12]. Recientemente, se informó de los resultados de la cartografía de QTL puras cepas de ratones sobre la base de una estrategia de asociación de haplotipos [9]. Brevemente, 10990 SNPs espaciados a intervalos de ~ 300 Kb fueron identificados a partir de la base de datos de Celera Mouse SNP. El ADN genómico de 48 cepas de ratones (incluyendo las 40 cepas de la prioridad Mouse Phenome Project) fue a través de este genotipo SNP conjunto, la producción de un total de 470407 alelo llamadas. Estos datos se utilizaron para conocer el mapa y la novela QTL para varios rasgos monogénicas, así como complejas características como la preferencia de sabor dulce, lipoproteínas de alta densidad del colesterol (HDLC), y la formación de cálculos biliares. Investigadores independientes han utilizado también para nuestra asociación de haplotipos método para afinar un QTL región F2 intercross de un estudio [13].

En este manuscrito, se describe en detalle una comparación de los diversos enfoques algorítmico a la cartografía de haplotipos asociación, en términos de rigor estadístico y el éxito en la reproducción de la biología conocida. En particular, abordar las cuestiones de tamaño y la estructura de haplotipos, paramétricas y no paramétricas de estimación de la importancia, y el control de los múltiples ensayos de error. Por último, se concluye con una descripción de los esfuerzos iniciales para aplicar nuestro algoritmo de mapas de haplotipos asociación a los numerosos fenotipos almacenados en la base de datos Phenome Mouse.

Métodos y resultados
Prueba de conjuntos de datos

A los efectos de la evaluación de nuestra asociación de mapas de haplotipos algoritmos, se consideró que existen dos fenotipos de los determinantes genéticos que están relativamente bien caracterizado: preferencia de sabor dulce y HDLC. Preferencia de sabor dulce es un rasgo relativamente simple cuantitativos QTL para el que varios han sido identificadas [14]. Además, un QTL región se ha reducido a un rasgo cuantitativo específico de genes (QTG), llamado Tas1r3, que es responsable del 30% de la variación observada en el dulce sabor preferencia fenotipo [15]. HDLC es un rasgo complejo cuantitativos QTL para el que muchos han sido identificados utilizando tradicional cruz QTL cartografía de base [16]. Cuarenta y dos por ciento del genoma de ratón cae dentro de un intervalo de confianza del conocido QTL. Dado que en la mayoría de los casos estos QTL no se han perfeccionado a QTG correspondiente, y desde la cruz QTL basado en la cartografía tiene sus propios falsos positivos y falsos negativos tasas, este sistema no es el ideal "estándar de oro" para la evaluación de la especificidad y sensibilidad . Sin embargo, como una de las más bien estudiados multigenic y cuantitativas, HDLC niveles puede ser el mejor punto de referencia disponible para la evaluación de resultados de los mapas de haplotipos asociación en un complejo fenotipo.

Cálculo de las puntuaciones de la Asociación
El control de múltiples ensayos
Minería el ratón fenómeno base de datos

También hemos aplicado nuestros algoritmos para una muestra de fenotipos en la base de datos Phenome Mouse (MPD; [5, 6])]. Actualmente, existen cerca de 1000 fenotipos almacenados en el MPD, a través de una amplia gama de categorías fenotípicas. Hemos elegido un subconjunto de diecisiete fenotipos en la que contábamos con todos los haplotipos de nuestra asociación métodos. El fenotipo de datos para hombres y mujeres fueron analizados por separado. Genoma de toda significación se calculó con el método gFWER, k = 10. El cuadro 2 muestra el número de loci que asocia significativamente para cada fenotipo y método.

Desde estos fenotipos son aún menos bien caracterizados que los ejemplos que hemos utilizado en el método de desarrollo (HDLC y gustos), el análisis detallado de la especificidad y la sensibilidad no son posibles. No obstante, algunas tendencias generales están a la vista. En primer lugar, más de diez importantes loci (nuestro umbral de tolerancia de los falsos positivos) por cualquier método fueron observados en menos de la mitad (15 de 34) de los fenotipos examinados. Varios factores podrían explicar la falta de asociaciones en la mayoría de los fenotipos. Podría haber un gen o genes que verdaderamente afectan a las plantas, pero el genotipo de datos en esta región ha faltan datos o no es lo suficientemente densa para representar con exactitud la estructura de bloques de haplotipos. Alternativamente, la marginal de afectar a cualquiera de genes en el fenotipo general podría ser demasiado pequeño para detectar el uso de estos métodos. También se observa que las regiones de mayor diversidad de haplotipos y no son interrogados por estos métodos debido a la pérdida de poder resultan de la disminución de las poblaciones de cada grupo de haplotipos.

En segundo lugar, en los casos en que más de diez loci se observan, la IH-KW método suele ser el método que se informa el mayor número de asociaciones. Estas asociaciones son probablemente debido a la estructura de la población los efectos descritos más arriba. A pesar de que la modificación del tipo F-estadística que se usa en la IH-P-B IH y métodos de los grupos de haplotipos de las cuentas que están dominadas por otras cepas estrechamente relacionadas, la estadística de Kruskal-Wallis no es fácil de modificar de un modo similar. Por lo tanto, es probable que el elevado número de asociaciones es el resultado de la asociación a la estructura genética de fondo entre las líneas puras. Otras dos observaciones corroboran esta hipótesis. El uso de un F-estadística no ponderado también aumenta el número de las asociaciones observadas, y la diferencia es más notable en fenotipos (por ejemplo, LYM), en la que el grupo de cepas con un más alto grado de similitud genética (por lo general relacionados con el linaje C57) Contiene agrupadas y valores extremos (datos no presentados). En el ejemplo más extremo, NEUT, todos los métodos informe inusualmente largos tramos de asociar loci, lo que indica que incluso los modificados F-estadística no es suficiente para contrarrestar la fuerte correlación entre fenotipo y de la estructura de la población.

Discusión

QTL cartografía en roedores ha sido una estrategia importante para la reducción de la expansiva genoma relativamente pequeño de regiones del genoma que contiene los genes de interés para un fenotipo de interés. Hasta la fecha, la mayoría de los QTL se han determinado utilizando las poblaciones sobre la base de cruces F2. Sin embargo, estos métodos son mucho tiempo y es costoso. Además, sólo un pequeño porcentaje de los QTL identificados usando F2 cruces han sido mapeados a la gen o polimorfismo, por lo menos en parte debido a la relativamente gran tamaño de las regiones QTL.

En este sentido, hemos presentado un análisis comparativo de los métodos que utilizan la diversidad genética y fenotípica presente en común puras de ratones de laboratorio. Las ventajas potenciales de este tipo de enfoque es doble. En primer lugar, fenotipo específico ratón cruces no son necesarios para generar la necesaria diversidad genética y fenotípica de la identificación inicial de QTL. Fenotipo datos todavía tienen que medirse en el grupo de líneas puras ratón, pero suponiendo una variedad apropiada de fenotipo valores existe, el resto de la asociación se pueden realizar análisis in silico. En segundo lugar, a gran escala de genotipos se pueden generar esfuerzos combinados y en un fenotipo de manera independiente, por lo que este planteamiento se presta a los esfuerzos de colaboración que beneficiará a toda la comunidad de la genética del ratón. Además, dadas las actuales series de datos que nosotros y otros han producido, nuestro método de asignación de haplotipos de asociación permite a los estudios de asociación rápidamente se realice a través de una serie de fenotipos disponibles (MPD, por ejemplo).

QTL cartografía también se ha realizado utilizando líneas de GH, que además tiene la ventaja de la combinación de genotipo de datos en los esfuerzos de la comunidad. Sin embargo, dado que comúnmente disponibles RI líneas se derivan de sólo dos padres, las regiones en las que los padres las cepas son idénticos por descendencia (IBD) no puede ser determinada por QTL. Por ejemplo, al comparar C57/BL6J y DBA (padres en el panel BXD RI), sólo 6292 tienen un loci inferirse de haplotipos diferentes. En cambio, el pleno del panel de cepas congénicas de ratones de laboratorio interroga 11182 loci, incluso después de la filtración de loci con trivially pequeño grupo de haplotipos tamaños. Además, la cartografía de QTL RI líneas también está limitada por la disponibilidad limitada de determinados cruces.

Aunque el conjunto de cepas congénicas de ratones utilizados en nuestro análisis contiene una mayor diversidad genotípica y fenotípica en comparación con los disponibles en la actualidad RI líneas, la propuesta del Complejo Trait Consorcio para crear nuevas cepas de RI 1000 podría servir como un potente recurso para todo el genoma Asociación algoritmos [3]. Dado que estas cepas se derivada de los cruces de ocho cepas de los padres, que sin duda representan una igualmente amplia diversidad genotípica y fenotípica como nuestro grupo de cepas puras. Además, la asignación al azar controlados de la genómica dará lugar a una estructura de población más controlado que en la actualidad se encuentran en el laboratorio de puras cepas comunes.

En este sentido, hemos explorado las variantes de la asociación de cartografía algoritmo de lo que originalmente se informó de [9] utilizando diferentes pruebas estadísticas y los métodos de cálculo de importancia en la actualidad dispone de cepas puras. Además, hemos investigado la utilización generalizada de los umbrales para establecer FWER genoma de toda significación umbrales. Aunque la falta de un verdadero patrón de oro impide una comparación definitiva entre estos métodos, dos tendencias generales se observó que probablemente pueden ser extrapolados a todas las asociaciones de cartografía en cepas puras. En primer lugar, ya que la estructura de bloques de haplotipos en cepas puras es complejo en relación con RI o F2 poblaciones, la utilización de múltiples ventanas SNP para asignar los grupos de haplotipos es más adecuada que simplemente utilizando el genotipo en un solo lugar. En segundo lugar, porque la estructura de la población es claramente evidente en estas líneas puras, los métodos para tener en cuenta que la estructura debe ser incorporada en los algoritmos de asociación cartografía. En este sentido, utilizar una modificación del F-estadística de los factores que en el cálculo de la media pairwise similitud genética dentro de un grupo de haplotipos.

A pesar de las posibles ventajas de la asociación de haplotipos de cartografía, las limitaciones en el diseño experimental relativo a la tradicional cruzada basada en la cartografía QTL hay que señalar. Como se ha señalado anteriormente, es importante la estructura de la población en estas puras ratones que no está presente en ninguno de los dos F2 o RI poblaciones. Esta estructura complica el análisis, y en algunos casos impide que esta estrategia de ser aplicado de manera significativa a ciertos fenotipos. La asociación métricas de nuestra haplotipo associationmethod también utiliza un modelo relativamente simple ANOVA (en comparación con el más complejo de estimación de máxima verosimilitud). Vínculo tradicional análisis basan sus estimaciones en modelos de regresión que incorporan los animales, mientras que nuestra metodología utiliza ANOVA cepa medios. Además, los tamaños de los grupos de haplotipos son pequeños en comparación con el número mucho mayor de individuos típicos utilizados en los estudios de ligamiento. Todos estos factores pueden llevar a una pérdida de poder.

También es importante señalar la fuerte dependencia de este haplotipo asociación método de asignación tiene en la estructura de bloques de haplotipos deducirse en el genoma del ratón. Si bien la existencia de bloques de haplotipos de la estructura general se acepta, hay debate en curso en relación con el tamaño de estos bloques y de la capacidad de asociación de mapas de haplotipos métodos para la detección de asociaciones. Más resultados de los últimos Frazer et al. [7] y Yalcin et al. [10] indican la estructura de haplotipos de puras ratones pueden contener regiones de complejidad que impiden incluso densa SNP mapas de la detección de asociaciones significativas entre genotipo y fenotipo. También hemos tropezado esta complejidad al investigar ciertos loci conocidos que contienen cuantitativa de los genes. En algunos casos, hemos observado que la mayor densidad de SNP son necesarias para detectar los loci conocidos, lo cual indica un posible haplotipo más fragmentado en esta región. Es evidente que las personas que utilizan estos algoritmos debe ser consciente de las limitaciones de sus SNP conjunto, pero como SNP densidad aumenta el efecto de estas cuestiones será mitigado.

Independientemente de los puntos fuertes y débiles entre los haplotipos de asociación y de la cartografía tradicional QTL, estos métodos son etapas intermedias en la búsqueda del objetivo final - la identificación de un gen que afecta directamente al fenotipo de interés. En este estudio, hemos utilizado los niveles HDLC como principal fenotipo para evaluar el rendimiento de nuestros algoritmos. Este fenotipo se ha elegido porque se ha estudiado de forma exhaustiva y muchos QTL han sido previamente identificadas. Sin embargo, la lista de QTL que influyen en los niveles de HDLC no son ciertamente exhaustivos, y en la mayoría de los casos los genes específicos en el QTL regiones no han sido identificados. Si bien la capacidad de asociación de haplotipos metodologías para replicar loci identificados en los métodos tradicionales de QTL es alentador, esta comparación no es un método ideal para evaluar su especificidad y sensibilidad. En última instancia, una evaluación global entre estos enfoques pueden venir sólo después de la base genética de múltiples complejos rasgos ha sido estudiado exhaustivamente.

Conclusión

El uso de cepas puras de ratones de QTL cartografía tiene muchas ventajas sobre los métodos tradicionales. Sin embargo, también hay limitaciones en comparación con los tradicionales análisis de ligamiento de F2 y RI líneas, y la aplicación de estos métodos requiere una cuidadosa consideración de las opciones basadas en algoritmos tanto teóricas como prácticas factores. En este sentido, hemos demostrado que la elección óptima de los ensayos de estadística depende de la estructura de la genética y fenotípica de datos, que el uso de múltiples ventanas para inferir SNP haplotipo estructura local es esencial en el uso de esta diversidad de la población de cepas congénicas de ratones, GFWER y que el enfoque es una forma efectiva de control para múltiples ensayos de error al mismo tiempo la preservación de la sensibilidad.

Contribuciones de los autores

Todos los autores participaron en el diseño de algoritmos y de la interpretación de los resultados. Además, PMC realizado todos los análisis estadísticos, y PMC y AS redactado el manuscrito.

Material suplementario
Archivo Adicional 1
Los resultados de un solo marcador de cartografía (SMM) método de preferencia de sabor dulce.
La barra superior muestra el gráfico computa HDLC fenotipo asociación perfil utilizando el método paramétrico SMM. La barra inferior gráfico muestra la ubicación de Tas1R3, un gen que se ha demostrado previamente para influir en la preferencia sabor dulce [
15
]. El eje "x" indica el eje genómica, en donde se indican los límites cromosómicas por el centro de la barra. La máxima puntuación LOD se cortó a las 12. Asociación de las puntuaciones por debajo de 3 y LOD puntuaciones por debajo de 3,3 no se muestran. Picos en el cromosoma X se ignoran, y varios picos dentro de una ventana de 5 MB solamente se cuentan una vez.
Archivo Adicional 2
Resultados de inferirse-haplotipo paramétricos (IH-P) método de preferencia de sabor dulce.
Archivo Adicional 3
Resultados de inferirse-haplotipo Kruskal-Wallis (KW-IH) método de preferencia de sabor dulce.
Agradecimientos

Damos las gracias a Michael Cooke, Colin Fletcher, Richard Glynne, John Hogenesch, y Jeff Janes útil para comentarios y debates.