PLoS Computational Biology, 2006; 2(11): (más artículos en esta revista)

Selección de Sitios de destino para móviles en la integración del ADN del genoma humano

Biblioteca Pública de la Ciencia
Charles Berry [1], Sridhar Hannenhalli [2], Jeremy Leipzig [3], Frederic bushman D [3]
[1] Departamento de la Familia y Medicina Preventiva de la Facultad de Medicina de la Universidad de California San Diego, La Jolla, California, Estados Unidos de América
[2] Departamento de Genética, Universidad de Pennsylvania School of Medicine, Filadelfia, Pennsylvania, Estados Unidos de América
[3] Departamento de Microbiología, Universidad de Pennsylvania School of Medicine, Filadelfia, Pennsylvania, Estados Unidos de América
Resumen

Las secuencias de ADN de los retrovirus, retrotransposones, transposones de ADN, y parvoviruses pueden integrarse en el genoma humano. La acumulación de tales cuentas para las secuencias de al menos el 40% de nuestro genoma el día de hoy. La integración de estos elementos son también de interés, como la entrega de genes humanos vectores para terapia génica. Aquí presentamos un completo análisis bioinformático de integración dirigidos por el VIH, MLV, ASLV, SFV, L1, SB, y AAV. Se utilizó un método matemático que permitió la anotación de cada par de base en el genoma humano por su probabilidad de albergar un evento de integración de cada tipo de elemento, tomando ventaja de más de 200 tipos de anotación genómica. Este bioinformáticas documentos de recursos una gran cantidad de nuevas asociaciones entre las características genómicas y la integración de orientación. El estudio también reveló que la duración de los intervalos de genómica analizada fuertemente afectado las conclusiones extraídas de este modo, responder a la pregunta "¿Qué características genómicas afectar la integración?" Requiere atención especifica la escala de longitud de interés.

Introducción

Los exones de los genes humanos comprenden sólo el 1,5% del total de la secuencia del genoma [1, 2]. Los fragmentos del genoma de los parásitos de la integración de los virus y transposones-comprenden una fracción mucho más grande, por lo menos el 40%. Estos elementos también son muy dinámicos-insertar nuevos elementos y, en ocasiones, los impuestos especiales, y repetidas secuencias de proporcionar portátiles regiones de homología de secuencia que actúan como sustratos para recombinación homóloga. Integración de nuevas ADN puede dar lugar a cambios en la actividad de los genes o la formación de nuevos genes [3, 4].

La integración de elementos de ADN también son importantes en la terapia de genes humanos como los vehículos de reparto para las nuevas secuencias. Los recientes reveses en la terapia génica, sin embargo, hacen hincapié en la importancia de la integración objetivo de selección de sitios. En una de otra bastante éxito la terapia génica de juicio el tratamiento de humanos X-SCID, la terapia génica vector utilizado integrado cerca de un proto-oncogén y leucemia provocados por tres de los pacientes tratados [5, 6].

Aquí presentamos un detallado análisis bioinformático de la integración de orientación en el genoma humano de siete tipos de integración de elementos, aprovechando la extensa secuencia de datos disponibles en los sitios de novo de integración [7]. Para los retrovirus, publicado en todo el genoma encuestas objetivo de la integración sitios han demostrado que el virus de inmunodeficiencia humana (VIH), virus de la leucemia murina (MLV), sarcoma aviar-virus de la leucosis (ASLV), y símico espumoso virus (SFV), todos muestran diferentes patrones a favor de la integración de los sitios. VIH favorece la integración activa en las unidades de transcripción (TUS) [8 - 16], mientras que MLV favorecido la integración de genes, cerca de 5 'termina [9, 16]. ASLV muestra la mayoría de azar objetivo sitio de distribución, favoreciendo TUS sólo ligeramente [10, 17]. SFV integración sitios son también relativamente distribuidos al azar, aunque a favor de una integración de cerca de las islas CpG se detecten [18].

Long intercalados elementos nucleares (líneas) no son retrotransposones LTR que replicar a través de la transcripción, a continuación, la transcripción reversa a prueba por un nick en el ADN genómico objetivo [3, 4, 19, 20]. LÍNEA relacionados con las secuencias de comprender plenamente el 20% del ADN humano [1, 2]. Líneas son las únicas conocidas clase de transposones humanos que están activas para la transposición, los demás están inactivas fósiles moleculares. Dos encuestas anteriores dirigidas a la integración de la ingeniería humana de las líneas L1 hizo hincapié en que la integración de reacción a menudo rearranges sitio de destino de ADN como consecuencia de la unida con transcripción inversa mecanismo de integración [21, 22]. Los estudios publicados llegado a conclusiones diferentes sobre la conveniencia o no son tus metas a favor de la integración.

Otra clase de transposones es un ejemplo de la Bella Durmiente (SB). Este elemento se incorpora a través de un "cortar y pegar" mecanismo, con la participación de la escisión de la SB de ADN del genoma y la reinserción en un nuevo lugar [3, 4]. SB integración de selección de sitios en vivo ha sido estudiada por dos grupos, lo que demuestra que la integración sitios fueron casi distribuidos aleatoriamente en el genoma, mostrando sólo una débil favoreciendo de tus [23, 24].

El último elemento integrador estudiado es el parvovirus adeno-asociado virus (AAV). AAV no integra como un paso normal en su ciclo de vida, pero bajo ciertas condiciones de crecimiento una parte del ADN viral puede integrarse en la célula huésped cromosoma. En las infecciones de tipo salvaje AAV, la integración puede tener lugar preferentemente en un lugar específico en el cromosoma 19 humano. Sin embargo, en infecciones con AAV basado en vectores que no expresan la proteína viral Rep, la integración no es sitio-específica [25]. En el AAV-conjunto de datos vectoriales estudiado aquí, la integración se informó que tendrá lugar con una ligera preferencia por las regiones próximas a iniciar la transcripción sitios [26, 27]. Integración en estas condiciones no se lleva a cabo por un AAV-codificado integrasa / transposase enzima, pero al parecer de acogida de las enzimas que participan en los talleres de reparación de ADN de doble filamento se rompe. Durante el proceso de reparación, AAV las secuencias se proponen para ser incorporados a fin de puente entre los extremos rotos de ADN [28].

Si bien la integración se lleva a cabo en muchos lugares del genoma, a favor de las secuencias de nucleótidos específicos pueden ser detectados en el ADN diana en el punto de integración para la mayoría de estos elementos. Para las líneas y la SB, esta secuencia de nucleótidos es muy conservado entre los sitios [23, 24, 26, 27, 29, 30]. Para los retrovirus, la conservación es más débil pero aún así significativa [31 - 34]. En algunos casos, los estudios in vitro han demostrado que favoreció la secuencia objetivo es una propiedad del elemento de integración enzimas codificados. Por ejemplo, una versión sintética del VIH a favor de la integración secuencia 5'GT (A / T) AC3 "ha demostrado ser un destino preferencial para la integración del VIH integración complejos in vitro [32]. Estudios similares se encuentran disponibles para MLV, ASLV, L1, y transposones de ADN [3, 35 - 38], pero no para SFV y AAV. ¿Cuánto estas secuencias de influencia a favor de la integración de la selección de sitios en todo el genoma no ha sido plenamente aclarado.

Aquí presentamos una comparación estadística de los factores que influyen en la integración de describir la frecuencia de cada par de base en el genoma humano por su probabilidad relativa de ser anfitrión de eventos de integración. Efectos combinados de la genómica características fueron valoradas posteriormente, con la participación de análisis de más de 200 variables de más de 17 integración de datos in situ. Estos consisten en variables reconocibles genómica características tales como la densidad de genes, islas CpG, DNasa I división sitios, etc, analizó más de intervalos de duración variable, por lo que a> 200 medidas. Para construir el modelo combinado, un promedio de Bayes modelo y el algoritmo de aprendizaje automático RandomForest se utilizaron para la muestra "modelo espacial" de manera eficiente y, por tanto, aclarar los efectos debidos a la correlación entre las variables (es decir, "los efectos de confusión," en la terminología estadística).

Los efectos del intervalo de tamaños utilizados para la comparación También se evaluaron. Por ejemplo, al tratar de evaluar los riesgos potenciales de la terapia génica, se podría querer saber si el promotor regiones para determinados oncogenes son especialmente favorables las metas de integración en comparación con otros promotores. Hemos encontrado que las conclusiones pueden ser diferentes e incluso opuestos, dependiendo del tamaño de intervalo estudiado.

En la sección Resultados, el análisis está organizado en torno a cada tipo de anotación genómica. Los datos se resumen como un código de color "mapas de calor", que permite el uso de estos hallazgos como una enciclopedia para evaluar los efectos de las características genómicas de orientación sobre la integración de cada elemento. En el debate sección, los nuevos hallazgos se presentan a su vez para cada clase de elemento integrador.

Resultados
Estudios Conjuntos de datos

La integración colecciones sitio estudiado se enumeran en el cuadro 1, junto con las referencias originales. Para generar cada conjunto de datos, elementos de ingeniería fueron inducidos a llevar a cabo la integración en células humanas cultivadas. Después de dar tiempo para la integración, el ADN genómico fue cosechada, ADN humano y el acompañamiento integral elemento fue clonado y secuenciado. Para todos los elementos excepto AAV es posible obtener in situ la integración de datos de múltiples tipos de células. La comparación entre estos datos se proporciona información sobre la influencia del tipo de células.

Otra variable es el tratamiento de las células después de la infección. En algunos casos, la recuperación de la integración participan el uso de un marcador seleccionable llevó a integrar el elemento. Como resultado de ello, el elemento integrado sólo se recupere en caso de apoyo a la expresión génica. Trabajo previo ha sugerido que la selección de expresión para la recuperación parcial de integración sitios [15, 16], y este análisis se extiende a continuación.

Para el análisis estadístico, la integración de datos de sitio se compararon con el control seleccionados al azar los sitios en el genoma humano. Muchos de los sitios fueron clonados por métodos que implican el uso de enzimas de restricción para cleave ADN genómico de acompañamiento elementos integrados. De este modo se suscita la preocupación de que la colocación de la enzima de restricción división sitios en el genoma humano podría sesgo de la recuperación de sitios de integración. Para muchos de los datos estudiados, es posible para corregir los posibles sesgos mediante un control aleatorio corresponde, en el que cada experimentalmente generados integración sitio fue emparejado con diez sitios al azar en el genoma humano que fueron obligados a mentir el mismo número de pares de bases de un sitio de restricción. En el análisis estadístico, cada sitio experimental de integración se comparó con su combinado controles aleatorios, con lo que el control de posibles sesgos de la enzima de restricción división. En el caso de algunos sitios de integración de datos, no es práctico para generar acompañado controles aleatorios, por lo inigualable aleatoria sitios fueron utilizados (Tabla 1].

Para la comparación de la integración de frecuencia para la actividad transcripcional, microarrays de datos se utilizó para describir los genes de su actividad relativa. En la mayoría de los casos es posible el uso conjunto de datos de los tipos de células utilizadas en el estudio de integración (Tabla S1].

Asociaciones de Genómica ver con la integración

Nuestro enfoque estadístico se resume en las siguientes secciones. Un tratamiento más completo puede encontrarse en Texto S1-S3.

Las variables que utilizan para describir las características de la secuencia genómica en torno a la integración o controles de sitios (un detallado catálogo de características genómicas es en Texto S2, pp. 3-4). Para analizar los efectos de las características genómicas en la integración, hemos utilizado una acción común de una variable predictora de la capacidad de discriminar entre dos clases de eventos, que es el área bajo la característica operador receptor (ROC) curva (de fondo en las curvas ROC, ver [39 ]). Un ejemplo de una curva ROC se presenta en la Figura 1 A, y una explicación detallada se presenta en el Texto S1. Para el análisis, experimental y de control de sitios de integración se combinaron, entonces la puntuación de una característica genómica utilizada para clasificar los sitios en verdaderos (experimental) y falsa (control) la integración sitios. La curva ROC parcelas de la verdadera tasa positiva en el eje vertical frente a la tasa de falso positivo en el eje horizontal. Conceptualmente, la curva se puede construir a partir de un cutpoint (el valor de un predictor-por ejemplo, la densidad de genes) que es superior al valor más alto para cualquier otro sitio. La curva ROC se inicia en (0,0). El cutpoint (densidad de genes de valor) se mueve entonces en etapas. La curva se extiende de abajo a la izquierda a la parte superior derecha, dando un paso en la dirección vertical para cada correcto llamar al (sitio de integración), y teniendo un paso en la dirección horizontal por cada llamada falsa (control aleatorio; Figura 1 A).

De este modo, el área bajo la curva es de 1,0 cuando todos los eventos de integración tienen valores más altos para la función de control que cualquier evento, y 0,0 para el caso contrario. Cuando el área es de 0,5, es igualmente probable que o bien tiene un mayor valor por lo tanto, ROC cerca de 0,5 valores son coherentes con que no tienen valor predictivo. Como se describe en detalle en el Texto S2, en algunos casos técnicas adicionales se utilizaron para analizar algunas partes de los datos. Una ventaja importante de la República de China enfoque es que los efectos de diferentes variables pueden anotó utilizando una única medida y, a continuación, posibles interacciones o redundancia entre las variables pueden ser evaluadas.

Dado que hay 17 bases de datos y varios centenares de descripciones de las características genómicas en el análisis, un pacto de representación de estas asociaciones es necesario. Una visión general es provista por el boxplots de mejora con respecto a las posibilidades de rendimiento, medido por el área bajo la curva ROC en la Figura 1 B. Esta mejora se presenta como el valor absoluto de la diferencia entre el área bajo la curva ROC y 0,50. Los valores en torno a 0,0 indican no predictivo información útil para esta función; valores cerca de 0,5 indican que la función es casi perfecta integración en la separación de los sitios de controles aleatorios.

Como puede verse por la comparación de los medios (Figura 1 B, pesadas barras), la mayoría de las características del genoma ejerce una influencia detectable sobre la integración de orientación. Los sesgos detectados aquí y que se mencionan a continuación fueron en general muy significativa estadísticamente. Las excepciones se observan en el texto. La dispersión, como lo demuestra el bigotes y de forma individual trazado extremos, se hace hincapié en las diferencias entre los conjuntos de datos. Algo inesperadamente, el valor score.20 ROC, que informa los efectos de la sucesión a los 20 pb en torno al punto de integración, muestra el efecto más fuerte de cualquier variable.

Las influencias de cada una de estas variables sobre la integración son considerados individualmente en las próximas secciones, entonces los efectos combinados son evaluados.

Efectos de la secuencia de nucleótidos a los 20 pb de alrededor de los Centros de Integración (score.20)

Figura 2 A se muestra la ROC áreas sobre la base de la score.20 secuencias ilustran como el calor de ruta. En esta muestra y, posteriormente, el rojo indica a favor de la integración para la función de prueba y verde desfavorecidos integración. Intensidad de color indica la magnitud. Figura 2 B muestra a favor de las secuencias trazó para ilustrar el peso sobre el peso posicional score.20 matriz (PWM), que describe el diario proporción de la frecuencia de cada una de las cuatro bases en cada posición del Parlamento al frecuencia corresponde a controles aleatorios. El error estándar para la curva ROC zonas en la Figura 2 A son más pequeños que todas las 0.05 (y la mayoría son de menos de 0.015); perceptibles las diferencias suelen ser estadísticamente muy significativas. A modo de ejemplo, los p-valores de la curva ROC score.20 zonas (Figura 2 A, fila superior) son todos menos de 10 -14, y ésto es válido para las curvas ROC en las figuras 3 - 4.

Conjuntos de datos para cada tipo de elemento integrador mostrar otro muy similar a favor de las bases, a pesar de las diferencias de tipos de células y condiciones experimentales. Esto encaja con la expectativa de que la score.20 PWMs representar a favor de la mayoría de los sitios de carácter vinculante o la catálisis para el elemento a codificar las enzimas de recombinación, como se sugiere en trabajos anteriores. Para L1, la endonucleasa que inicialmente cleaves sitio de destino de ADN favorece firmemente 5'-AAATTT-3 'sitios [35], lo que explica la fuerte correlación entre la integración y la L1 score.20 PWM [21, 22]. Por el transposón SB ADN, la integración está firmemente a favor de 5'-TA'3 'de pares de bases [23, 24], y esto es reflejado igualmente en las actividades de purificado transposases relacionados con la SB [37, 38]. Más débil, pero todavía bastante significativa efectos se consideran para el retrovirus [31 - 34]. AAV muestra de integración a los más débiles efectos de score.20, potencialmente consecuencia de la integración espontánea en el ADN de doble filamento se rompe [28].

Muchas de las preguntas en torno a la integración frecuencia la participación de segmentos genómicos, como promotor de las regiones, donde uno está interesado en saber qué tan probable es la integración en esa región, y la importancia de diferentes características se encuentran en la dirección de la integración hacia esa región. Estas preguntas pueden ser contestadas directamente por calcular el número esperado de acontecimientos de integración en cada bp en una región y añadiendo juntos para obtener el número esperado de acontecimientos de integración para la región. Para algunas anotaciones, esto puede ser gravoso computacionalmente. Sin embargo, una menos gravosa computacionalmente aproximación puede utilizarse cuando la integración eventos son escasos en el genoma. Para determinar si la score.20 PWM ayuda a identificar intervalos más largos que la integración de acogida eventos, intervalos de 50 pb a 2 kb sitios que contengan la integración o controles se anotó. Cada base en el intervalo fue tratado como el borde de un sitio de integración; entonces todas esas ventanas se anotó durante el intervalo de tiempo, y el intervalo de resultados se suma. Los valores se resumen a continuación, realizarán las pruebas de su capacidad para ordenar los sitios experimentales integración de los controles y los resultados se presentan como áreas bajo las curvas ROC (Figura 2 C). Por lo tanto, este procedimiento si las pruebas a favor de primaria se agrupan en los sitios en el genoma.

Comparación de la fila superior de la Figura 2 A (ROC zonas que describen los efectos de la plena score.20 motivo) a las filas en la Figura 2 C muestra que la score.20 PWM distinguido integración sitios de los controles de manera eficiente y mucho menos cuando los intervalos de mayor tamaño han sido probadas para todos los de la integración de elementos. Esto puede parecer una evidente dado el resultado concreto a favor de motivos para la integración (Figura 2 B), en el que un solo cambio de base se puede convertir un motivo muy favorable a una desfavorable. Sin embargo, si determinadas regiones son ricos con motivos favorable, la puntuación media más de un intervalo muy posible predecir la integración. Para once de las diecisiete bases de datos, una reducción clasificado en zona ROC es visto cada vez con mayor longitud del intervalo considerado. Esto es lo esperado si alta puntuación a los partidos score.20 PWMs son relativamente comunes, a fin de que un número importante de altas puntuaciones se encuentran casi todas las veces en un intervalo de seleccionados al azar como en un intervalo que contiene un sitio de integración. Sorprendentemente, los valores MLV ya aumentar con intervalo de tamaños, aunque no una copia de seguridad al original score.20 valores en la Figura 2 A, lo que indica un cierto grado de agrupación de los motivos a favor. Por lo tanto, la influencia de score.20 se redujo principalmente en las escalas de longitud más largo, aunque incluso con 2-kb intervalos de muchos de los elementos integrar el efecto fue todavía discernible.

Transcripción de integración en unidades y el Efecto de la actividad de los genes

La Figura 3 muestra un mapa de calor para el área bajo la curva ROC, resumiendo el aumento de la frecuencia de integración dentro de TUS y exones. Varios gen humano catálogos están disponibles, por lo que repitió el análisis de cinco de ellos. El "exón" ROC zonas no mostraron efecto discernible y no serán consideradas con mayor detalle. Sin embargo, ROC zonas para tus registró un fuerte efectos que difieren entre los conjuntos de datos. Todos los datos del VIH mostraron a favor de la integración en la mayoría de los TU llamadas, lo cual es consistente con informes anteriores [8 - 16]. De los otros retrovirus, los dos conjuntos de datos y MLV ASLV-293T mostró a favor de la debilidad de varias de las llamadas TU [9, 16], lo que indica la debilidad sindical, al tiempo que SFV mostró ninguna asociación, o en un caso negativo asociación [18]. Para SB, un conjunto de datos mostró una débil asociación con refGenes, pero todas las demás medidas que fueron negativos. En la literatura anterior, hubo desacuerdo sobre si L1 a favor de la integración en tus [21, 22]. Por la República de China enfoque utilizado aquí, TUS fueron desfavorables o bien no tenía ninguna influencia. Del mismo modo AAV integración de orientación no se vio afectada por TUS.

Figura 3 B muestra un mapa de calor similar sobre la base de ROC áreas, en esta ocasión se resumían los efectos de la densidad de genes en genomas intervalos de diferentes tamaños y una medida que agrega la actividad transcripcional a dar "la densidad de expresión." Al igual que antes, los cinco conjuntos de genes pide se comparan. Los efectos de cada sección, se pusieron a prueba durante los intervalos de 100 kb a 4 Mb. Todos los datos son al menos débilmente positivo para al menos algunas de las medidas. Especialmente fuerte se observaron efectos de la pandemia del VIH de datos en células linfoides o líneas celulares, así como para la MLV de datos que fue seleccionado para la expresión después de la infección (MLV-Hela-S). También favoreció, aunque menos enérgicamente, son los datos del VIH en otros tipos de células y el resto de datos MLV. De la pandemia del VIH bases de datos, una muestra más débil la respuesta fue de nondividing macrófagos-junto con otras medidas, lo que es coherente con un modelo en el que la nondividing estado de estas células disminuyó la integración activa en tus [14]. No había una clara pauta de intervalo de tamaño, el tipo de gen llamada, o de expresión. Esto sugiere que las características en general se asocia a una elevada densidad de genes son más importantes.

Los dos conjuntos de datos ASLV mostró a favor de la debilidad de gen-densa e intensamente expresó regiones. AAV, SFV, y la SB mostró respuestas más débiles-de AAV, no está claro que no había manera significativa a favor de la integración de cerca o dentro de estas características.

Tenga en cuenta que cada sitio de integración de datos fue analizada frente a transcripcional de datos de perfiles para el tipo de células anfitrión de la integración eventos (Tabla S1]. Esto es importante, porque el trabajo previo ha demostrado que, para el VIH, los tejidos específicos de la transcripción se asocia con un pañuelo de patrones específicos de integración, aunque la fuerza del prejuicio es modesto [10].

G / C contenido y las islas CpG

Estamos próximos investigados los efectos de G / C contenido y la proximidad a las islas CpG (Figura 4 A). Regiones de alta G / C en promedio, son ricos en genes y han corto intrones, altas frecuencias de repeticiones Alu, las bajas frecuencias de las líneas, las frecuencias altas de las islas CpG, y repetir antes de tiempo. Regiones de baja G / C de contenidos suelen ser contrario a estas características [1]. Islas CpG se definen por grupos de los raros CpG dinucleotide que se undermethylated y son comúnmente asociados con las regiones reguladoras de genes. La fila superior en la figura 4 se muestra la A ROC zonas que describe la respuesta a G / C de contenido para la integración de los siete elementos. MLV Los dos conjuntos de datos muestran una fuerte favoreciendo de las regiones de alto G / C para la integración. Por el contrario, tres de la pandemia del VIH datos muestran una baja favoreciendo de G / C, lo cual es paradójico-VIH favorece la integración de genes en regiones ricas, que suelen ser ricas en G / C, pero en cambio A / T se favorece. Como se discute más adelante, esto puede reflejar la acción de la integrasa VIH celular de la proteína de unión PSIP1/LEDGF/p75 [12]. Los otros datos mostraron más débiles y menos respuestas coherentes a G / C contenido.

El resto de líneas indican la respuesta a las islas CpG por la creciente densidad de longitud genómica intervalos (de 1KB a 32 Mb). Por intervalos cortos, la proximidad a las islas CpG se correlaciona con la proximidad a las regiones de reglamentación, mientras que para los intervalos de tiempo suficiente para abarcar muchos genes, la densidad de la isla CpG se correlaciona con la densidad de genes (por ejemplo, [40]]. Inspección de la República de China zonas de breves intervalos (1-10 kb) muestra que la integración es enriquecido cerca de las islas CpG en particular para MLV, lo cual es coherente con la integración a favor de cerca de regiones reguladoras que se informó anteriormente [9, 10, 16]. Uno de los dos conjuntos de datos FVE y uno de los dos conjuntos de datos L1 muestran más débiles, sino de enriquecimiento detectable. Los otros elementos no se responda a cerca de las islas CpG, ya sea favorable o desfavorablemente. Para la genómica ya intervalos, el VIH y MLV mostró el más alto ROC zonas, como se espera de conocer sus preferencias para tus (VIH) y el gen 5 'termina (MLV). ASLV mostró más débil positivo ROC. AAV y la SB no mostró coherente a favor de las islas de CpG en el segmento de larga duración, mientras que L1 mostró correlaciones negativas. De este modo la integración de resultados islas CpG analizados durante largos intervalos paralelo las respuestas a la densidad de genes y transcripcional intensidad.

DNasa I división Sitios

La respuesta de los siete elementos para la integración de mapas de puntos de DNasa I división se resumen en la Figura 4 B. DNasa I hipersensible cromatina en los sitios previamente han sido asociados con factor de transcripción sitios de unión, islas CpG, el control de genes y regiones [41]. Mayores de la literatura retrovirales campo sugirieron una asociación de MLV integración con DNasa I hipersensible sitios [42]. Sin embargo, un estudio más reciente sugiere que MLV, y no el VIH o con L1, la integración fue más frecuente en 2-kb intervalos enriquecido para DNasa I división Sties [16]. ASLV mostró una débil correlación positiva pero [16]. Esta asociación indicó que con DNasa I sitios es en su mayor parte-MLV característica específica a esta escala de longitud, paralela a la preferencia de MLV para la integración de genes, cerca de 5 'y termina islas CpG.

Figura 4 B, presenta un estudio de la integración de los siete elementos analizados durante intervalos que van de 1 kb a 20 Mb. A corto segmento de longitud (1-2 kb), sólo los conjuntos de datos MLV ROC demostró que indica las zonas de integración a favor de cerca de DNasa I división sitios. A medida que el segmento de longitudes se alargan, la densidad de DNasa I división cada vez más sitios de forma paralela, la densidad de tus genes y regiones reguladoras. De este modo, tanto el VIH y MLV son muy positivo cuando analizaron más de intervalos más largos, y la mayoría de los otros conjuntos de datos son tan débilmente. AAV y uno de los conjuntos de datos SB mostrar los valores más bajos ROC relativo a esta medida.

Integración cerca de factor de transcripción vinculante motivos

Los efectos de proximidad a factor de transcripción sitios de unión sobre la integración se resumen en el Texto S2 (p. 18). Esto es de interés ya que es posible que directamente vinculantes de integración complejos factores de transcripción que podría promover la integración a través de una atadura interacción [7, 12]. Se analizó la base de datos TRANSFAC, que contiene la descripción de 546 PWMs ADN sitios de unión para factores de transcripción. Para evaluar los efectos de cada uno sobre la integración, el 2-kb intervalo centrado en la integración en cada sitio al azar o control se le asignó una puntuación basada en el mejor partido para el PWM, y esta puntuación se utilizó para generar un área ROC describir los efectos de que PWM . Muchos PWMs detectable mostró positivo o negativo con las asociaciones de integración. El más notable fue para los dos MLV bases de datos, donde una fracción importante de todos los PWMs mostró asociación positiva. Como se discute más adelante, el TRANSFAC PWM resultados no tienen valor predictivo fuerte cuando se analizan junto con otras características genómicas tales como la densidad de genes y la proximidad a las fronteras de genes. Sin embargo, los futuros estudios que utilizaron más sofisticadas funciones de puntuación aún puede revelar información entre las asociaciones de TRANSFAC PWMs y la integración de frecuencia.

La proximidad a la transcripción de inicio y parada características

Varias medidas fueron utilizados para comparar la frecuencia de integración para la experimentación y control corresponde al azar lugares cercanos a la transcripción de inicio y parada características como zonas ROC (Figura 4 C). La medida "boundary.dx" mide la distancia más cercana al gen 5 'o 3' finales. La coloración verde visto por varios conjuntos de datos indica una curva ROC área de menos de 0,50, que es el resultado de la integración sitios tienden a ser más corta la distancia más cercana a genes 5 'o 3' final acompañado de un control aleatorio sitio. Sin embargo, la mayoría de las células son de color negro o casi, lo que refleja la curva ROC zonas cercanas a 0,50 y supone que hay poca correlación con la integración. "Start.dx" indica la distancia más cercana a los sitios de inicio de genes. Una vez más, los sitios de integración tienden a estar más cerca de empezar a sitios que sus controles aleatorios corresponde, por lo que a veces se muestran como más verde intenso. "Signed.dx" resultados de sitios que reflejan una función mayor probabilidad de iniciar la integración cerca de los sitios, por lo que una mayor integración, cerca de empezar a sitios en los resultados de una correlación positiva y con mayor intensidad colorante rojo, como es visto por varios conjuntos de datos. "General.width" es una medida de la longitud del intervalo de tiempo, definido por el más cercano transcripcional iniciar y detener características, que también incluye la integración del sitio. Los grandes valores de genes por lo tanto, reflejan las regiones de escasa densidad, y se correlaciona inversamente con la densidad de genes. Cada una de las medidas fue puesto a prueba durante los cinco colecciones de genes humanos de las llamadas.

Para los dos MLV bases de datos, medidas que reflejan la proximidad al gen 5 'termina (start.dx, boundary.dx, y signed.dx) mostraron un importante ROC valores, como era de esperarse de trabajos anteriores. El análisis presentado aquí se establece que esos resultados eran en su mayoría independientes de los genes utilizados llamadas. Para el VIH, start.dx y boundary.dx mostró poco valor predictivo, de conformidad con el gen 5 'no termina siendo particularmente favorables para la integración del VIH. El signed.dx valor refleja la integración en el 5 'de tus regiones, por lo que es positivo para el VIH de datos. Del mismo modo, la general.width medida, que está en relación inversa a la densidad de genes, se correlacionó negativamente con el VIH integración. ASLV SFV y mostró la debilidad de las respuestas a signed.dx y general.wd, lo que refleja que favorecen la integración de genes en regiones ricas, pero no coherente a favor de genes de 5 'termina. Sin embargo, SFV mostró a favor de algunos de los genes 5 'termina para el CD34 + conjunto de datos pero no para los fibroblastos de datos, lo que indica un posible tipo de células específicas de diferencia. L1 mostró algunas respuestas coherentes, aunque varios de los general.dx y boundary.dx convocatorias de valor predictivo, lo que refleja la debilidad potencial de favorecer la integración de genes en regiones de alta densidad. AAV integración y la SB no mostró respuestas coherentes a cualquiera de estas medidas, lo que indica que los límites de genes no afecta fuertemente la integración de estos datos.

La mejora de los modelos que incorporan Score.20 junto con otras características genómicas

A continuación se investigó el modo en combinaciones de características genómicas afectar la integración. Como se ha señalado anteriormente, la score.20 PWM es más eficaz para distinguir los sitios auténticos integración de los controles aleatorios (Figura 2]. Por lo tanto, comenzó por preguntarse si las demás características genómicas no son más que redundante con score.20 mediante el análisis de la correlación de las otras características con score.20 (Figura 5 A). Poco se detectó correlación, lo que sugiere que un predictor de la orientación de integración basada en la score.20 junto con otras características podrían mejorar sustancialmente la predicción basada en ya sea por sí solos.

Como un primer paso para evaluar los efectos de la combinación de características, se utilizó un método de regresión que mejor se ajusten a la score.20 datos y una segunda característica genómica (véase el S2, pp. 24-52). El valor equipado para la integración intensidad fue entonces utilizado para calcular el área bajo la curva ROC que describe el conjunto de predicción, y esto fue restada de la curva basada en score.20 solo (Figura 5 B). Tenga en cuenta que el proceso de montaje conduce a valores equipados que tienden a clasificar los sitios de integración más importante que el combinado controles aleatorios, por lo que la curva ROC áreas sobre la base de estos valores están equipados todos superior a 0,50. La diferencia entre las dos curvas por lo tanto, describe la mejora en la predicción debido a la inclusión de la genómica característica adicional. El error estándar para la curva ROC área diferencias en la Figura 5 y C 5 D son más pequeños que todas las 0.02 (y la mayoría son de menos de 0,01); perceptibles las diferencias suelen ser estadísticamente muy significativas.

Una caja parcela resumen de las mejoras en las áreas ROC se muestra en la Figura 5 C. Es evidente que muchas funciones pueden mejorar la predicción para al menos algunas de las bases de datos, con las medidas de densidad de genes y de expresión que muestra la intensidad de los efectos más grandes. Para obtener una vista más detallada, estas "mejoras" valores en sí mismos pueden representar como mapas de calor. Las mejoras constantes a través del score.20 de inclusión de la densidad de genes-las medidas se muestran en la Figura 5 D. Este mapa en general, se asemeja a la original calor ROC mapa de zonas de densidad de genes sin tener en cuenta la contribución score.20, lo que refuerza la idea de que los dos son predictores independientes de la integración frecuencia. Un juego completo de mapas de calor, lo que permite el incremento de la contribución de cada característica genómica que deben evaluarse, está incluido en el Texto S2.

Completa de modelos que incorporan todos los tipos de genómica y sus características efectos combinados

A continuación trató de combinar todas las características genómicas juntos en un único modelo. Regresión métodos se pueden utilizar para encajar múltiples características a la vez, pero dado el número de elementos y conjuntos de datos que se han de estudiar aquí hay más de 10 70 posibles combinaciones de variables para formar modelos. Por esta razón, hemos investigado los efectos combinados utilizando un enfoque basado en un promedio de Bayes modelo (BMA) [43]. Los modelos con alta probabilidad posterior fueron recogidos y utilizados para evaluar la importancia de las diversas características; la parte posterior media de los coeficientes de regresión de genómica característica resume el efecto de esa función cuando en combinación con otros elementos del conjunto de datos. Métodos más detallada se puede encontrar en Texto S2 (pp. 24-52).

Las contribuciones de cada clase de características para cada uno de los modelos de integración se resumen en el Texto S2 (p. 40). Examen de las características genómicas en el contexto de la plena BMA modelo que refuerza la score.20 indicador y los otros tipos de genómica características hacen contribuciones independientes. Sin embargo, ahora varias de las características genómicas más bajos muestran las contribuciones relativas (por ejemplo, TRANSFAC PWM resultados y yuxtaposición con la transcripción de inicio y parada características), lo que sugiere que estas son en gran medida redundante con otras medidas. Calor mapas de los efectos de las características genómicas, según ha informado el modelo BMA se muestran en Texto S2, pp. 42-50. Más de modelado utilizando la máquina RandomForest programa de enseñanza se pueden encontrar en Texto S2, pp. 51-53, dado que en general una imagen similar. Volvemos a determinados efectos combinados a continuación.

A continuación, utiliza el modelo completo BMA para especificar las relaciones entre los modelos para la integración de diferentes elementos (Figura 6]. Para generar valores para permitir la comparación, una muestra aleatoria de genómica sitios se anotó para el logaritmo de las probabilidades de integración utilizando cada uno de los modelos BMA. Las correlaciones entre los resultados se muestran en falso color en la Figura 6. Verde corresponde a las correlaciones negativas y el rojo corresponde a positiva. Los resultados fueron sometidos a la agrupación jerárquica para poner de relieve las similitudes entre los conjuntos de datos. Inspección de la muestra patrón de ramificación que la primera gran división es entre los retrovirus y otros grupos. Dentro de cada una de estas ramas los diferentes tipos de elementos fueron bien resueltas, con una ligera similitud entre los retrovirus, pero poco entre los retrovirus y SB, L1, y AAV. Por lo tanto, la BMA modelos (Figura 6] agrupan los 17 conjuntos de datos bien por tipo de elemento, el apoyo a la conclusión de que la integración de selección de sitios está dominado por el elemento a codificar las enzimas de recombinación que llevan a cabo la integración de reacción. Factores como el tipo de células, la selección de expresión después de la integración, y la división celular han detectable, pero mucho más débil efectos.

Discusión

La genómica características que tuvo el efecto más fuerte en cada tipo de integración de elementos se resumen a continuación, con énfasis en los nuevos descubrimientos en este estudio. Posteriormente, conclusiones generales y usos del modelo cuantitativo se consideran.

L1

Para los no-LTR retrotransposon L1, la score.20 PWM permitido casi perfecto de clasificación de la integración de los sitios de control de sitios. Cuando ya genómica intervalos fueron considerados, el efecto de score.20 sigue siendo detectable, aunque disminuido. Además de otras características genómicas a un modelo basado en score.20 solo usando BMA mostró poca o ninguna mejora en las áreas ROC. Así L1 integración selección del sitio está dominado por la secuencia en el punto de integración, y por otra parte es principalmente inespecíficas. Estudios anteriores habían tomado nota de la fuerte conservación de la secuencia de nucleótidos en los sitios de integración L1 [21, 22]; este estudio se establece que la secuencia local con un fuerte efecto sobre la integración en todo el genoma.

Bella Durmiente

Para SB así como, la score.20 PWM, el predominante fue el factor determinante, aunque el efecto se redujo cuando intervalos más largos se utilizaron para la comparación. El abandono con intervalo de tamaño fue más pronunciado que para L1, en parte porque el principal determinante de la favorecido sitio es relativamente corto (el dinucleotide 5'-TA-3 '). Además de otras características genómicas a un modelo basado en score.20 por sí sola en sólo ligeras mejoras. Inesperadamente, la genómica más allá de las características importantes score.20 identificadas en el modelo BMA divergentes de los dos conjuntos de datos SB. La proximidad a las islas CpG, en particular analizaron más de genómica relativamente largos intervalos, se anticorrelated con la integración en la célula-Hela de datos, mientras que es débilmente positiva en la Huh-7 de datos. Gene densidad se correlacionó positivamente con la integración en la Huh-7 de datos única. Esto sugiere posibles células de tipo específico de las diferencias en la integración SB. Sin embargo, un mayor número de datos sería útil para reforzar esta idea, porque los dos conjuntos de datos SB vinieron de diferentes laboratorios y la integración sitios fueron clonados utilizando diferentes métodos [23, 24].

VIH

Estudios previos de integración del VIH reveló que se activa a favor de tus objetivos de integración, y esa tendencia se recapitula por una serie de medidas en estos datos. Anteriormente, la proximidad a DNasa I división lugares se informó a no ser asociados con el VIH integración más cortos (de 2 kb) genómica intervalos [16]. El análisis presentado aquí demuestra que DNasa I sitios se correlacionan positivamente durante intervalos más largos, probablemente debido a la correlación de ambos sitios de la integración del VIH y DNasa I división sitios con alta densidad de genes-regiones. Otras medidas, como las islas CpG y transcripción de inicio / parada características, también se correlacionan positivamente con el VIH integración a largo intervalo de tamaños por la misma razón. Un efecto importante de score.20 podría ser detectada en la fase inicial del análisis basado en la puntuación individual de pares de bases, pero esto fue reducido considerablemente, y por tres conjuntos de datos eliminados, cuando los efectos de score.20 se consideraron más largo del genoma intervalos.

La BMA modelo inesperadamente puso de manifiesto una fuerte correlación entre el VIH y la integración A / T-ricos secuencias (Texto S2, p. 47). Esto es contrario a simples predicciones basadas en favorecer la integración de genes en regiones ricas, porque los genes son regiones ricas G / C-ricos. Sin embargo, la densidad de genes se contabilizan en los modelos BMA, por lo que el efecto composición de base se suma a la densidad de genes efectos. La proteína celular PSIP1/LEDGF/p75, que vincula estrechamente con el VIH EN, cuenta con un A / T gancho de ADN motivo vinculante, que se espera que causa la acumulación de PSIP1/LEDGF/p75 en A / T-ADN ricos. El agotamiento de las células para PSIP1/LEDGF/p75 resultados en la integración del VIH aumentó en G / C regiones ricas [12]. El hallazgo de alto A / T densidad a la integración del VIH sitios (cuando el control de otros efectos) a través de los seis conjuntos de datos VIH sugiere que PSIP1/LEDGF/p75 probablemente influye en la integración del VIH en todos los tipos de células prueba.

MLV

MLV integración mostró una asociación con el gen 5 'termina, islas CpG, y DNasa I hipersensible sitios en estudios previos en donde corto ventanas fueron utilizados para la comparación [9, 16]. El análisis presentado aquí muestra que este efecto a menudo se vuelve aún más pronunciado cuando más grandes ventanas se analizan (25 kb a 2 Mb). Las comparaciones más de intervalos más largos probable captura los efectos debidos a ambos cerca de genes 5 'y termina más densidad global de genes. Análisis de los efectos de estas características en el modelo BMA mostró una considerable reducción de factor de transcripción con sitios de unión (TRANSFAC PWMs), en consonancia con un modelo en el que estas características son, al menos parcialmente redundantes. Score.20 tenido un claro efecto sobre la integración MLV, y esto se redujo cuando score.20 valores se resume en intervalos más largos, aunque por razones que se desconocen los efectos de resumir score.20 eran en realidad mayor con intervalos más largos tamaños, lo que sugiere de autocorrelación a favor de los sitios.

Los efectos de la selección fueron prominentes en la comparación de los dos MLV bases de datos, tal y como se describe anteriormente [16] y se analiza con más detalle aquí. Medidas de asociación con la densidad de genes, expresión de densidad, DNasa I división, y las islas CpG son todos más pronunciada en el conjunto de datos seleccionados (MLV-Hela-S). Esto es coherente con la idea de que la integración de cerca de estas características en los resultados más eficientes El material de la expresión génica, de modo que tras una selección de la expresión génica, provirus cerca de estas características se enriqueció en la población. Una tendencia similar ha sido reportado para el VIH [15, 16].

ASLV

ASLV integración mostró más débil (aunque aún detectable) a favor de genómica de las características asociadas con los genes y la densidad de genes, como ha sugerido anteriormente. Por ejemplo, en el análisis de la integración ASLV DNasa I, cerca de los sitios más largos intervalos de genómica, que es recién aquí, un correlación positiva se observó en ambos ASLV de datos. El score.20 PWM análisis mostraron efectos significativos sobre la integración de selección de sitios en recorridos cortos intervalos, pero esto se elimina principalmente en el análisis a más largo del genoma intervalos.

SFV

Del mismo modo con SFV, comparativamente débil se observó asociación con los genes, los genes densidad, y las características. Algunos débil asociación fue visto con DNasa I sitios y más de islas CpG ya intervalos genómica. Score.20 anotó relativamente débil en comparación con otros elementos, y los efectos de score.20 se han reducido o ausente en la comparación a través de largas ventanas.

Por SFV, este análisis hizo hincapié en la celda de tipo específico de las diferencias entre los dos conjuntos de datos. La asociación con genes relacionados con características fue notablemente mayor para los sitios de CD34 + células madre que para los sitios de fibroblastos. En el anterior análisis de estos datos, agrupados SFV sitios de ambos tipos de células se informó de que cerca de genes enriquecido 5 'y termina islas CpG. El análisis revela que aquí se trata casi en su totalidad debido a la contribución de los sitios de las células CD34 +, mientras que los de fibroblastos no mostraron tales prejuicios. Del mismo modo, con la proximidad a DNasa I división sitios, analizaron aquí para SFV por primera vez, existe una correlación positiva, pero el efecto es mucho más fuerte en las células CD34 +.

AAV

AAV vectores son únicos entre la integración de los elementos estudiados aquí porque AAV ADN que se cree que es anfitrión integrado por las enzimas de reparación del ADN que actúan en espontánea de ADN de doble filamento se rompe. El AAV score.20 PWM mostró el enriquecimiento de G / C en las posiciones -1 a -3, y este fue el más destacado sesgo detectado. Posible debilidad que favorece la integración de cerca de gen-regiones ricas también fue visto. Un intrigante posibilidad es que estos sesgos reflejan una distribución casi al azar cromosómicas espontáneas de doble filamento se rompe. Sin embargo, también es posible que estos sesgos reflejan una mayor probabilidad de estos sitios que participan en la reparación de las reacciones de mediación AAV integración. De todos los datos estudiados, el vector AAV datos mostraron menos a favor de la integración en tus genes o 5 'termina. Potencialmente, esto aumenta el atractivo de AAV como vectores de terapia génica. Sin embargo, un estudio de AAV integración en el hígado del ratón [27] sugiere una fuerte asociación con el gen 5 'y termina islas CpG, muy diferente de los datos estudiados aquí. Por lo tanto, más datos sobre la AAV integración en diferentes tipos de células sería útil.

Conclusiones Generales y Usos de los Modelos

Como se ha señalado anteriormente, el análisis en particular hizo hincapié en la importancia de los tamaños de los segmentos genómicos utilizado para comparar las características genómicas y la integración intensidad. En 3.5 millones de pares de bases, el genoma humano es tan grande que los efectos de diferentes características genómicas sobre la integración puede cambiar o incluso ser opuestas, dependiendo de la escala de longitud de que se trate. Esto se puso de manifiesto de varias maneras. Cambiar el tamaño de los intervalos utilizados para recolectar los valores de genómica características típicamente cambiado el ROC resultados. Por ejemplo, los efectos de la densidad de la isla CpG en L1 elementos (Figura 4 A) anotó como débilmente positivo más cortos segmentos genómicos (25 kb a 1 Mb), aunque se correlacionó negativamente durante largos intervalos (4 Mb a 32 Mb). Por el contrario, varios de los retrovirus, algunos efectos de la densidad de genes, expresión intensidad, DNasa I sitio densidad, y la densidad de la isla CpG se hizo más importante con el aumento de intervalo de longitud. En otro ejemplo, la integración sumando las puntuaciones de cada base en intervalos más largos también dio lugar a diferentes valores de ROC. Figura 2 C muestra que el índice score.20 había mucha menos influencia en los resultados cuando ROC 2-kb regiones se compararon en lugar de 20-bp segmentos . Por lo tanto, para responder a la pregunta "¿Qué características genómicas influencia integración de las nuevas de ADN?", La escala de longitud de interés deben ser cuidadosamente especificados.

En el futuro, la capacidad de predecir la intensidad de integración para cada base en el genoma humano será útil como herramienta para la detección de nuevas influencias por objetivo la selección de sitios. Para cualquier nueva característica genómica que se encuentra para influir en la integración cuando analiza de forma aislada, ahora es posible evaluar si la característica aporta información independiente de las características estudiadas previamente. Integración intensidad se puede predecir ni el modelo estándar describe aquí o por el modelo estándar, más la nueva característica, y las predicciones de los dos modelos experimentales en comparación con la integración de datos. La mejora de la predicción mediante la adición de una nueva característica establece la importancia de dicha función. Por el contrario, la falta de mejora indica que la nueva característica es redundante con las características anteriormente conocido. Este método debería ser muy útil en la evaluación de la influencia de las nuevas características del genoma anotado en la integración. Por ejemplo, un gran número de nuevos tipos de anotación son ahora disponibles para el 1% del genoma humano en las regiones ENCODE [44], y será interesante la utilización de modelos de integración para evaluar sus efectos.

Materiales y Métodos
Estrategia de análisis de datos

El análisis de datos se basa en un "caso control anidado" estrategia (para una revisión, ver [45]] que utiliza una colección de sitios de integración (en el papel de "casos"), junto con el control de los sitios (los "controles anidado") de la muestra del genoma (la "cohorte") para hacer inferencias acerca de la probabilidad de que la integración en un lugar determinado sobre la base de las características genómicas que caracterizan a ese lugar. Esta estrategia depende de la relación de un diario de un modelo lineal de una ubicación concreta cuenta de la integración de logística condicional o modelos logit que discriminan entre los acontecimientos reales de integración y control de los sitios, a saber. los mismos parámetros que rigen el efecto de una característica genómica a la integración regir la discriminación entre las cifras y los sitios de control. El modelo logístico, es conveniente que los controles al azar genómico, mientras que el modelo logit condicional es adecuado cuando un conjunto de controles corresponde a cada sitio de integración (la congruencia de lo que se hace al control de los posibles sesgos en la recuperación de integración de eventos). Una descripción más detallada de la base estadística de este análisis se puede encontrar en los textos S1-S3.

Software Utilizado

Los datos fueron analizados utilizando el lenguaje R y el medio ambiente con fines estadísticos y gráficos de computación versión 2.3.0 (R Desarrollo Core Team, 2006) y varios paquetes contribuido. Bayes modelo utilizado un promedio de la BMA paquete, y Random Bosque cálculos utilizados randomForest el paquete. El procesamiento paralelo se llevó a cabo utilizando el paquete de nieve.

Curva ROC zonas

Empíricos zonas curva ROC [46] se calcularon para bases de datos que utiliza controles al azar genómico. Cuando controles pareados fueron utilizados, la integración cada sitio se comparó sólo con sus controles pareados para determinar las proporciones de los controles cuyos valores igualó o superó el de la integración.

Anotación de las características genómicas

Integración de datos de sitio se obtuvieron de los EE.UU. Centro Nacional de Información sobre Biotecnología. Para el conjunto de datos de [17], la información sobre la ubicación del sitio de integración en relación con las secuencias genómicas depositadas se obtuvo de los autores. La ubicación de los genes y exones y G / C por ciento se basa en mayo de 2004 cuadros (hg17) de la base de datos de anotación de la GoldenPath sitio web ( http://hgdownload.cse.ucsc.edu/goldenPath/hg17/database/ ). Los cálculos de densidad de genes, y de yuxtaposición de transcripción de inicio / parada características, se basan en esas mismas mesas. El cómputo de DNasa I sitio densidad se basa en una tabla de DNasa I obtenidos a partir de sitios [16]. La expresión utilizada mediciones de la densidad de perfiles de transcripción de datos adaptado a cada tipo de células. Los números de adhesión para estos datos se especifican en la Tabla S1.

Compartir Datos

Software y procesado de datos están disponibles bajo petición.

Apoyo a la Información
Fuentes de la Expresión Génica de datos utilizados en el análisis
(55 KB XLS)
Curva ROC se explica la construcción
(230 KB PDF)
Screening efectos en la integración retroviral
(332 KB PDF)
La agrupación de factor de transcripción PWMs
(43 KB DOC)

Damos las gracias a los miembros de la bushman laboratorio útil para los debates.