PLoS Computational Biology, 2005; 1(1): (más artículos en esta revista)

Ab initio predicción de factor de transcripción objetivos utilizando el conocimiento estructural

Biblioteca Pública de la Ciencia
Tommy Kaplan [1], Nir Friedman [1], Hanah Margalit [2]
[1] Escuela de Ciencias de la Computación e Ingeniería, la Universidad Hebrea de Jerusalén, Israel
[2] Departamento de Genética Molecular y Biotecnología, Facultad de Medicina, La Universidad Hebrea de Jerusalén, Israel
Resumen

Enfoques actuales para la identificación y detección del factor de transcripción sitios de unión dependen de un amplio conjunto de genes conocidos objetivo. Aquí se describe un nuevo enfoque basado en la estructura aplicable a los factores de transcripción, sin previo vinculante de datos. Nuestro enfoque combina datos de la secuencia y la información estructural para inferir contexto específico de aminoácidos-nucleótidos reconocimiento de las preferencias. Estos se utilizan para predecir nuevos sitios de unión para factores de transcripción estructural de la misma familia. Demostramos nuestro enfoque sobre la Cys 2 Su 2 Zinc Finger familia de proteínas, y demostrar que el reconocimiento de ADN obtenidas preferencias son compatibles con los resultados experimentales. Utilizamos estas preferencias para realizar una exploración a escala del genoma de los objetivos directos de Drosophila melanogaster Cys 2 Su 2 factores de transcripción. Mediante el análisis del predijo objetivos, junto con la anotación de genes y expresión de datos permite inferir la función y la actividad de estas proteínas.

Introducción

Vinculantes específicos de factores de transcripción a elementos reguladores cis-es un componente esencial de la regulación transcripcional. Estudios anteriores han utilizado ambos enfoques experimentales y computacionales para determinar las relaciones entre los factores de transcripción y sus objetivos. En particular, los modelos probabilísticos se emplearon para caracterizar la unión de las preferencias de los factores de transcripción e identificar a sus supuestos sitios de las secuencias genómicas [1, 2]. Este enfoque es útil cuando se dispone de datos de carácter vinculante, pero no se puede aplicar a las proteínas sin extensos estudios experimentales vinculante. Esta dificultad se destaca especialmente en vista de los proyectos de genoma, las nuevas proteínas que se clasifican como de ADN vinculante de acuerdo a su secuencia, aún no existe información acerca de los genes que regulan.

Para hacer frente al reto de perfiles de los sitios de unión de proteínas novela, proponemos un enfoque familiar que se basa en información estructural y de la conocida sitios de unión de otras proteínas de la misma familia. Utilizamos resolver los complejos de proteínas de ADN [3], para determinar con precisión la arquitectura de las interacciones entre los nucleótidos y aminoácidos en el dominio de ADN vinculante. A pesar de compartir la misma estructura, las diferentes proteínas estructurales de una familia tienen diferentes especificidades vinculante debido a la presencia de los diferentes residuos en el ADN vinculante posiciones. Para predecir su sitio de unión motivo, tenemos que identificar los residuos en estas posiciones y entender su ADN vinculante de las preferencias.

En estudios previos, hemos utilizado la empíricos de las frecuencias de aminoácidos-nucleótidos interacciones [4, 5] en resolver complejos (de diversas familias de proteínas) para construir un conjunto de "reconocimiento de las preferencias de ADN." Este enfoque supone similar ADN vinculante de las preferencias Los aminoácidos de todos los dominios estructurales y vinculante en todas las posiciones. Sin embargo, hay claros indicios experimentales que este supuesto no es siempre válida: un aminoácido vinculantes pueden tener diferentes preferencias en función de su contexto posicional [6 - 8]. Para estimar estas contexto específico de ADN reconocimiento preferencias, tenemos que determinar el contexto de cada residuo, que puede depender de su posición relativa y la orientación con respecto a los nucleótidos. Entonces, tenemos que recopilar estadísticas sobre las preferencias de ADN vinculante en este contexto. Esto se puede lograr de resolver un conjunto de complejos de proteína-DNA de la misma familia. Lamentablemente, suficientes datos de este tipo no está disponible actualmente.

Para superar este obstáculo, se propone estimar contexto específico de ADN reconocimiento de las preferencias disponibles secuencia de los datos mediante procedimientos de estimación estadística. La aportación de nuestro método es un conjunto de pares de factores de transcripción y su objetivo de las secuencias de ADN [2]. A continuación, identificar los residuos de nucleótidos y proteínas que participan en la interacción de ADN, y recopilar estadísticas sobre las preferencias de ADN obligatoria de los residuos en diferentes contextos de la unión de dominio. Estos se utilizan para descubrir el lugar de unión de otros factores de transcripción de la misma familia, para los que no se conocen los objetivos.

Nuestro enfoque de la Cys 2 Su 2 Zinc Finger ADN vinculante familia. Esta familia es la mayor conocida de ADN vinculante familia en organismos multicelulares [9] y ha sido ampliamente estudiada [10]. Los miembros de esta familia de ADN vinculan a los objetivos de acuerdo con un estricto modelo vinculante [11, 12], que los mapas exactos interacciones entre residuos específicos en el dominio de ADN vinculante con nucleótidos de ADN en el sitio (Figura 1]. Utilizamos muchas proteínas Zinc Finger junto con su ADN metas (extraídos de la base de datos TRANSFAC [2]], y aplicar un iterativo expectativa maximización (EM) algoritmo [13] para estimar la posición específica de las preferencias de reconocimiento de ADN (Figura 2]. Estos, a su vez, se utilizan para predecir el sitio de unión del ADN motivos de la novela proteínas en la familia (Figura 3], y para la realización de un genoma de toda una búsqueda de metas putativo.

Resultados
En silico reconstrucción de las preferencias de reconocimiento de ADN

Con el fin de estimar el contexto específico de ADN reconocimiento preferencias de la Cys 2 Su 2 Zinc Finger ADN vinculante familia utilizamos el modelo canónico vinculante aprendidas de la proteína de ADN resuelto complejo de Egr-1 [11, 12]. Según este modelo, las características particulares de cada vinculante Zinc Finger dominio está determinada por los residuos en cuatro puestos clave (véase la figura 1]. El objetivo de aprender un conjunto diferente de ADN-el reconocimiento de las preferencias de cada uno de los cuatro puestos clave. Estos conjuntos deben expresar la probabilidad de que cada aminoácido para interactuar con cada uno de nucleótidos. Dado que el número de resolver los complejos DNA-proteína es insuficiente para estimar directamente estas preferencias, recurrimos a datos de la secuencia de las proteínas y el ADN de sus objetivos. Se extrajo ADN de 455 pares de proteínas a partir de la base de datos TRANSFAC 7,3 [2] (véase Materiales y Métodos]. Lamentablemente, la ubicación exacta vinculante ADN de estos objetivos no son detectados, y, por tanto, se emplearon instrumentos estadísticos para inferir ellos (véase la figura 2; Materiales y Métodos]. A continuación, utiliza la proteína vinculante modelo de ADN para identificar los residuos que interactúan y nucleótidos, y recopilar estadísticas sobre las preferencias de su carácter vinculante (véase Materiales y Métodos]. Sobre la base de estos calcula que cuatro conjuntos de las preferencias de reconocimiento de ADN (Figura 4; Cuadros S1 y S2], mostrando ambos contexto de las preferencias independientes (como la preferencia de la lisina para guanina) y dependientes de contexto (por ejemplo, la preferencia de aspártico Ácido para cytosine). Cuadro S3 muestra el 10% -90% de intervalo de confianza de la estimación de probabilidades.

Reconocimiento de Análisis de las preferencias son coherentes con los resultados experimentales

Se evaluó a los cuatro conjuntos de ADN reconstruido reconocimiento de las preferencias por su comparación con los datos experimentales. En primer lugar, en comparación con los derivados de las preferencias cualitativos basados en las preferencias de fagos-pantalla experimentos [10] y encontró a los dos ser compatibles (datos no presentados). En segundo lugar, predijo sitio de unión modelos de Egr-1 variantes experimentales vinculante para los que se dispone de datos [14], utilizando sus secuencias y preferencias de nuestros estimados. Estos modelos se utilizaron para Resultado de la unión de Egr-1 variantes a un conjunto de objetivos de ADN que se pusieron a prueba en el estudio experimental. Hemos encontrado que nuestras predicciones eran altamente correlacionado con el medido experimentalmente afinidades vinculante [14] (Tabla S4].

A continuación, evaluamos la capacidad de la estimación de las preferencias de reconocimiento para identificar sitios de unión dentro de las secuencias genómicas. Hemos recopilado un conjunto de datos de los sitios de unión de diez Cys 2 Su 2 factores de transcripción. Se trata de 43 sitios de unión verificado experimentalmente naturales dentro de las secuencias genómicas promotor con una longitud total de 14534 pb (Cuadro S5]. Usar el reconocimiento de las preferencias, que predijo el sitio de unión modelos de los diez factores de transcripción y las usaron para explorar las respectivas regiones promotor putativo de sitios de unión (Figura 5 Ay 5 B; ver Materiales y Métodos]. Para evitar sesgos por sitios conocidos en la formación en los datos, se aplicó una "licencia de proteínas a cabo" análisis de validación cruzada, y predijo el ADN de un modelo vinculante de proteínas utilizando las preferencias de reconocimiento de ADN que se enteró por un reducido conjunto de datos, de la que todos sus Sitios de unión fueron retirados. Nuestro método de marcado de 30 lugares como sitios de unión putativo, de los cuales 21 corresponde el conocimiento experimental (sensibilidad del 49% y especificidad de 70%, p <10 -48; S6 véase el cuadro].

Benos et al. [15] propuso un método (SAMIE) a la estimación de 2 Cys 2 Zinc Finger Su posición específica vinculante de preferencias in vitro SELEX vinculante experimentos. Se han comparado las predicciones de los conocidos sitios de unión dentro de las regiones promotor proporcionada por nuestra posición-un reconocimiento específico a las preferencias de Benos et al. [15] y de Mandel-Gutfreund et al. [5] (Figura 5 C; Cuadro S7]. Estos resultados sugieren que las predicciones sobre la base de nuestro reconocimiento a las preferencias de realizar las predicciones basadas en los otros métodos.

Para seguir evaluando nuestras predicciones, hemos utilizado la unión de Sp1 lugares a lo largo de cromosomas humanos 21 y 22, como el mapa del genoma por toda la cromatina immunoprecipitation [16]. Hemos compilado dos conjuntos de datos de 1-kb-secuencias largas: un conjunto de datos que incluyen secuencias expuestas altamente significativo vinculante, y el otro conjunto de datos incluyen secuencias que no mostró en absoluto vinculante (que se utilizó como control; ver Materiales y Métodos]. Se utilizó el ADN de reconocimiento preferencias predecir un modelo de sitio de unión para Sp1, y escaneadas las secuencias genómicas de la misma. Se identificaron Sp1 sitios de unión en el 45% de las secuencias obligado experimentalmente, y en sólo el 5% de las secuencias de control (Figura 5 D).

Ab initio en todo el genoma de la transcripción factor de predicción de sitios de unión

En los últimos años muchos genomas se resolvieron, con un rendimiento de las secuencias de miles de putativo de factores de transcripción. Sin embargo, sólo poco se conoce en la actualidad acerca de la obligatoriedad especificidades de estos factores y de sus genes diana. Para abordar este problema, hemos aplicado nuestro sistema predictivo a la Drosophila melanogaster genoma de una forma totalmente automatizada. En primer lugar, las secuencias de escaneado 16201 putativo gen identificado 29 productos y canónico Cys 2 Su 2 Zinc Finger factores de transcripción con tres o cuatro dedos (ver Materiales y Métodos]. A continuación, utiliza sus secuencias de ADN y la estimación de las preferencias de reconocimiento a compilar un sitio de unión modelo para cada factor de transcripción, como en la figura 3 (véase la figura S1 y el cuadro detallado de los modelos S8]. Por último, hemos utilizado estos modelos sitio de unión a la exploración aguas arriba de las regiones promotoras 15665 D. Melanogaster genes. Múltiples putativo directa metas se prevé para cada dedo de zinc, según se detalla en Http://compbio.cs.huji.ac.il/Zinc . El número de genes putativo blanco directo para cada factor de transcripción y la superposición entre los objetivos de los diferentes factores que se muestran en las figuras S2 y S3. Curiosamente, varios dedos de zinc han residuos similares en el ADN de posiciones vinculantes, y, por lo tanto, se prevé que se unen a sitios similares y han predicho mutuo objetivos (ver figuras S1 y S3]. En D. Melanogaster, este fenómeno se ha informado de por lo menos algunos factores de transcripción (por ejemplo, Sp1 y Btd) [17].

Para inferir la función de los 29 factores de transcripción, se emplearon las anotaciones funcionales de sus genes diana prevista (basada en la ontología de genes [GO] [18]]. El objetivo de la mayoría de los conjuntos de factores de transcripción (21 de 29) se encontraron significativamente enriquecido con al menos un plazo GO (Figura 6 A). Para algunos de los factores de transcripción, el enriquecido GO términos partido previo conocimiento biológico. Por ejemplo, el putativo objetivos de vidrio resultaron ser enriquecido con términos relacionados con el desarrollo de las células visuales, de acuerdo con estudios anteriores que vinculaban el factor de transcripción de vidrio con ojos fotorreceptor desarrollo [19]. Del mismo modo, los objetivos de Btd putativo Sp1 y se enriqueció con términos de desarrollo, tales como neurogénesis, el desarrollo, y la organogénesis. De hecho estos reguladores se sabe que desempeñan funciones esenciales en mechanosensory desarrollo [17]. Además, nuestro análisis sugiere posibles funciones de las proteínas desconocidas, así como nuevas anotaciones, algunos de los ya conocidos reguladores (véase la figura S4 de resultados completos).

Asimismo, evaluaron la función y la actividad de los 29 factores de transcripción basado en el ARNm de los perfiles de expresión de sus genes diana (Figura 6 B). Utilizamos la expresión de datos desde principios de la embriogénesis [20], así como los datos de todo el ciclo de vida de D. Melanogaster [21]. En cada experimento y para cada factor de transcripción, probamos si sus objetivos putativo mostró similitud en sus patrones de expresión y difiere del resto de los genes (véase Materiales y Métodos]. Esa expresión coherente de apoyo a la propuesta de la relación entre los genes y los factores que se prevé para regular. De los 29 factores de transcripción hemos examinado, 21 mostraron tales asociaciones significativas en al menos un experimento de la embriogénesis, lo que sugiere un papel activo a lo largo de sus primeras etapas de desarrollo (Figura 6 B). Estos incluyen muchos factores de transcripción conocidos reguladores de desarrollo que están activos durante el desarrollo embrionario (por ejemplo, Btd, Sp1, vidrio, Odd-salta, y Stripe) [18, 22], así como otras proteínas, cuya función se desconoce en la actualidad. Similares resultados fueron obtenidos en el ciclo de vida completo de la expresión génica de datos [21], la cartografía putativo tiempo puntos en los que cada regulador se prevé que se activa (Figura 6 B).

Tenga en cuenta que los perfiles de expresión se basan en su conjunto embriones, y, por tanto, hacer caso omiso de los patrones de expresión diferencial espacialmente. Por lo tanto, el correcto funcionamiento de algunos tejidos específicos de las proteínas dedo de zinc puede ser oscurecida por estos datos. Más detallada puede ser adquirida por centrarse en la expresión de datos en regiones homogéneas. En concreto, Butler et al. [23] compararon la expresión de genes en dos partes homogéneas de la Drosophila imaginal ala disco-la pared corporal y la bisagra de ala bolsa. En nuestro análisis hemos utilizado las relaciones entre los niveles de la expresión de las dos regiones, y examinó putativo objetivos para el enriquecimiento de una de las regiones. Estamos entonces inferir la función reguladora de un factor de transcripción (activador o represor), utilizando su propio patrón de expresión. Por ejemplo, los objetivos de putativo Stripe muestran niveles más altos de expresión en la pared corporal que el resto de los genes (el enriquecimiento p-valor ≤ 0,0002). Stripe sí mismo se enriquece más de 9 veces en la pared corporal, en relación con el ala-bisagra región. Esto sugiere que Stripe funciones principalmente en el cuerpo de la pared región, en el que activa los genes de su objetivo. De hecho, esto es coherente con el papel de la Banda conocida como un activador de la epidermis músculo embargo genes [24]. Utilizando el mismo razonamiento, inferimos la reglamentación de las cuatro funciones adicionales D. Melanogaster factores de transcripción en el disco imaginal de ala, tres de los cuales fueron previamente no (Tabla 1].

Discusión

En este trabajo se propone un marco general para la predicción de la secuencia de ADN sitio de unión de nuevos factores de transcripción de las familias conocidas. Nuestro marco estructural combina la información sobre un determinado dominio vinculante ADN con ejemplos de sitios de unión para las proteínas en la familia. Estamos aplicar un algoritmo de estimación estadística a la canónica Cys 2 Su 2 Zinc Finger ADN vinculante familia, y obtener un conjunto de las preferencias de reconocimiento de ADN para cada residuo en cada posición en la que interactúan Zinc Finger ADN vinculante de dominio.

Aplicamos estas preferencias y predecir el sitio de unión de los nuevos modelos de proteínas de la misma familia. Finalmente, se prevé la utilización de modelos a escala en el genoma explora e identificar las proteínas' putativo blanco directo de los genes.

Estructura de los enfoques basados en la predicción de los sitios de unión factor de transcripción recientemente han ganado mucho interés [5, 8, 15, 25 - 29]. La mayoría de los actuales enfoques estructurales definir un modelo vinculante sobre la base de resolver los complejos de proteínas de ADN, y el intento de identificar el ADN subsequences que mejor se ajusten a los aminoácidos que se determinará de la interacción con el ADN. Estudios anteriores [4, 8] utilizan conjuntos de resolver los complejos proteína-DNA (ADN de todos los dominios vinculante) para extraer los parámetros generales para el amino ácido-base reconocimiento. Algunos estudios utilizaron sólo los condes de aminoácidos de pares de nucleótidos que se derivan de estos parámetros [4], mientras que otros también examinó los arreglos espaciales [8]. Sin embargo, de grano fino para la definición de tales posibilidades, un conjunto mucho más amplio de resolver los complejos de proteínas de ADN que se necesita está disponible actualmente. Un enfoque alternativo para estimar las preferencias de reconocimiento de ADN es extraer por separado para cada dominio vinculante ADN. Sin embargo, también en este caso, los datos de los complejos de resolver son insuficientes para permitir esa derivación.

En un estudio reciente, Benos et al. [15] asignado posición específica de ADN para el reconocimiento de las preferencias Cys 2 Su 2 Zinc Finger familia. El modelo que se utiliza es similar a la nuestra, con dos diferencias significativas. En primer lugar, que se basaron en datos de los ensayos de selección in vitro, como SELEX fagos y mostrar, a formar a sus preferencias de reconocimiento. En segundo lugar, sus secuencias de ensayos de selección artificial, tanto artificiales de proteínas y de ADN artificial objetivos. Por el contrario, confiamos en la información previamente publicada de los sitios de unión natural. Nuestro enfoque no requiere especializados experimentos, y más importante, que reflejan la especificidad de las proteínas naturales de las secuencias de ADN. Como se mostró, nuestras preferencias son coherentes con los resultados experimentales independientes [6, 7, 10], y son superiores a los derivados de estas preferencias por los otros métodos computacionales [5, 15]. Además, los estudios anteriores mostraron que hay discrepancias entre SELEX derivados de los motivos y las que resulten de los sitios de unión natural [30, 31]. De hecho, nuestro método dado inferior predicciones cuando la información sobre secuencias artificiales vinculante se incluyó en la formación en los datos. Figura 4 C muestra que nuestro conjunto de las preferencias de reconocimiento es superior a los modelos anteriores en la identificación genómica de sitios de unión. Al comparar las predicciones de las distintas preferencias de reconocimiento para medir afinidades de las secuencias de ADN artificial [14], nos informe de resultados similares a los de Benos et al. (Véase el cuadro S4].

Análisis de la Estimación de ADN-Reconocimiento Preferencias

Análisis de la estimación de las preferencias de reconocimiento indica que la proteína de ADN reconocimiento código no es determinista, sino que abarca una amplia gama de preferencias. Además, nuestros análisis muestran que un residuo de nucleótidos pueden tener diferentes preferencias en función de su contexto. Para algunos aminoácidos, la cualitativa preferencias siguen siendo los mismos a través de diferentes posiciones, mientras que las preferencias varían cuantitativa (por ejemplo, arginina, véase la figura 4]. El ADN vinculante preferencias de los demás residuos de cambio a través de diversas posiciones. Por ejemplo, histidina en la posición 3 tiende a interactuar con guanina, a la vez que no muestra ninguna preferencia a ninguna de nucleótidos en todos los otros cargos. Otro ejemplo es la tendencia de alanina en la posición 6 a cara guanina. Esta preferencia, que automáticamente fue revelado por nuestro análisis, no es coherente con la naturaleza química de la cadena lateral de alanina ni con exámenes generales de los aminoácidos-nucleótidos interacciones [5, 8]. Sospechamos que se ve afectada por el gran número de objetivos Sp1 en nuestro conjunto de datos. Esta interacción potencial está implícito en Sp1 antes de sitios de unión [32] y puede reflejar una interacción entre el residuo en la posición 2 con la complementaria cytosine.

La proteína de ADN vinculante modelo

En este trabajo, utilizamos un modelo vinculante que se basa en resolver los complejos de proteínas de ADN. El modelo presenta un rígido y simplista representación de los aminoácidos de las interacciones en la base de Zinc Finger dominios. Sólo algunos de los dominios de dedos de zinc (lo que se denomina "canónica" en este trabajo) utilizar este modelo para vinculantes, mientras que otros mantienen más complejas interacciones. Como nuestros resultados muestran, por el uso de este modelo, hemos logrado recuperar la mayor parte del ADN vinculante características específicas de aminoácidos, y los utilizan para predecir el lugar de unión de los nuevos modelos de proteínas. Creemos que este modelo ofrece un buen compromiso entre la complejidad (y el número de parámetros) y la precisión.

Inter-Posición en las dependencias de la encuadernación del sitio

El 2 Cys 2 vinculante Su modelo intrínsecamente asume que todas las posiciones en el sitio de unión son independientes uno de otro. Este supuesto se utiliza en la mayoría de los enfoques que modelo computacional sitios de unión. Dos trabajos recientes [33, 34] debatir esta cuestión en el contexto de la Cys 2 Su 2 Zinc Finger dominio. Sus análisis de afinidad mediciones indican que la debilidad de las dependencias que existen entre algunas posiciones de los sitios de unión de Egr-1. No obstante, una aproximación razonable de las peculiaridades es vinculante obtenido incluso cuando se ignoran estas dependencias. En otro estudio reciente [35], se evaluaron los modelos probabilísticos que son capaces de capturar entre las dependencias posición dentro de sitios de unión. Nuestros resultados muestran que las dependencias se pueden encontrar en los sitios de unión de muchas proteínas de diferentes dominios de ADN obligatorio (especialmente de la hélice-giro-hélice y la homeo dominios). Sin embargo, nuestros resultados sugieren también que los modelos de esas dependencias no dan lugar a importantes mejoras en el modelado de los sitios de unión de proteínas de dedos de zinc. Por lo tanto, creemos que la Cys 2 Su 2 vinculante modelo que utilizamos aquí es, en efecto, una aproximación razonable de la realidad vinculante.

Genome-Wide predicciones de los sitios de unión y genes diana

En la época actual hay una creciente brecha entre el número de secuencias de proteínas conocidas y el número de sitios de unión verificado experimentalmente. Para entender mejor los mecanismos de regulación en los nuevos genomas resuelto, es crucial para identificar el blanco directo de los genes de ADN novela vinculante proteínas. Nuestro método abre el camino para que tales ensayos de todo el genoma. Aquí aplicamos a la Cys 2 Su 2 Zinc Finger ADN vinculante familia. Por el sitio de unión predicción de los modelos de regulación de las proteínas, se pueden clasificar en los genes que contienen sitios de unión importante en sus regiones reguladoras promotor (de ahí, putativo genes diana) y los que no. Como se mostró, nuestro enfoque puede ampliar a todo el genoma de esas exploraciones y predecir con éxito la meta de muchos genes novela Zinc Finger proteínas en eucariotas superiores. Además, mediante la integración de datos de fuentes externas, como la expresión de genes y anotaciones GO, es posible inferir la función celular y la actividad de estas nuevas proteínas.

Aplicaciones a otros dominios de ADN obligatorio

En teoría, nuestro enfoque se puede ampliar para manejar otras familias estructurales, como la leucina básica cremallera, la homeodomain, y la hélice básica-loop-hélice, por lo suficientemente vinculante datos que ya existen (1191, 505, y 201 sitios de unión por familia , Respectivamente). Esta extensión requiere que las distintas proteínas en la familia muestran un modelo común de ADN vinculante, que puede ser utilizado además para otros miembros de la familia. Para estas familias, nuestro enfoque debería ser suficiente. Para otras familias, en donde la unión modelos son más complejos y flexibles (como los de otros Zinc Finger dominios, como la CCCC, CCHC, o incluso la no canónica Cys 2 Su 2), los modelos más avanzados y las técnicas de aprendizaje será necesario. A pesar de estas posibles dificultades, creemos que los enfoques estructurales, como la que mostramos aquí, abrir prometedoras direcciones, dando lugar a exitosas predicciones de los modelos de unión y, a raíz de que, a la identificación precisa de los genes diana de nuevas proteínas, incluso En el genoma a escala escalas. Eventualmente, esos criterios se utilizarán para reconstruir más grandes y más grandes porciones de las redes de regulación transcripcional que el control de la célula viva.

Materiales y Métodos
Apoyo a la Información
Secuencia de 29 de logotipos
(617 KB PDF).
Número de predecir blancos directos
(162 KB PDF).
Porcentaje de cobertura entre Pares Metas
(109 KB PDF).
Resultados de completar el cuadro GO
(182 KB PDF).
Abundancia de DNA-Binding Residuos en Formación de Datos
(123 KB PDF).
Abundancia de las Combinaciones de DNA-Binding Residuos en Formación de Datos
(123 KB PDF).
Convergencia de la EM sobre Algoritmo Lugar de salida de datos de prueba
(106 KB PDF).
Riesgo de Lugar de salida de datos de prueba dado diferentes tamaños de los conjuntos de datos de formación
(106 KB PDF).
Cuatro Conjuntos de ADN-Reconocimiento Preferencias: Probabilidades
(22 KB PDF).
Cuatro conjuntos de reconocimiento Preferencias: Cuenta
(20 KB PDF).
Los intervalos de confianza sobre cuatro conjuntos de reconocimiento de ADN preferencias
(63 KB PDF).
Correlación con medirse experimentalmente vinculante afinidades
(514 KB TIF).
21 Pares de Proteínas-ADN
(2 MB TIF).
La sensibilidad y la especificidad de la prueba de conjunto en diferentes valores umbral importancia
(328 KB TIF).
La sensibilidad y la especificidad de la prueba en distintos importancia de los valores umbral otros métodos computacionales
(440 KB TIF).
Posición específicas Puntuación Matrices de 29 Cys
(55 KB PDF).

Los autores desean agradecer a Yael Altuvia, Yoseph Barash, Ernest Fraenkel, Benjamín Gordon, Robert Goldstein, Ruth Hershberg, dalit de mayo, Lena Nekludova, Regev Aviv, Eran Segal y útil para los debates. CT cuenta con el apoyo de la Asociación a través de Yeshaya Horowitz del Centro de Ciencias Complejidad. NF cuenta con el apoyo de la de Harry y Abe Sherman Superior de disertaciones en Ciencias de la Computación. Este trabajo recibió el apoyo de subvenciones del Ministerio israelí de la Ciencia y la Fundación de Ciencias de Israel. Una versión preliminar de este manuscrito aparecido en RECOMB 2005 [40].