PLoS Computational Biology, 2005; 1(1): (más artículos en esta revista)

Mejora de la precisión de la Estructura-Función de relación por cuenta de contexto filogenético

Boris E Shakhnovich
Resumen

La comprensión de la relación entre estructura y función de proteínas es uno de los principales desafíos en la biología post-genómica. Superior conservación de la estructura podría, en principio, permitir a los investigadores pasar de las actuales limitaciones de anotación. Sin embargo, pese a las importantes investigaciones en la zona, precisa y cuantitativa relación entre la función y la bioquímica de proteínas estructura ha sido difícil de alcanzar. Los intentos de establecer un vínculo inequívoco a menudo se han complicado por pleiotropy, variable de control transcripcional, y adaptaciones al contexto genómico, que afectan negativamente a la función de simple definiciones. En este trabajo, me informan de que la integración de la información genómica puede ser utilizada para aclarar la relación entre la estructura y función de proteínas. En primer lugar, presento una nueva medida de proximidad funcional entre las estructuras de proteínas (F-score). Entonces, usando F-Resultado totalmente automática y otros métodos de medición de la estructura y la similitud filogenética, me presentan un paisaje tridimensional que describe su inter-relación. El resultado es un "bien en forma de" paisaje que demuestra el valor añadido de considerar en el contexto genómico inferir la función de homología estructural. Una generalización de la metodología presentada en este documento puede ser usado para mejorar la precisión de la anotación de los genes en los actuales y los nuevos genomas secuenciados.

Introducción

Desde el advenimiento de datos biológicos de almacenamiento en formato digital, los investigadores han luchado para definir medidas cuantitativas de comparación de secuencia [1], [2], la estructura y la función [3 - 5]. Si bien las medidas de proximidad secuencia y estructura están ahora bien establecidas, el problema de la definición funcional de la distancia ha sido especialmente desalentadora. Los actuales métodos de cálculo de la descripción de la función utilizando ontologías no son, a priori, muy adecuado para el cálculo de la distancia funcional [3]. Sin embargo, utilizando la mayoría de las pruebas anecdóticas, los investigadores han demostrado que las secuencias de reparto características estructurales a menudo la función de visualización común [6].

No obstante, cuantitativamente homología estructural relativos a la función se ha visto complicado por la escasez de medidas de distancia y funcional numerosos ejemplos de pliegues realizar muchas funciones no relacionadas. Esta muchos-a-muchos relación entre la estructura y la función se ha relacionado con los procesos biológicos fundamentales y características tales como la adaptación, la especialización, pleiotropy, o la regulación diferencial [7 - 9]. A pesar de estas dificultades, la comprensión de la relación entre la estructura y la función es uno de los principales desafíos de la post-genómica biología [10]. Desde función de la proteína depende a menudo de genómica contexto, la definición de las tendencias predominantes en el coalescente evolución de los organismos y de las proteínas puede ser fundamental para mejorar nuestra comprensión de la relación estructura-función [5].

Resultados y Discusión

Considero que el dominio de la proteína universo como el conjunto de todos los dominios caracterizados estructuralmente [11]. I tratar cada dominio como un andamiaje estructural codificada por un conjunto de secuencias homólogas [4]. La potencia de este enfoque es su capacidad para aprovechar la relativa conservación de la función estructural en el interior del andamio [5] para determinar estadísticamente la relación entre la estructura y la función. A continuación, utilizando la información sobre la distribución del universo de dominio en todo el árbol evolutivo [12, 13], espero que para mejorar el actual nivel de precisión [4] de la relación estructura-función. Así, por cada par de dominios, que se inicia por la definición y el cálculo de sus componentes estructurales, funcionales, y la similitud filogenética (véase Materiales y Métodos y [5, 14 - 16]].

En primer lugar, definir un sencillo pero funcional medida cuantitativa de comparación: F-score. F-score se define como la distancia entre normalizado Euclidian GO [17] árboles, construida a partir de las anotaciones de las secuencias de codificación para cada andamiaje estructural (véase Materiales y Métodos y [17]]. Formalmente, F A, B = 1 / Li ε ε i) (funciones (p A, i - p B, i) 2) 1 / 2 F A, B es la distancia funcional entre un dominio y dominio B, P [A | B], i es el porcentaje de veces en que las secuencias de estructura AoB que están anotados como función i, y L es una constante que representa la normalización Para diferentes profundidades de anotación en la GO. F-Resultado medidas similitud de las trayectorias en el árbol GO entre dos conjuntos de secuencias homólogas. Por ejemplo, si dos dominios codificar dos series de secuencias que siguen exactamente el mismo camino, F-puntuación será cero. Por otra parte, si la codificación de secuencias de los dos dominios funcionales comunes no tienen anotaciones, la F-puntuación será máxima.

A continuación, figura la equivalencia de F-Resultado y la semejanza estructural (Z de la calculada utilizando DALI [2]]. Espero una correlación general para celebrar, desde la investigación anterior ha demostrado que los dominios de reparto características estructurales suelen realizar funciones similares [6, 8]. De hecho, me observó una correlación robusta, en promedio, entre el Z-score y F-score (Figura 1 A). Sin embargo, el rango dinámico de esta correlación es pequeño. La diferencia en la puntuación de F-entre el más cercano y más lejano estructuras es sólo del 30%. Este pequeño rango dinámico más probable es que se debe a la ambigua relación entre estructura y función.

Desde una perspectiva evolutiva, el medio ambiente es a menudo importante en la definición de la función precisa de la secuencia. En consecuencia, las secuencias que aparecen en el mismo conjunto de genomas se han indicado para llevar a cabo funciones similares [18]. Por lo tanto, con dominios similares perfiles filogenéticos también debería mostrar similar F-resultados [18]. Para una medida de similitud filogenética, la he usado más comúnmente usado información mutua (véase Materiales y Métodos] filogenéticas entre los perfiles de los dominios (P-score). Dado que la información mutua es reflexivo, es máxima cuando los dos dominios aparecen en el mismo o exactamente opuestos subconjunto de los genomas, y la mínima, cuando la coincidencia en el aspecto de todo el genoma es al azar. Me di cuenta de que P-Resultado es un poco mejor predictor de similitud funcional que homología estructural, con rango dinámico de 50% según la medición de F-score (Figura 1 B). Esto implica que el contexto genómico, más de las limitaciones impuestas por la estructura por sí sola, puede influir en la función precisa del gen.

Por último, las definiciones cuantitativas de la estructura, función y filogenética similitud me permitió calcular el panorama de la F-puntuaciones de todos los pares de dominios con respecto a sus puntuaciones Z y P (Figura 1 C). Contrariamente a la ingenua esperanza de la suave transición a través de una pequeña gama de F-observó resultados de las comparaciones pairwise en la Figura 1 A, B, y, en mi opinión, la combinación de Z de la P-y una puntuación de las formas orgánicas en forma de paisaje, con una fuerte transición En la F-Resultado. Esto sugiere que las estructuras similares que ocurren en diferentes genomas suelen realizar diferentes funciones (véase Materiales y Métodos]. Por otra parte, los genes con estructuras similares son más propensos a desempeñar funciones similares en caso de la distribución de sus orthologs sobre el árbol evolutivo es también similar. Este resultado es intuitivo, ya que a menudo los genes adaptarse al medio ambiente a través de la mutación en la secuencia que altera la función, pero no la estructura.

Los resultados aquí presentados sugieren que tanto nuestra comprensión de la relación estructura-función y la precisión de la anotación funcional puede ser mejorado mediante el examen de homología estructural en el contexto filogenético. Actualmente estoy involucrado en el trabajo tratando de mejorar en mi ingenua medida de similitud funcional y evaluar la solidez de estos resultados con parámetros de corte arbitrario. Además, la utilización de estos resultados es posible esbozar una novela, una estrategia óptima con respecto a la anotación funcional de la actualmente en curso los proyectos de genómica estructural.

Materiales y Métodos

La evolución es, en esencia, una ciencia de la comparación. Con el fin de estudiar la evolución, que necesitaba para crear un marco computacional para representar a nuestro actual cuerpo de conocimientos. Yo elegí a este planteamiento de un problema teórico-gráfico prospectivo en el que los nodos son las unidades básicas de la evolución y los bordes son diferentes medidas de comparación. Además de proporcionar un marco unificado, gráficos de evolución de este tipo proporcionan una forma de organizar las diversas superabundancia de datos experimentales que se ha convertido en la piedra angular de la investigación bioinformática. En el caso de la evolución molecular, dado que los dominios pueden ser funcionalmente independiente, puede expresarse fuera de los complejos más grandes de proteínas en genomas, y con frecuencia se reordenará a través de splicing alternativo, no puedo definir un dominio como una buena evolución unidad básica sujeta a la estructura-función de las presiones . En consecuencia, he optado por trabajar con las anotaciones y comparaciones de dominios en lugar de las proteínas en su conjunto.

Apoyo a la Información
La distribución de secuencias de NRDB ¿Que Homologous a una estructura
Los datos están disponibles en línea desde
Http://romi.bu.edu/phylo_context/count_seqs.out
Las estructuras pueden descargar de la AP directamente y ASTRAL compendio de los nombres de dominio usando las previstas en
Http://romi.bu.edu/phylo_context/domain_names.txt
Ejemplo de desigual anotación en el andamiaje funcional ir árbol
(1,3 MB TIF).
El uso de la distancia filogenética para una semejanza estructural Resultado proteínas relacionadas funcionalmente diferencia de los que no están
(449 KB TIF).

El autor desea reconocer Eugene Shakhnovich, Max John Harvey, y el apoyo de los NIH.