BMC Bioinformatics, 2006; 7: 53-53 (más artículos en esta revista)

AP-UF: base de datos de funciones enzimáticas predijo sido objeto de las estructuras de proteínas de la genómica estructural

BioMed Central
Marcin von Grotthuss (mvg@paradox.harvard.edu) [1], Dariusz Plewczynski (darman@bioinfo.pl) [2], Krzysztof Ginalski (kginal@bioinfo.pl) [2], Leszek Rychlewski (leszek@bioinfo.pl ) [2], Eugene I Shakhnovich (eugene@belok.harvard.edu) [1]
[1] Department of Chemistry and Chemical Biology, Harvard University, 12 Oxford Street, Cambridge, Massachusetts 02138, USA
[2] BioInfoBank Instituto, ul. Limanowskiego 24A, 60-744 Poznan, Polonia
[3] Unidad de Bioinformática, del Departamento de Física de la Universidad Adam Mickiewicz, ul. Umultowska 85 61614 Poznan, Polonia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

El número de estructuras de proteínas de la genómica estructural centros aumenta dramáticamente en el Protein Data Bank (PDB). Muchas de estas estructuras están funcionalmente sido objeto ya que no tienen similitud a la secuencia de las proteínas de función conocida. Sin embargo, es posible inferir con éxito a la función utilizando sólo la semejanza estructural.

Resultados

Se presenta la AP-UF base de datos, una web accesible serie de predicciones de las propiedades enzimáticas utilizando la relación estructura-función. Las tareas se realizaron en tres dimensiones de estructuras de proteínas de función desconocida que provienen de la genómica estructural iniciativas. Mostramos que el 4 de hipotéticas proteínas (AP adhesión con los códigos: 1VH0, 1NS5, 1O6D, y 1TO0), en las que las herramientas estándar de BLAST como PSI-BLAST o RPS-BLAST no asignar una función, son probablemente las enzimas metiltransferasa.

Conclusión

Sugerimos que la estructura basada en la predicción de un número CE debería haber llevado a cabo los diferentes similitud puntaje de corte para diferentes proteínas pliegues. Además, la realización de la anotación utilizando dos diferentes algoritmos puede reducir la tasa de falsos positivos cesiones. Creemos, que presentó el repositorio basado en la Web ayudará a disminuir el número de estructuras de proteínas que tienen funciones marcadas como "desconocido" en el archivo de AP.

Disponibilidad
Antecedentes

Más de 30 centros de la genómica estructural se han establecido en todo el mundo con el objetivo común de gran escala, de alto rendimiento determinación de la estructura utilizando cristalografía de rayos X y RMN [1]. Uno de ellos es el de predecir la función de las proteínas de sus estructuras tridimensionales, principalmente aquellos que no tienen secuencia detectable cualquier similitud con proteínas de función conocida [2]. Actualmente, el tamaño total del Banco de Datos de Proteínas (AP) [3] es más de 32000 entradas, que contienen más de 29000 diferentes (63000 redundante) las cadenas de proteínas. Muchas de las cadenas de AP se han mapeado en el enzimática Clasificación (CE) a través de los números de la base de datos Swiss-Prot [4]. La cartografía de la información se ha presentado como un PDBSprotEC base de datos [5], que está disponible en Internet. SCOPEC [6] es un repositorio basado en la web que es similar a PDBSprotEC colección. SCOPEC El conjunto contiene una descripción de los dominios de la proteína catalizadora de la enzima función asignada. Predicción de la función de la proteína se ha realizado utilizando la secuencia similitud en ambas bases de datos accesibles en web. No cabe duda de la PDBSprotEC y SCOPEC completo de las bases de datos son muy útiles CE número cesiones. Sin embargo, ninguno de estos servicios contiene predicciones de las proteínas que no tienen secuencia similar a las enzimas conocidas. Además, ni PDBSprotEC ni SCOPEC incluye los datos de las estructuras de AP recientemente depositado. El "joven" anotado en PDBSprotEC o SCOPEC proteína fue liberado por AP en agosto de 2004 o en febrero de 2003, respectivamente. Por lo tanto, decidió utilizar la estructura-función de la relación [7 - 9] para la asignación automática de la CE a 499 el número de estructuras de proteínas que vinieron de los centros de la genómica estructural y cuya función es marcada como "desconocido" en el archivo de AP. Todas las tareas se combinan en una base de datos de acceso web, que será actualizada tan pronto como las nuevas estructuras de los proyectos de genómica estructural son puestos en libertad. Debido a que la mayoría de estos AP entradas todavía no están publicados, creemos que nuestro repositorio ayudará a reducir el número de funciones de las proteínas que han marcado como "desconocido" en el archivo de AP.

Secuencia de la función relación

Antes de la predicción de la función de la enzima sobre la base de relación estructural, comprobamos si es posible asignar el número CE a la proteína utilizando sólo la similitud de secuencias de información. George et al. Encontró que incluso en el caso de homólogos detectado por una tercera iteración PSI-BLAST perfil hay una posibilidad 50:50 de la asignación de un bastante específico de tres dígitos CE número [6]. Este trabajo parece estar en contraste con los numerosos informes que indican que es muy difícil deducir la función con éxito por debajo del 40% de identidad de secuencia [10, 11]. Por ello, realizó un experimento para investigar las reclamaciones. Secuencia de las cadenas del Banco de Datos de Proteínas se agruparon por similitud utilizando el 90% de identidad de aminoácidos (AA id.) Como valor de corte. Tenemos grupos de 3135 que contiene una o más proteínas con función de la enzima conocida (un total de las agrupaciones> 10000). A continuación, se calculó el PSI-BLAST alineación puntuación entre cada uno de los pares de 3135 el representante secuencias. 565 (18%) de las proteínas se clasificaron a superfamilies que contiene al menos dos enzimas CE cuyos números son diferentes en el primer nivel de la CE (parte superior izquierda gráfico en el Figura 1]. Pero, por otra parte, 781 (25%) de las secuencias tienen una importante similitud con las enzimas CE con el mismo número en todos los niveles de la CE, y no eran similares a los demás (gráfico inferior derecha en la Figura 1]. Todos los resultados sugieren que no existe un valor de corte general de similitud de secuencias que se podrían utilizar para asignar la función a la consulta. Probablemente cada una de las enzimas conocidas debería tener su propio punto de corte para la función de las cesiones. Aquí nos muestran que una situación similar se observa cuando el número CE se prevé la utilización de información sobre las relaciones estructura-función.

Construcción y contenido
Utilidad y discusión
Conclusión

El AP-UF base de datos es una colección de la CE asigna números a las estructuras de proteínas de función desconocida, que proceden de los centros de la genómica estructural. Estructura basada en la predicción de la CE número se llevó a cabo con diferentes valores de corte para una proteína de diferentes pliegues. Con el fin de reducir el número de falsos positivos la anotación se realizó a través de Meta-estrategia. El repositorio basado en la web se actualizará automáticamente cuando las nuevas estructuras de las proteínas son puestos en libertad.

Disponibilidad

La base de datos está disponible en http://paradox.harvard.edu/PDB-UF y en http://bioinfo.pl/PDB-UF

Contribuciones de los autores

MvG desarrollado la AP-UF y de la base de datos 3D-Diversión método. DP LR y diseñó el algoritmo 3D-Hit. KG y siempre reflexivo ES ideas y ayudó en la prueba. Todos los autores han leído y aprobado el manuscrito.

Agradecimientos

Estamos en deuda con Gert Vriend por su lectura crítica del manuscrito. MvG gustaría agradecer a la Fundación de Ciencias de Polonia a la beca. El trabajo fue apoyado por el 6PM GeneFun (LSHG-CT-2004-503567) y DataGenome (LSHB-CT-2003-503017) y de las subvenciones por el Ministerio de Ciencia y de la Información.