BMC Bioinformatics, 2005; 6: 81-81 (más artículos en esta revista)

Columba: una base de datos integrada de las proteínas, estructuras, y las anotaciones

BioMed Central
Silke Trißl (silke.trissl @ informatik.hu-berlin.de) [1], Kristian Rother (kristian.rother @ charite.de) [2], Heiko Müller (heiko.mueller @ informatik.hu-berlin.de) [ 1], Thomas Steinke (steinke@zib.de) [3], Ina Koch (ina.koch @ tfh-berlin.de) [4], Robert Preissner (robert.preissner @ charite.de) [2], Cornelius Frömmel (Cornelius.froemmel @ charite.de) [2], Ulf Leser (ulf.leser @ informatik.hu-berlin.de) [1]
[1-6 10099 Berlin, Alemania
[2] Instituto de Bioquímica, universitario Charité en Berlín, Monbijoustraß e 2a, 10117 Berlin, Alemania
[3] Zuse Institute Berlin, Takustrasse 7, 14195 Berlin, Germany
[4] Technische Fachhochschule Berlín, Seestr. 64 13347 Berlín, Alemania

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Estructurales y funcionales de la investigación requiere a menudo el cálculo de conjuntos de estructuras de proteínas basado en ciertas propiedades de las proteínas, como la secuencia de funciones, doble clasificación, funcional o anotación. Compilación de tales conjuntos utilizando recursos web actual es tediosa porque los datos necesarios están repartidas en diferentes bases de datos. Para facilitar esta tarea, hemos creado COLUMBA, una base de datos integrada de las anotaciones de estructuras de proteínas.

Descripción

COLUMBA actualmente integra doce diferentes bases de datos, incluida la AP, KEGG, Swiss-Prot, CATH, SCOP, la ontología de genes, y ENZYME. La base de datos puede buscarse utilizando cualquiera de las palabras clave de búsqueda o fuente de datos específicos de los formularios web. Los usuarios pueden seleccionar rápidamente y por lo tanto descargar AP entradas que, por ejemplo, participar en una determinada vía, se clasifican como que contengan una determinada CATH arquitectura, son como haber anotado un cierto molecular de la función de genes de ontología, y cuyas estructuras presentan una resolución en virtud de un Umbral definido. Los resultados de las consultas se presentan en ambos legible por máquina, lenguaje de marcas extensible y formato legible para humanos. Las mismas estructuras se pueden ver en la web interactiva.

Conclusión

COLUMBA La base de datos facilita la creación de la estructura de proteínas para muchos conjuntos de datos basados en estudios de estructura. Permite combinar una serie de consultas sobre la estructura de las bases de datos no relacionados con el ámbito de aplicación de otros proyectos en la actualidad. Por lo tanto, la información sobre los muchos y muy pocas estructuras de la proteína puede ser utilizado de manera eficiente. La interfaz web para COLUMBA está disponible en http://www.columba-db.de.

Antecedentes

Biológica bases de datos se han convertido en un importante recurso para los investigadores en ciencias de la vida. Con el número cada vez mayor de los datos depositados y la evolución de herramientas computacionales, el foco de la investigación ha pasado de ser el estudio de un solo gen hacia una intra-e inter-especies comparación de los genes y productos genéticos. Esta tendencia también se puede observar en el campo de la biología estructural, en que el número de estructuras de proteínas depositados en el Banco de Datos de Proteínas, AP [1] está aumentando rápidamente. Sin embargo, si analizamos la estructura por sí sola no es suficiente para un estudio completo de los distintos tipos de relaciones entre las proteínas. Otros tipos de información, como las anotaciones funcionales y estructurales de las proteínas, también tienen que ser tenidas en cuenta.

Oberg y colegas [2] comparó los resultados de infrarrojo y espectroscopía de dicroísmo circular con la estructura 3D de una proteína que permite conocer mejor la relación entre la proteína asignado estructuras secundarias de banda espectral y forma. Para llevar a cabo este estudio, que tenían que preparar un conjunto de proteínas basado en el plegado tal como se define en la clasificación CATH, el contenido de estructura secundaria elementos DSSP calculada por el programa, y la disponibilidad comercial de las proteínas. Martin y colegas [3] sistemáticamente explorado la relación entre el plegamiento de la clasificación CATH y de la clasificación de las proteínas en ENZYME clases. A tal fin, que necesitan resolverse estructuralmente grupos de proteínas pertenecientes a una de las seis principales clases ENZYME. En ambos ejemplos, el primer paso de los experimentos consistió en la compilación de un conjunto de estructuras de proteínas basadas en la propia estructura y el plegamiento de clasificación, la secuencia de propiedades, la actividad enzimática, y otros tipos de información.

Los investigadores tienen varias posibilidades para recoger información sobre las estructuras de las proteínas. En primer lugar, las entradas de la AP en sí contiene un conjunto de información de texto completo y, a menudo, son anotado con enlaces a fuentes de datos externas. Sin embargo, las entradas no son AP curada, sólo archivados por el equipo de AP. Esto tiene dos consecuencias. En primer lugar, los datos no son actualizados constantemente y, por lo tanto, se hace fuera de la fecha. En segundo lugar, la anotación proporcionada por distintos peticionarios es muy heterogéneo y no seguir una nomenclatura normalizada. Como consecuencia de ello, la búsqueda de la AP para las anotaciones es una tarea propenso a errores. Las anotaciones pueden ser incompletos o inconsistentes con nomenclatura normalizada, de los errores ortográficos y sin control de abreviaturas de uso eficiente de prevenir una búsqueda textual, y la literatura referencias o enlaces a bases de datos estructurales y funcionales pueden ser obsoletas o inexistentes. Ejemplos de este tipo de problemas se describen en [4]. Esta falta ha dado lugar a una serie de la segunda parte de las bases de datos que digerir AP entradas y adjuntar una gran cantidad de enlaces a bases de datos pertinentes. Las dos fuentes más conocidos de este tipo son probablemente PDBsum [5] y la IMB Jena Image Library [6]. Ambos almacenar enlaces a bases de datos externas y no la información real. Por lo tanto, son muy adecuadas para la navegación de entradas individuales, pero insuficiente para el trabajo con conjuntos de las estructuras y de sus propiedades. Imagínese a un investigador quiere compilar el conjunto de proteínas que unen el ADN de los mamíferos resueltas por cristalografía de rayos X con una resolución inferior a 3,2 Å. La solución de esta tarea que se puede lograr utilizando bien PDBsum o bases de datos de la Oficina Marítima Internacional, pero requiere amplias trabajo manual o la codificación de secuencias de comandos especializados [7].

Para superar este problema, hemos creado COLUMBA, una base de datos de información sobre las estructuras de la proteína que integra físicamente a la información de doce proteínas relacionados con la estructura de las fuentes de datos en un único almacén de datos. Además de las propias estructuras de proteínas, COLUMBA cubre estructurales y de secuencia basada en sistemas de clasificación, anotación funcional, elementos de estructura secundaria, y la participación en las vías metabólicas. Los vínculos entre estos datos y las estructuras de las proteínas, tanto en la cadena, compuesto, y el nivel de ingreso, o bien están tomadas de la segunda parte de las bases de datos o se computan dentro COLUMBA, lo que más precisa y actual de la información disponible que en el anteproyecto de presupuesto propio y Como actual como sea posible, calcular los vínculos entre las cadenas y Swiss-Prot entradas basados en la similitud de secuencia, por lo tanto, hacer referencias a un 68% de las entradas a la AP un suizo-Prot secuencia.

Construcción y contenido
Fuentes de los datos

COLUMBA se centra alrededor AP entradas [1]. Por cada entrada que almacenamos información general como el método experimental, la resolución, la fecha de la deposición, y el autor. AP Cada entrada está organizada en compuestos, que representan las unidades biológicas, y cada compuesto tiene una o más cadenas. Un compuesto, para el que una enzima de clasificación (CE) número existe, está anotado con información de ENZYME [8] para el nombre de enzimas y reacción bioquímica, y con datos de la Enciclopedia de Kyoto de Genes y Genomas, KEGG [9] para la participación De esa enzima en las vías metabólicas. COLUMBA también integra datos de la Roche Bioquímicas Pathway Mapa [10].

Para obtener información sobre dominios de la proteína, las entradas de la proteína veces clasificación de las bases de datos [11] SCOP y CATH [12] están vinculadas a las cadenas de proteínas. Además, cada cadena está asignado a un grupo PISCIS [13]. PISCIS grupos de las cadenas de proteínas de acuerdo a su secuencia de la identidad y la experimentación en las propiedades sacrificadas conjuntos. Para cada cadena, la estructura secundaria se calcula utilizando el programa DSSP [14]. Enlaces a Swiss-Prot entradas [15] fueron recuperados de la base de datos PDBSprotEC [16]. La explotación de los enlaces de Swiss-Prot a otras bases de datos, las cadenas de AP están conectados a la base de datos NCBI Taxonomía [17] y funcional anotación de Gene Ontología [18].

La arquitectura y el esquema de base de datos

Todas las fuentes de datos integradas en COLUMBA describir aspectos concretos de la AP ni entradas de sí mismo, sus componentes, o de sus cadenas. Nunca mezclar datos de diferentes fuentes de datos con los demás. Este particionado se refleja directamente en el esquema de base de datos (ver Figura 1], en la que cada modelo de fuente de datos como una dimensión diferente en el que las estructuras de las proteínas son anotada. Cada fuente de datos ocupa su propio, subschema especializados en el esquema general de COLUMBA. A modo de ejemplo, la subschema de KEGG consta de tres cuadros, uno para la vía metabólica de los nombres, uno de los nombres de enzima, y la tercera tabla almacena la información sobre las enzimas que participan en las vías. Cada subschema está vinculada a la central que representa subschema AP entradas. Esta "separación de preocupaciones" se refleja también en la interfaz Web.

Integración de las fuentes de datos en COLUMBA

COLUMBA es aplicado en la parte superior de la base de datos de código abierto PostGreSQL sistema [19]. En la actualidad integra los datos de las doce fuentes de datos como se muestra en la Tabla 1. Los datos de las fuentes originales están disponibles en diferentes formatos, como archivos planos, archivos de volcado de la base de datos, o páginas HTML puro. Utilizamos analizadores, escrito en Python y Perl, respectivamente, para poblar COLUMBA con los datos obtenidos en la no representación relacional. Por AP utilizamos nuestro propio analizador BioPython derivados de los proyectos [20]. Para subir Swiss-Prot, Gene Ontología, NCBI y Taxonomía utilizamos el esquema de analizadores y BioSQL previstas en el proyecto [21]. Después del análisis de cada fuente de datos en un esquema de base de datos, los datos de los esquemas son mapeados en el esquema de meta COLUMBA. Programa fuente de nuestra analizadores está disponible a petición. Las conexiones entre las fuentes de datos y el AP de datos son generalmente establecidas mediante el uso de los vínculos existentes. Enlaces de AP a ENZYME, KEGG, Boehringer y el mapa se obtienen a través de la CE número de entradas en el AP. DSSP estructuras secundarias se calculan directamente de las cadenas. La conexión entre la AP y las cadenas de Swiss-Prot entradas se establece mediante el uso de la información de la base de datos PDBSprotEC [16]. Swiss-Prot se utiliza también como intermedio para la conexión de información a la AP entradas NCBI Gene Taxonomía y Ontología Anotación [22].

Anotación de flujo de trabajo

La anotación de flujo de trabajo COLUMBA rellena el depósito de datos y establece conexiones entre la AP y las otras entradas de las fuentes de datos. Cada fuente de datos está representada por un módulo de software de una interfaz de la aplicación. Una vez que un nuevo AP entrada está escrito en COLUMBA, gestor de un flujo de trabajo provoca cada módulo, que añade anotaciones de la entrada. La aplicación de los módulos varía de acuerdo a la naturaleza de la fuente de datos. Por ejemplo, el módulo de llamadas DSSP la DSSP programa para calcular la estructura secundaria para cada cadena, mientras que el módulo de búsquedas SCOP AP y la cadena de los identificadores de archivos externos. Nuestra anotación oleoducto es capaz de manejar las dependencias lógicas entre los diferentes módulos. Esta arquitectura permite incluir una nueva fuente de datos con sólo ampliar el esquema de base de datos para los nuevos cuadros, y la aplicación de un módulo.

Contenido de COLUMBA

COLUMBA se rellena con los datos mediante la anotación de flujo de trabajo se describe en la sección anterior. Nuevas entradas del Banco de Datos de Proteínas se agregan periódicamente a COLUMBA, y enlaces a las otras fuentes de datos se estableció a esta importación. Fuentes de los datos con una política de liberación, como el suizo-Prot, la SCOP o CATH se actualizan de acuerdo a las nuevas versiones. Todas las demás fuentes de datos se actualizan a medida que se van introduciendo nuevos datos. Cuadro 2 incluye el número de entradas AP, que se desglosan a los compuestos y las cadenas que tienen una anotación en las respectivas fuentes y las combinaciones de fuentes.

Utilidad

COLUMBA es relacional, base de datos integrada de la información sobre las estructuras de las proteínas y está especialmente diseñado para apoyar la creación de conjuntos de estructuras de proteínas compartir anotaciones en ninguna de las fuentes de datos. Conjuntos como los descritos en la introducción pueden ser compilados con unos clics de ratón utilizando COLUMBA.

Interfaz Web

COLUMBA se pueden buscar a través de una interfaz web disponible en http://www.columba-db.de. La interfaz permite dos tipos de consultas: Búsqueda de texto, así como fuente de datos y de atributos específicos de búsquedas. En ambos casos, los resultados de una consulta en una lista de AP entradas con sus correspondientes cadenas.

Por conveniencia y como una puesta en práctica inmediata, COLUMBA Se puede buscar por palabras clave usando un estándar de búsqueda en todos los campos de texto en COLUMBA (Figura 2A], incluida la anotación dada por la AP, enzimáticos, metabólicos, taxonómicos, y la proteína veces clasificación Información. Palabras clave pueden combinarse utilizando lógica AND, OR y NOT operadores. La palabra clave de búsqueda simultánea realiza una petición sobre el contenido de todas las fuentes de datos integrada, y por lo tanto es un rápido y fácil de usar interesante opción para encontrar estructuras de proteínas. Sin embargo, no permite la fuente de atributo o consultas específicas, por ejemplo, para encontrar todas las estructuras de las proteínas, que son específicamente anotado en CATH como Rossmann que contiene un pliegue. El objetivo principal de COLUMBA es la recopilación de conjuntos de las estructuras de distribución de las diferentes propiedades de segunda parte de bases de datos. Para apoyar esas consultas, hemos creado una interfaz web especializada basada en el paradigma de la consulta refinamiento. Este proceso se entiende mejor como un primer conjunto de datos, que luego se reduce mediante la aplicación de diferentes filtros. En nuestro caso, el primer conjunto de datos contiene todo el conjunto de entradas AP. Para cada una de las fuentes de datos integradas en COLUMBA, el usuario puede especificar la fuente específica de las condiciones del filtro utilizando un formulario web adecuada (ver Figura 2B]. La fuente formas específicas se pueden encontrar mediante el uso de la etiqueta botones en la parte izquierda de la página web. Después de introducir condiciones en la forma, las entradas de AP que no cumplan con las condiciones se declaró eliminado de la actual serie de resultados. Varias formas pueden ser utilizados consecutivamente, restringiendo así el original conjunto de todas las entradas por las condiciones de AP en múltiples fuentes de datos. Condiciones de diferentes fuentes, lógicamente, siempre están conectados por un AND. Los operadores de búsqueda disponibles dependerá del ámbito específico y fuente de datos, que van desde las comparaciones numéricas a la subserie de la casación y de recorrido de las estructuras de ontológico. Para guiar al usuario, COLUMBA constantemente muestra el número actual de calificación AP entradas después de cada consulta paso en la cabecera de la página. Esto demuestra las consecuencias de la adición, eliminación o modificación de las condiciones y ayuda a prevenir la sobre-especificación de las condiciones favorables a la búsqueda vacía conjuntos. Tenga en cuenta que la búsqueda de texto completo se puede utilizar como una restricción adicional sobre la condición de conjunto de resultados, que ha resultado ser un muy poderoso elemento de la interfaz de búsqueda.

Una vez que el usuario haya especificado todas las condiciones deseadas, COLUMBA calcula la calificación conjunto de estructuras de proteínas. Esta lista de resultados (véase la figura 3] proporciona información básica, como el ID de AP, el método experimental, nombre compuesto, y las cadenas para cada entrada. El AP entrada ID enlaces a la vista COLUMBA Explorer para esa entrada. El Explorer (ver Figura 3B], muestra toda la información almacenada en COLUMBA para que AP entrada. Esto incluye el método experimental y la resolución de cada entrada y nombre compuesto, metabólicas información, y la fuente de cada organismo compuesto. Se da información detallada para cada cadena, incluyendo proteínas veces clasificación de la SCOP y CATH, según datos de la entrada de Swiss-Prot, Gene Ontología anotación, y NCBI taxón nombre. Estos datos también se pueden ver o descargar en formato XML. También tenemos en línea a través de la visualización molecular JMol [23], y enlaces a los datos originales artículos de las respectivas bases de datos.

Para aumentar aún más la capacidad de búsqueda de la interfaz web, es posible cargar un archivo que contiene un conjunto de identificadores AP. Así, un usuario puede ver todos los datos en COLUMBA de las entradas en su lista y crear subconjuntos de estructuras de proteínas de la lista por las condiciones de entrar en la segunda parte de las anotaciones. Por ello, la interfaz web COLUMBA reduce en gran medida el tiempo necesario para reunir información adicional para las entradas en cualquier lista de entradas AP.

Ejemplo de uso

Considere la posibilidad de una consulta para todos los compuestos de la clase «1 ENZYME .-.-.-' que contiene una cadena con un barril TIM veces (ver Figura 3A]. Para calcular este conjunto, el usuario especifica primera 'TIM barril "en la búsqueda de texto completo, que devuelve todas las cadenas de AP con la palabra clave" TIM barril "en ninguna de las fuentes de datos, incluida la AP, SCOP, CATH y anotación. A continuación, el conjunto de todas las proteínas de cumplimiento de esta condición puede ser interceptada con el resultado de la búsqueda de la ENZYME clase en el metabolismo. La intersección de 95 estructuras de AP. Sin embargo, utilizando la búsqueda de texto completo es sólo una opción para hallar la respuesta adecuada. En general, son posibles diferentes respuestas para una cuestión determinada en función de las preferencias y la confianza del usuario en las bases de datos diferentes. Considere de nuevo el ejemplo dado más arriba. Si un usuario tiene una alta confianza en ninguno de los dos CATH o SCOP, puede especificar una condición CATH o utilizando el formulario de la SCOP, respectivamente, en lugar de realizar la búsqueda por texto completo 'TIM barril ". Esto se traduce en 79 entradas si la decisión se basó únicamente en CATH y 90 entradas para la SCOP. El usuario puede incluso desea restringir la búsqueda sólo a los que son cadenas que contiene una anotada como 'TIM barril' veces en ambos CATH y SCOP. El conjunto ha devuelto 79 estructuras de la proteína APP. Estas diferencias obedecen al hecho de que normalmente sólo es COLUMBA las referencias que figuran en los datos originales y no cura o modificar el contenido de las bases de datos integradas.

Aplicaciones de la COLUMBA

La interfaz web se ha diseñado para recopilar conjuntos de estructuras de proteínas intercambio de propiedades relacionados con la estructura de las fuentes de proteínas, pero es posible abordar las cuestiones más complejas mediante la explotación de los almacenes de datos relacionales COLUMBA. Mostramos una serie de aplicaciones en las que hemos utilizado SQL (Structured Query Language) para recuperar la información.

Una pregunta de investigación sobre la participación de enzimas de rutas metabólicas surgió de un artículo de Martin et al. [3] que investigan la relación entre la proteína y ENZYME clasificación de la clasificación de los plegables CATH. Un hallazgo en ese momento era que el conocido enzimas en la vía glicolítica contiene un conjunto muy limitado de diferentes topologías y arquitecturas de CATH. Naturalmente, esto plantea la cuestión de si este es el caso de otras vías metabólicas también. Se utilizó COLUMBA para abordar este problema, la combinación de datos de AP, la información sobre las vías metabólicas de KEGG, y la clasificación CATH.

Cada KEGG vía consiste en una serie de enzimas relacionadas con un complejo de AP. Estos compuestos están vinculadas a las respectivas cadenas, que a su vez se hace referencia a las clases de CATH, arquitecturas, topologías y. Hemos calculado el número de apariciones de CATH clases para el conjunto de las enzimas en un camino que contiene más de 10 enzimas y tener una cobertura de al menos el 50% con las estructuras de AP que también están anotados en CATH. Para todas las vías de calificación de las cifras se presentan en la Tabla 3.

El primer hecho llamativo es que sólo el 26% de las enzimas que participan en las vías KEGG tienen anotado en las cadenas de CATH. Esto se debe a que sólo el 34% de las enzimas de KEGG son estructuralmente resueltas, de los cuales varios no son anotados por CATH. Las enzimas anotado en el conjunto contienen cuatro veces más dominios con un alfa / beta clase en la que CATH Principalmente Principalmente Alfa y Beta, respectivamente. En comparación, de todas las proteínas anotado por la CATH Alpha / Beta clase sólo se produce dos veces con la frecuencia que cada uno de los otros dos pliegues.

En la Figura 4 la subdivisión de todas las enzimas (Figura 4A], así como de algunas vías en clases, arquitecturas, topologías y de la proteína veces clasificación CATH se muestra en 'CATH ruedas ". La CATH arquitectura predominante en los tres' CATH-ruedas "es el 3-Layer (aba) Sandwich, con la 'Rossmann veces», que incluye la mayor topología. En la Figura 4B la Pyrimidine metabolismo se muestra. Como podemos ver, las acciones de las diferentes clases son casi igual a la distribución de las clases en todas las enzimas. Figura 4C muestra la Glycolysis / Gluconeogenesis vía, en donde en 1998 sólo el 11 enzimas eran conocidos. Estas enzimas exhibido en gran medida de un Alfa / Beta veces. Por ahora, el 24 de las enzimas y se resuelven estructuralmente clasificados por CATH, que dan lugar a más dominios que difieren de los predominantes Alpha / Beta veces. A medida que más y más enzimas ser resueltas estructuralmente en el futuro, este panorama cambiará una vez más.

Discusión
Relacionados con el trabajo

El método más frecuente para la interconexión de los datos sobre las estructuras de las proteínas que están repartidas en múltiples fuentes de datos original es el uso de hipervínculos. Ejemplos de ello son PDBsum [5] y la IMB Jena Image Library [6]. Este método es muy adecuado para la navegación de entradas individuales, pero tan pronto como se trata de la manipulación de conjuntos de objetos, después de muchos hipervínculos se convierte en una tediosa y lenta tarea. Eficiente en el manejo de conjuntos sólo se puede lograr si los datos están físicamente integradas en un único sistema. En la estructura de la proteína mundo, existen tres grandes bases de datos, aparte de tales COLUMBA. 3DinSight [24] se centra en la visualización de la secuencia de características como PROSITE o alterado los patrones de posiciones en la estructura 3D. IProClass [25] se concentra en la secuencia de proteínas y 50 integra diferentes bases de datos utilizando las denominadas "enlaces ricos". Por último, BioMolQuest [26] integra un total de cuatro fuentes de datos, con lo que el almacenamiento de sólo un subconjunto de la información disponible en COLUMBA. Actualmente, el propio Banco de Datos de Proteínas está preparando una nueva interfaz web para proporcionar, no sólo los enlaces a las fuentes, pero la información real de la SCOP, CATH, y la Ontología de Genes. Estos son sólo un subconjunto de las fuentes integradas en COLUMBA. COLUMBA la funcionalidad podría también se han logrado mediante la aplicación de módulos específicos para SRS. Sin embargo, pronto decidió utilizar la tecnología de base de datos relacional en lugar de la gran propiedad SRS idiomas y de los medios.

Dos grupos de la actualidad frente al problema de errores en el uso de la terminología en el AP: AP la uniformidad proyecto [4], y la base de datos de estructura Macromoleculares MSD [27]. Ambos proyectos tienen por objeto la corrección de las entradas AP, la unificación de la terminología, y la adición o actualización de los enlaces a las referencias científicas. El MSD también se ocupa de la vinculación de las cadenas de AP a Swiss-Prot entradas. Esperamos que estos esfuerzos hacer nuestro trabajo más fácil en un futuro próximo, por ejemplo, si el AP vienen con entradas propias coherente y estructurado de la información taxonómica.

COLUMBA actualmente integra doce fuentes de datos relacionadas con diferentes aspectos de las secuencias de proteínas y estructuras. En particular, COLUMBA no almacena las coordenadas de las estructuras propias, pero está diseñado para permitir a los usuarios a encontrar 'el derecho' conjunto de estructuras basadas en anotaciones. Esto es por la intención, ya que existen ya muchos programas que pueden analizar de manera eficiente, visualizar, o comparar las estructuras de la proteína APP archivos.

Un importante principio de diseño de COLUMBA es que nunca se mezcla datos de diferentes fuentes en un único cuadro. Cada fuente de datos es considerada como una dimensión en la que AP entradas, compuestos, y las cadenas son anotada. Llamamos a este enfoque multidimensional de la integración de datos [28], que se inspira en el diseño de almacenamiento de datos, donde los hechos, por ejemplo, las ventas, se describen por dimensiones, como la tienda, producto o el cliente [29]. El esquema de base de datos resultante se denomina esquema de estrella en la correspondencia con el aspecto visual. También utilizamos una estrella como el esquema de la estructura con la celebración de mesas de información de las estructuras de las proteínas en el centro de un conjunto de cuadros que contienen los datos de otras fuentes de datos.

Nuestro enfoque es en contraste con los proyectos que apuntan a un refuerzo de la integración semántica, lógicamente, la fusión de tipos similares de la información en un único cuadro. Tal enfoque de la integración semántica, por ejemplo, fue seguido en el proyecto TAMBIS [30]. Sin embargo, creemos firmemente que la fusión de los datos procedentes de diferentes bases de datos es contraproducente para el biólogo, ya que difumina diferencias importantes. Por otra parte, el mantenimiento de los datos separados conduce inevitablemente a un cierto grado de redundancia semántica, es decir, los distintos elementos de esquema ofrecer el mismo tipo de información. Por ejemplo, la anotación funcional de las proteínas está codificada tanto en Swiss-Prot palabras clave y términos de ontología de genes; "TIM barriles" son anotados en CATH, SCOP, y el AP anotación. Pero este despido no procede de la duplicación de datos, sino más bien independientemente de las pruebas obtenidas por personas diferentes o por diferentes experimentos. Estas evidencias son importantes por derecho propio.

Creemos que las ventajas de nuestro enfoque para prevalecer sobre todo dos razones:

• Los usuarios reconocen el origen de los datos que consulta y obtener como resultado. En nuestra experiencia, los biólogos a menudo tienen su favorito conjunto de bases de datos, en el que saber acerca de los peligros y peculiaridades. Al mantener separados los datos, preferencias personales o diferencias en la confianza, en particular, las bases de datos pueden ser expresadas y los resultados pueden ser juzgados sobre la base de la experiencia anterior.

• sutiles diferencias en la semántica de los campos de las diferentes bases de datos se conservan. Por ejemplo, tanto Swiss-Prot palabras clave y anotaciones GO expresar anotación funcional. Sin embargo, el proceso de creación de esta anotación es bastante diferente, y es a menudo importante para discriminar entre los dos.

Además, la separación de datos y software para las diferentes fuentes de datos simplifica mucho el mantenimiento del sistema. Los cambios en las fuentes de datos, incluida la supresión o adición de datos de las fuentes, sólo afecta a una parte específica del esquema y de la interfaz web.

Nuestra percepción de la anotación considerar como fuentes primarias dimensiones describir algunos objetos se sigue también en el EnsMart proyecto [31]. EnsMart utiliza un "esquema invertido estrella 'para conectar los genes con distintos tipos de información, como la genómica posición, factores de transcripción, o expresión de datos. Los datos se preguntó a través de una interfaz web genéricos, que también permite realizar consultas específicas fuente y sus combinaciones. Conceptualmente, EnsMart y COLUMBA son muy similares, pero trabajan en totalmente diferentes tipos de datos. Además, está directamente COLUMBA diseñado para el manejo de las anotaciones de estructuras de proteínas, que tiene ventajas en términos de resultado de búsqueda y opciones de visualización.

Conclusión

COLUMBA ha demostrado ser muy útil para una serie de tareas en nuestra propia investigación estructural. Generación de conjuntos de estructuras, que previamente requiere días de la navegación o la escritura manual de analizadores, ahora sólo toma unos pocos clics del ratón, o una consulta SQL. Una vez que el conjunto de AP y las cadenas de las entradas se obtiene, hay muchos otros programas para visualizar o la comparación de las estructuras. COLUMBA el desarrollo futuro se concentrarán aún más en la anotación de la estructura, en contraste con la estructura y sus coordenadas. El próximo fuentes de datos que deben integrarse son los que abarcan los dominios de proteínas y motivos, es decir, InterPro [32] y de sus familiares. A largo plazo, vamos a empujar hacia un COLUMBA orientación médica. Evidentes candidatos a la integración de la literatura son los resúmenes de Medline y la base de datos OMIM [33]. La base de datos LIGAND [34] proporcionará información acerca de las pequeñas moléculas de las proteínas que interactúan con COLUBMA a utilizar para la predicción de drogas objetivo partes. Avances hacia los datos médicos es un próximo paso natural, ya que gran parte de la investigación estructural, incluido el nuestro [35] se refiere al desarrollo de drogas.

Disponibilidad

La base de datos está disponible en http://www.columba-db.de.

Contribuciones de los autores

ST diseñado e implementado el interfaz de la Web. KR encargada de la aplicación de la anotación de flujo de trabajo. HM ayudado a la importación de datos de AP. UL diseñado la arquitectura general y co-supervisa el proyecto. TS mantiene la infraestructura de servidor. CI proporcionaron datos sobre la clasificación de los pliegues de proteínas, y de la RP en proteínas ligandos. CF co-supervisó el proyecto y fue la principal fuente de motivación para la creación de una base de datos integrada de la proteína anotación.

Agradecimientos

Este trabajo es apoyado por el BMBF subvención no. 0312705B (Berlín Centro de Bioinformática del Genoma de la base). Damos las gracias a Rafael Bauer, Rene Heek, Stefan Günther y para la aplicación de muchas partes de Columba. Reconocemos la excelente labor de los mantenedores de la base de datos de las distintas bases de datos fuente y las gracias por su consentimiento para integrar sus datos en COLUMBA.