BMC Genomics, 2005; 6: 112-112 (más artículos en esta revista)

GH97 es una nueva familia de glucósido hidrolasas, que se relaciona con la α-galactosidasa superfamilia

BioMed Central
Daniil G Naumoff (daniil_naumoff@yahoo.com) [1]
[1-1 117545, Rusia

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Por regla general, alrededor de un 1% de los genes en un determinado genoma codificar glucósido hidrolasas y sus homólogos. Sobre la base de similitud de secuencias que se han agrupado en más de noventa GH familias durante los últimos 15 años. El GH97 familia se ha establecido muy recientemente y también inicialmente sólo 18 proteínas bacterianas. Sin embargo, la evolución de la relación entre los genes que codifican las proteínas de esta familia sigue siendo incierto, así como su distribución entre los grupos principales de los organismos vivos.

Resultados

La búsqueda exhaustiva de las actuales bases de datos nos ha permitido duplicar el número de GH97 familia de las proteínas. Cinco subfamilias se distinguen sobre la base de pairwise secuencia de la comparación y el análisis filogenético. Iterativo análisis de secuencias reveló la relación de la familia con GH97 la GH27, GH31, y GH36 de glycosidases familias, que pertenecen a la superfamilia de α-galactosidasa, así como una relación más distante con algunas otras familias glycosidase (GH13 y GH20).

Conclusión

Los resultados de este estudio muestran una inesperada similitud de secuencias de proteínas de la familia con GH97 glucósido hidrolasas de varias otras familias, que tienen (β / α) de 8 veces barril del dominio catalítico y un mecanismo de retención de la fianza glucósido hidrólisis. Estos datos sugieren un origen evolutivo común de glycosidases en representación de los diferentes clanes y familias.

Antecedentes

Sobre la base de similitud de secuencias, glucósido hidrolasas (o glycosidases, EC3.2.1 .-) han sido agrupados en 96 familias (GH1-GH100, excepto GH21, GH40, GH41, y GH60) por los hidratos de carbono-activa enzimas (CAZy) clasificación [1, 2]. En el caso de los poli-dominio de cada dominio catalítico de las proteínas se considera por separado. Una familia fue inicialmente definida como un grupo de por lo menos dos secuencias de aminoácidos muestra significativa similitud y sin similitud significativa con otras familias [1]. Más tarde, algunos relacionados con las familias de glycosidases se han combinado en clanes [3, 4]. Según su definición, un clan es un grupo de familias que se cree que tienen un origen común y son reconocidos por importantes similitudes en la estructura terciaria, junto con la conservación de los residuos catalíticos y un mecanismo catalizador [3]. Glycosidases catalizar la hidrólisis de la glucosídico vínculo de sus sustratos general a través de dos mecanismos, ya sea para inversión o de retención total de la anomeric configuración en el punto de división [4 - 6]. Actualmente, el 14 clanes (GH-A-GH-N) se describen, y que contienen en total 46 familias [2]. Familias de cuatro clanes (GH-A, GH-D, GH-H, y GH-K), así como varias otras familias, que no han sido asignados a ningún clan, contienen proteínas con un similar (β / α) 8 - Barril seno de la catalizadora de dominio [2]. Varios glycosidases, que no tiene ningún homólogos, se incluyen en un grupo de los no clasificados glucósido hidrolasas [1, 2]. En varios casos, las proteínas de este grupo se han reclasificado en nuevas familias cuando sus homólogos se encontraron [7].

Dos diferentes clanes nunca se han fusionado en la clasificación CAZy [2], incluso después de su similitud significativa se ha establecido. En lugar de ello, los clanes relacionados (y familias) que tienen estadísticamente significativa similitud de la secuencia de las proteínas correspondientes que se propone se agrupan en superfamilies a un nivel jerárquico más alto. Por ejemplo, hemos descrito la furanosidase (β-fructosidase) superfamilia, que incluye clanes GH-F (invirtiendo glycosidases) y GH-J (manteniendo glycosidases), así como la GHLP (COG2152), la familia de proteínas no-enzimáticamente [8 -- 11].

Hoy en día, algunas familias son muy grandes. Por ejemplo, GH13 familia (clan GH-H) incluye más de 2000 representantes [2]. Este gran y poli-grupo específico de las enzimas ha sido estudiada por muchos autores [12 - 19]. En particular, se demostró que la división de esta familia en pequeños subfamilias permitido aclarar la relación de sus miembros [12, 13].

La mayoría de los conocidos glycosidases con la actividad de α-galactosidasa [EC3.2.1.22] pertenecen a familias GH27 y GH36, que forma clan GH-D [2, 20]. Este clan familiar y GH31 componen la α-galactosidasa superfamilia [21 - 24]. Esta superfamilia tiene una relación distante con el clan GH-H [25, 26], que hemos propuesto a nombre de la α-glucosidasa superfamilia [24]. Ambos superfamilies contienen proteínas que comparten el mismo mecanismo enzimático (retención), una similar (β / α) 8-barril seno de la catalizadora de dominio [2], y el uso de sustratos sólo con la orientación axial de la fianza glucosídico [4].

Gram-negativos obliga anaerobia Bacteroides thetaiotaomicron ATCC29148 es una bacteria comensal encuentra en el colon humano en el que fermenta una gran variedad de polisacáridos [27, 28]. Su utilización de almidón de almidón sistema de utilización del sistema (sus) se ha estudiado en detalle [29 - 35]. Uno de los loci correspondientes (Figura 1] incluye divergently gen regulador orientado a susR y siete genes estructurales susA-susG [30 - 34]. SusC-susF genes codifican proteínas de membrana externa participan en almidón vinculante. Glycosidases SusA (a neopullulanase, EC 3.2.1.135) y SusG (una α-amilasa, EC 3.2.1.1) son miembros de la familia GH13 [29 - 32]. SusB es una inusual α-glucosidasa [EC 3.2.1.20] que por mucho tiempo se consideró una única glycosidase sin homólogos [29, 30]. Por lo tanto, se incluyó en el grupo de los no clasificados glucósido hidrolasas [2]. Hemos encontrado un grupo de sus homólogos hipotética entre proteínas codificadas por marcos de lectura abierta (ORFs), que recientemente fueron secuenciados en el marco de varios proyectos de genoma procariótico. Nos referimos a este grupo de proteínas como la familia GHX [23, 24]. En junio de 2004, 18 miembros de esta familia fueron reconocidos en la clasificación CAZy como la familia de GH97 glucósido hidrolasas. Actualmente (junio de 2005), la familia GH97 incluye dos α-glucosidases SusB estrechamente relacionadas de bacterias B. Thetaiotaomicron ATCC29148 y Tannerella forsythensis (Bacteroides forsythus) ATCC43037, así como 22 hipotética proteínas codificadas por ORFs [2].

En este trabajo se actualiza el GH97 familia de glycosidases, realizó su análisis filogenético, y estableció su relación evolutiva con varios otros glycosidase familias.

Resultados y discusión
Recopilación de secuencias de la familia GH97

PSI-BLAST búsqueda de la base de datos no redundante con el Bacteroides thetaiotaomicron α-glucosidasa SusB (97A1_BACTH, ver Tabla I] como una secuencia de la consulta arrojaron 32 secuencias de la proteína con el peor (el más grande) E-valor de 2 × 10 -20 durante La primera ronda. Entre ellos encontramos 10 paralogous proteínas de B. Thetaiotaomicron ATCC29148 y sus 22 homólogos de otras especies. Entre 32 proteínas obtenidas se encontraron los 24 miembros de la familia GH97 enumerados en el CAZy servidor [2]. Genómica BLAST reveló otras 13 secuencias homólogas. Sobre la base de la similitud de secuencia, nos proponemos ampliar el GH97 familia mediante la inclusión de todos conocido homólogos de SusB. Como resultado de ello, actualmente esta familia incluye 45 proteínas. La mayoría de ellos representan Eubacteria (16 especies diferentes). Otros tres secuencias corresponden a Archaea (Haloarcula marismortui) y dos uncultured bacterias. Cuatro secuencias están anotadas en la base de datos NCBI como eucariotas (Anopheles gambiae) genoma fragmentos. Sólo cinco de las 45 secuencias de la proteína (de Anopheles y un uncultured bacteria) son cortos fragmentos (cuadro I].

PSI-BLAST búsquedas con algunos seleccionados al azar divergentes GH97 representantes de la familia utiliza como una consulta de secuencia durante la primera ronda siempre se obtuvieron los mismos 32 secuencias de proteínas como con 97A1_BACTH. Un análisis de la orden de la secuencia de aparición en la primera ronda de las búsquedas por PSI-BLAST, en función de la consulta, nos permite distinguir cinco subfamilias (97a-97e) en el GH97 familia con al menos dos conocidos miembros en cada una de ellas (Cuadro I]. Las alineaciones pairwise obtenidos se utilizaron para generar la secuencia de la proteína múltiples adaptación de la familia GH97. La mayoría conserva partes de la alineación se muestran en la Figura 2.

El fragmento de Leifsonia xyli CTCB07 genoma [GenBank: NC_006087] reveló por Genómica BLAST tiene 2 codones de parada en la región homólogos a los genes de las proteínas GH97 familia. Un análisis de la secuencia de ácidos nucleicos nos permitió detectar un cambio de marco (datos no presentados). La mejora de ORF codifica la proteína secuencia (97C1_LEIXY), que muestran una significativa similitud de secuencia con los demás miembros de la familia GH97 a lo largo de toda su longitud (Figura 2]. Sin embargo, es imposible determinar el comienzo de la secuencia de la proteína incluido el codón de inicio. Esta proteína es un divergentes GH97 representante de la familia y no puede ser clasificado en cualquier subfamilia sobre la base de la comparación de secuencias pairwise. 97C1_LEIXY y su homólogo 97D1_CAUCR más cercano (E-valor = 2 × 10 -54) tienen sólo un 30% de identidad de secuencia.

Un breve fragmento de gen [GenBank: AY350337] de un uncultured bacteria fue revelado por Genómica BLAST. Se había obtenido durante la PCR y la secuencia de selección de la microflora intestinal humana [36]. La secuencia de la proteína deducida (97A2_UNBAC) corresponde a la parte C-terminal de las otras proteínas GH97 familia, y tiene el más alto nivel de similitud con 97A1_BACTH (63% de identidad de secuencia) y 97A1_TANFO (60%). Nos permite incluir este fragmento de proteína en la subfamilia 97a (cuadro I].

PSI-BLAST búsqueda de la no redundancia de base de datos de proteínas eucarióticas dado un singular fragmento de proteína [GenPept: EAL42226] GH97 homólogas a la familia de proteínas. Proyección de la base de datos de secuencias de ácidos nucleicos eucarióticas descubierto la correspondiente secuencia de ADN [GenBank: AAAB01006165], así como otras tres secuencias cortas [GenBank: AAAB01064948, AAAB01020110, y AAAB01068263]. Todos habían sido secuenciado en el mosquito Anopheles gambiae proyecto del genoma [37]. 4 Estas secuencias fueron alineados para la identificación de las regiones solapadas. AAAB01064948 secuencia es homóloga a la parte central de AAAB01006165 secuencia tener el 54% de identidad a nivel de proteínas. Los extremos de la secuencia se AAAB01020110 respectivamente homólogas a uno de los extremos de AAAB01006165 y AAAB01068263 secuencias: 65% y 69% de identidad de secuencia a nivel de proteínas. Por lo tanto, estos 4 corresponden a las secuencias de al menos dos genes diferentes. En total, que abarcan un total de bacterias de un gen que codifica la proteína de la familia GH97. Teniendo en cuenta i) un alto nivel de similitud de los 4 deducir con secuencias de la proteína bacteriana de proteínas (50-71% de identidad con 97A1_BACFR, 97A2_BACTH, 97A1_TANFO, y 97A1_BACTH), ii) el intrón sin estructura genética, iii) la incapacidad de mapa Los genes en los cromosomas de mosquitos, y iv) ausencia de GH97 familia de las proteínas de cualquier otro organismo eucariota, sugerimos el origen bacteriano de estos cuatro fragmentos de genes. El origen bacteriano podría haber resultado de una contaminación de Anopheles gambiae tejidos utilizados para la preparación de la biblioteca del genoma de los mosquitos-como Bacteroides gut microflora. Las pruebas para este tipo de contaminación cuando las pruebas se obtuvo el 35575 clones de A. Gambiae biblioteca de cDNA [38]. Se encontró que por lo menos 808 secuencias que parecía ser contaminantes bacterianos.

Con el fin de ampliar la base de datos de la familia GH97 se les practicó examen de los llamados "datos de muestras del medio ambiente" [39]. Reveló 60 secuencias de ácidos nucleicos de el Mar de los Sargazos que son homólogas a los genes de las proteínas GH97 familia. Sin embargo, la mayoría de ellos codifican proteínas sólo fragmentos cortos y muchos de ellos tienen un nivel muy alto de similitud de secuencias. Entre ellos encontramos a sólo 5 en tamaño completo o casi completo de genes (cada uno codifica una proteína que consta de más de 650 aminoácidos). Otros tres "genes" secuencias se obtuvieron mediante la combinación de la superposición de fragmentos de genes con secuencias casi idénticas (por lo menos el 95% de identidad de secuencia a nivel de proteínas). Hipotéticas proteínas (97A1_ENSEQ-97A8_ENSEQ) 8 codificadas por estos genes debe ser colocado en la 97a subfamilia, sobre la base de similitud de secuencia (cuadro I]. Además, la mayoría de los genes codifican proteínas incompleta fragmentos pertenecientes a la misma subfamilia. Sólo cuatro [GenPept: EAE76000, EAE67019, EAH16525, y EAH96685] y dos [GenPept: EAE21375 y EAG68085] corresponden a fragmentos de proteínas subfamilias 97b y 97c, respectivamente. Un breve fragmento (137 aminoácidos; [GenPept: EAD85224]) no puede ser claramente clasificados en cualquier subfamilia de la familia GH97. Un análisis de la secuencia de ácidos nucleicos codificación de la proteína de este último fragmento [GenBank: AACY01501371 ] Nos permitió ampliar el fragmento de proteína utilizando otro codón de inicio. La secuencia de la proteína resultante (97C1_ENSEQ; 218 aminoácidos), muestra similitud con las secuencias de los demás miembros de la familia GH97 a lo largo de toda su longitud. Sin embargo, todavía es imposible incluir este fragmento de la proteína en cualquier subfamilia sobre la base de la comparación de secuencias pairwise.

El análisis filogenético de la familia GH97

Para comprobar la relación real de las proteínas dentro de la familia GH97 se les practicó un análisis filogenético obtenido utilizando la secuencia múltiples alineación. Es bien sabido que la filogenia es la mejor base para la verificación de la subfamilia estructura de una familia de proteínas. En muchas obras, en donde la composición de un glycosidase familia ha sido analizado, el estado monofilético se utilizó como principal argumento para una subfamilia descripción. Entre otros [40 - 44], este método se ha aplicado a GH13 [12, 13], GH27 [23, 24], y GH36 [24] las familias de glucósido hidrolasas.

Con el fin de verificar nuestra subdivisión de la familia en subfamilias GH97 se comprobó la agrupación de los miembros de la familia en el árbol filogenético. La máxima parsimonia (MP; Figura 3A] y vecino a participar en la (NJ; Figura 3B] árboles han topología muy similares, lo que sugiere la interpretación correcta de los eventos evolutivos. Cuando cualquier GH97 subfamilia de la familia es considerado como un grupo afuera, y ambas MP NJ árboles mostró que todas las otras subfamilias monofilético parecen formar grupos con un alto valor de arranque (al menos el 95,4% de apoyo, tanto en los árboles). Cabe señalar que no existe un par de subfamilias que componen vecino en ambos grupos de árboles con el apoyo significativo de arranque. Esto sugiere aproximadamente la misma distancia evolutiva entre cada par de las subfamilias.

El archaeal proteína 97A1_HALMA es un claro outlayer en el grupo de 97a subfamilia en MP y NJ árboles (Figura 3]. Los otros miembros de esta subfamilia componer varios subclusters, que incluirá a representantes tanto de Bacteroidetes o Proteobacteria phyla.

Sin clasificar proteína 97C1_LEIXY es el vecino más cercano de la subfamilia 97c en el grupo MP y NJ árboles (Figura 3] y por lo tanto puede ser considerado como un representante de este divergentes subfamilia (cuadro I]. El análisis filogenético de 97C1_ENSEQ fragmento de proteína (datos no presentados) nos permitió colocarlo en la misma subfamilia 97c.

Un análisis de la familia GH97 alineación de secuencias múltiples reveló una serie de posiciones de aminoácidos que son altamente conservados en varias subfamilias, pero variaron en los residuos de aminoácidos en diferentes subfamilias (Figura 2]. En conjunto, estas posiciones firma secuencia permitan predecir la subfamilia de pertenencia de una secuencia de proteínas.

GH97 relación de la familia con otras familias glycosidase

GH97 Dependiendo de la consulta y el umbral de significación estadística de E-valor, en la segunda o tercera PSI-BLAST iteraciones, por regla general, que hemos detectado estadísticamente significativas similitudes con α-galactosidasas. Representan familias GH27 y GH36 del clan GH-D (la α-galactosidasa superfamilia). Más distante se encontraron similitudes con glycosidases de familia GH31 (α-galactosidasa la superfamilia), y, en algunos casos no-enzimáticamente con las proteínas de COG0535. COG0535 se ha anotado como una familia de predecir Fe-S oxidoreductasas, como el más cercano COG0641 [45]. Nuestros registros muestran BLAST, COG que ambas familias están relacionadas con la radical SAM superfamilia de enzimas Fe-S [46], después de haber (β / α) de 8 veces barril [AP: 1R30 ].

Cuando hemos utilizado algunos de los representantes de la subfamilia 97a (por ejemplo, 97A1_BACTH) como una consulta y un E-valor de corte de 0,01, es posible revelar estadísticamente significativa similitud con glycosidases de GH20 familia (clan GH-K). Una similitud con las proteínas de esta familia se detectó después de la segunda iteración PSI-BLAST, mientras que el próximo uno o dos iteraciones reveló una relación distante con los miembros de COG0296 (GH13 familia de clan GH-H). Cabe señalar que de los clanes glycosidases GH-D, GH-H, y GH-K tienen un similar (β / α) de 8 veces barril de su dominio catalítico y el mismo mecanismo molecular hidrolizado de la reacción [2]. Por lo tanto, nuestros resultados concuerdan con los datos de varios autores [20, 25, 47 - 49] que muestra la relación de glycosidases de GH13, GH27, GH31, GH36 y familias. Más detalle el análisis de estas familias y su relación se hizo por Rigden [26].

El uso de la α-galactosidasas de arroz (GH27_ORYSA, familia GH27) y Lactobacillus plantarum (GH36_LACPL, GH36 familia) como una consulta para la secuencia de PSI-BLAST búsquedas encontramos su homología con algunos representantes de los GH97 la familia (por ejemplo, 97B1_BACFR y 97B2_BACTH) Después de dos o tres repeticiones. Sin embargo, estadísticamente significativa similitud de secuencias de proteínas de la familia GH97 con α-galactosidasas se limita a un fragmento de unos 100-150 aminoácidos (Figura 2]. Este fragmento corresponde a la N-terminal de la mitad de los catalizadores (β / α) 8-barril de glycosidases dominio de la α-galactosidasa superfamilia [50 - 54]. Este dominio de la mitad de los que se conoce que se conserva más que la C-media terminal [26]. Por lo tanto, podemos suponer que el dominio catalítico de la familia de proteínas GH97 tiene también una similar (β / α) de 8 veces barril.

Con el fin de comprobar si el conjunto (β / α) 8-barril de dominio está presente en GH97 proteínas de la familia, tratamos de reconstruir su estructura secundaria y terciaria. El programa SWISS-MODEL no sin ambigüedad predecir el tipo de la estructura terciaria. El 3D-PSSM, GOR IV, y nnpredict programas fueron utilizados para la predicción de la estructura secundaria de proteínas. Los resultados obtenidos sugieren que la parte central de la familia de proteínas GH97 secuencias representa un típico y completo (β / α) 8-barril de dominio (Figura 2]. La N-y C-terminal partes de las secuencias, que consiste principalmente de β-capítulos, la mayoría de forma, probablemente, otros dos dominios no catalítica con una función desconocida. Sin embargo, diferentes programas producen resultados contradictorios en relación con el número y la ubicación exacta de la β-líneas (datos no presentados). El no catalítica de glycosidases dominios de la α-galactosidasa y α-glucosidasa superfamilies también son predominantemente compuesto de β-capítulos. Por lo menos algunos de esos dominios están implicados en hidratos de carbono y oligomerización vinculante [2, 54].

3D-PSSM búsquedas de la base de datos de AP con varios GH97 familia de las proteínas utilizadas como una consulta secuencia dado el nivel más alto de similitud con el GH27 familia glycosidases [AP: 1KTB , 1R46 , Y 1UAS ]. Entre otras mejores canciones que hemos encontrado representantes de varios otros (β / α) 8-glucósido barril veces hidrolasa familias: GH2 (clan GH-A), GH5 (GH-A), GH13 (GH-H), GH17 (GH - A), GH18 (GH-K), y GH20 (GH-K), así como algunos otros con enzimas (β / α) 8 del barril de veces, por ejemplo, Bacillus subtilis inositol utilización de proteínas IolI [AP: 1I6N ]. Estos resultados están de acuerdo con la hipótesis sobre el origen común de todos (β / α) 8 del barril de dominios de la proteína, que evolucionó desde un ancestrales (β / α) 4 de medio cañón por un tándem de genes la duplicación seguido de una fusión [55 -- 60].

En todos conocido con el glycosidases (β / α) de 8 veces barril, los aminoácidos implicados en el centro activo se encuentran en la C-termini de la β-capítulos [61], la misma ubicación del sitio activo se encontró En muchos otros (β / α) de 8 veces enzimas barril [60]. Es bien sabido que dos grupos de ácidos (Asp y / o Glu) son casi siempre implicados en el centro activo glycosidase, jugando el papel de los donantes de protones y nucleophile [4 - 6]. Su secuencia de ubicación ha sido determinada por varios representantes de los GH27 y GH31 familias [54, 62 - 69].

El residuo Asp, jugando el papel de nucleophile, ubicada en el C-terminal de β-el cuarto capítulo de la barrica. Este residuo es altamente conservadas entre las proteínas de la α-galactosidasa superfamilia [23, 26]. La homóloga de residuos en el GH97 proteínas de la familia es más variable, siendo Asp en todos los miembros de las tres subfamilias (97b, 97c, y 97d) y en la Gly otras proteínas (subfamilias 97a y 97e), incluyendo 97A1_BACTH y 97A1_TANFO (Figura 2]. Desde estas dos proteínas de mostrar la actividad de α-glucosidasa [29, 30, 70] podemos concluir que un residuo, sistema en otro sitio, desempeña el papel de nucleophile al menos en algunas proteínas de la familia GH97. Cabe señalar que hemos encontrado un residuo en el C-terminal de β-el quinto capítulo en GH97 secuencias de la familia que está en Gly 97b, 97c, 97d y subfamilias, pero Glu y Asp en subfamilias 97a y 97e, respectivamente (Figura 2 ). Por lo tanto, este residuo puede ser sugerido como posible nucleophile en glycosidases de 97a y 97e subfamilias. Por regla general, la catalíticamente esencial residuos son altamente conservados entre enzimáticamente activa de los miembros de un glucósido hidrolasa familia, que se ya sea Asp o Glu. La distancia entre los grupos carboxílicos de la nucleophile los protones y los donantes deben ser similares, a fin de mantener el mecanismo catalítico. Así, la diferencia en la predicción de residuos nucleophile entre 97a y 97e subfamilias es inesperado. Sin embargo, esto no excluye la existencia de una actividad de las proteínas glycosidase con Asp residuos en el quinto capítulo-β (subfamilia 97e). Para ilustrar, en la familia GH32 el residuo Asp fue experimentalmente demostrado ser la nucleophile, mientras que varias proteínas de esta familia tienen residuos de Glu en la posición homóloga y por lo menos algunos de ellos son catalíticamente activa [10, 11].

Los protones de las familias de donantes GH27 y GH31 está situado en la C-terminal de β-el sexto capítulo de la (β / α) 8-barril de dominio. Es fuera de la carretera N-terminal de la mitad de barril, que puede ser claramente alineados con las proteínas de la familia GH97. Sin embargo, en el C-terminal de β-el sexto capítulo de la prevista (β / α) 8-barril de la familia GH97 hay un residuo Asp, que es altamente conservadas en todas las subfamilias de la familia (Figura 2]. Sugerimos este residuo como posible donante de protones. Teniendo en cuenta la estructura de otro centro de la activa y significativa similitud de secuencia sólo de la mitad de los catalizadores de dominio, los datos actuales no apoyan la inclusión de la familia en GH97 la α-galactosidasa superfamilia.

Hasta donde sabemos, 97A1_BACTH y 97A1_TANFO son los únicos enzimáticamente caracteriza-GH97 proteínas de la familia [2]. Todos los demás miembros de esta familia se han encontrado recientemente en los proyectos de genoma y se codifican por ORFs. Los genes de esta familia están representadas sólo en un número limitado de Eubacteria Actinobacteria de phyla (1 género), Bacteroidetes (4 géneros), Planctomycetes (1 género), y Proteobacteria (3 y 4 de géneros de α-y γ-clases, respectivamente) , Así como en una única Archaea (Haloarcula marismortui). Sin embargo, muchas de estas bacterias tienen varios paralogous genes. El caso más interesante es el de la B. Thetaiotaomicron ATCC29148, que ha α-glucosidasa SusB (97A1_BACTH) y 9 putativo paralogues representación de cuatro subfamilias GH97 (cuadro I], al menos dos de los paralogues (97C1_BACTH y 97C2_BACTH) también se expresan en vivo [28]. Este microorganismo comensal humana que se conoce como una bacteria con mayor número de glycosidase y glycosyltransferase genes [27, 71]. En conjunto, estos hechos sugieren que podemos GH97 evolución de la familia de proteínas se ha asociado con múltiples repeticiones, la eliminación de genes, y la transferencia horizontal.

Conclusión

Los resultados de los análisis de secuencias nos permiten distinguir cinco subfamilias en la familia de GH97 glucósido hidrolasas. Los datos experimentales sobre la actividad enzimática sólo están disponibles para los dos representantes de la familia GH97: α-glucosidases 97A1_BACTH y 97A1_TANFO [29, 30, 70]. Sin embargo, suponemos que los demás miembros de esta familia pueden también tener algunas glycosidase actividades. Nuestros datos sugieren que las proteínas de esta familia tienen un origen evolutivo común con glycosidases de la α-galactosidasa superfamilia. Muchos de los genes, las proteínas de la codificación GH97 familia, se encuentran en los grupos con los genes de glucósido hidrolasas y otros carbohidratos-enzimas activas. Por ejemplo, 97C1_BACTH y 97C2_BACTH (subfamilia 97c) están codificadas por los genes de B. Thetaiotaomicron situado en un locus hemicelulosa utilización junto con otros ocho glycosidase genes (Figura 1]. En conjunto, estos datos apoyan una reciente sugerencia de considerar la familia GH97 (o GHX) como una nueva familia de glucósido hidrolasas [2, 24]. La evolución de la relación entre GH97 proteínas con glycosidases de la GH-D, GH-H, y GH-K (y, probablemente, GH-A) clanes permite extrapolar sus más importantes características comunes a glucósido hidrolasas de la GH97 familia. Podemos predecir una similar (β / α) de 8 veces barril del dominio catalítico y retener mecanismo de la hidrólisis de los bonos glucósido glycosidases de GH97 la familia.

Métodos

Nucleico y las secuencias de proteína fueron recuperados de la base de datos NCBI [72]. Todas las proteínas analizadas en este trabajo fueron designados por un nombre de diez letras (ver Tabla I]. La búsqueda de proteínas homólogas se hizo utilizando el PSI-BLAST [73] y Genómica BLAST en el NCBI servidor. La significación estadística umbral para la inclusión de una secuencia en el modelo (E-valor) utilizados por PSI-BLAST en la próxima iteración era o bien 10 -2 o 10 -3, BLOSUM45 fue utilizado como sustitución de la matriz. Múltiples secuencia alineación fue preparado manualmente usando el programa BioEdit [74] sobre la base de BLAST pairwise alineaciones.

La alineación de secuencias múltiples se utilizó para aplicar los programas de inferencia filogenética clásica, ya sea en la distancia máxima parsimonia o métodos. Programas y PROTPARS VECINO del paquete PHYLIP (versión 3,6; [75]] se utilizaron. Por otra parte, los programas de SEQBOOT, PROTPARS, y CONSENSE y programas SEQBOOT, PROTDIST, VECINO, y CONSENSE fueron sucesivamente utilizados para obtener los límites de confianza, que se estima en 1000 repeticiones de arranque, para cada nodo en la máxima parsimonia y la distancia del árbol, respectivamente. El programa TreeView Win32 (versión 1.6.6; [76]] se utilizó para dibujar los árboles.

Un análisis de la orden de la pantalla durante las búsquedas por secuencia de PSI-BLAST [73] fue utilizado para una primera división de una familia en subfamilias. Este último se define como un grupo de proteínas que se muestran en la parte superior de la lista en un PSI-BLAST los resultados de una consulta. En función de los criterios particulares de la proteína similitud utilizado, el algoritmo puede dividir una familia en un mayor o menor número de grupos de proteínas. Al igual que en algunos de nuestros trabajos anteriores [10, 23, 24, 77], en este estudio se define una subfamilia como un grupo de proteínas que tienen por lo menos un 30% de identidad de secuencia. Análisis filogenético se utilizó con el fin de verificar la obtenida subfamilias y aclarar sus límites. El monofilético estado se utilizó como criterio para la definición final de una subfamilia.

El SUIZA-MODELO modelado servidor [78] se utilizó para predecir la estructura terciaria de las proteínas sobre la base de sus secuencias de aminoácidos. El 3D-PSSM [79], GOR IV [80] y nnpredict [81] se utilizaron para los programas de predicción de la estructura secundaria de proteínas. 3D-PSSM El programa también se utiliza para buscar la base de datos de AP.

Añadido en la prueba

Después de la presentación del manuscrito, seis nuevas secuencias de proteínas GH97 familia han sido depositadas en la base de datos NCBI. Cinco de ellos (97A1_SHEBA, 97A1_SHEFR, 97A1_SHEDE, 97A1_SHEAM, y 97A1_SPHAL) pertenecen a la subfamilia 97a (cuadro I]. El sexto 97X1_SOLUS proteína no puede ser claramente clasificados en cualquier GH97 subfamilia de la familia sobre la base de pairwise secuencia de comparación, la composición de la firma secuencia de posiciones, y el análisis filogenético. Lo más probable es que corresponda a una nueva subfamilia.

Agradecimientos

Agradezco al Dr Bernard Labedan (Université de Paris-Sud, Francia) para la lectura crítica de una versión anterior del manuscrito y un útil debate sobre el problema.

Este trabajo fue apoyado por becas del Presidente de Rusia para los jóvenes científicos (MK-118.2003.04 y MK-1461.2005.4).