Genome Biology, 2005; 6(4): R37-R37 (más artículos en esta revista)

El microbiana de selenoproteome el Mar de los Sargazos

BioMed Central
Zhang Yan (yzhang@genomics.unl.edu) [1], Dmitri E Fomenko (dfomenko@genomics.unl.edu) [1], Vadim Gladyshev N (vgladyshev1@unl.edu) [1]
[1] Department of Biochemistry, University of Nebraska, Lincoln, NE 68588-0664, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Un análisis de la selenoproteome microbiana de la secuencia de datos más grande, el Mar de los Sargazos secuencias del genoma del medio ambiente, identificó 310 genes que selenoprotein agrupadas en 25 familias. Esto incluyó 101 nuevos selenoprotein genes que pertenecen a 15 familias, duplicando el número de procariótico selenoprotein familias.

Antecedentes

El selenio es un elemento traza biológica con importantes beneficios para la salud [1]. Este micronutrientes se incorpora en varias proteínas en las bacterias, arqueas y eucariotas como selenocysteine (Sec), el 21 de aminoácidos en las proteínas [2, 3]. Sec es codificada por un codón UGA en un proceso que requiere la traducción recodificación, como UGA normalmente es leer como un codón de parada [4]. La Sec codón UGA fue la primera además de la universal código genético ya que el código se decifrado a mediados de los años 1960 [5]. Recientemente, otro aminoácido, pyrrolysine (Pyl), ha sido identificada, que se ha expandido el código genético y el 22 de aminoácidos [6, 7]. Pyl se inserta en respuesta a un codón UAG en varios arqueas metanogénicas, pero el mecanismo específico de la inserción de este aminoácido en la proteína no se conoce todavía.

El mecanismo de síntesis selenoprotein en procariotas fue ampliamente dilucidado por Böck y colegas [8, 9]. Traducción de selenoprotein mRNA selenocysteine requiere el uso de una secuencia de inserción (SECIS) elemento, que es un cis-actuando tallo-bucle estructura que residen en selenoprotein mRNAs [4, 10], y trans-actuando factores dedicada a la incorporación Sec [11]. En eucariotas y arqueas, SECIS elementos se encuentran en las regiones no traducidas 3'-(3 'UTRs) [12]. Bacteriana SECIS elementos diferentes de las existentes en eucariotas y arqueas, en términos de secuencia y estructura y están situados inmediatamente aguas abajo de los codones Sec UGA en el selenoprotein regiones codificantes de genes [13, 14].

Como UGA tiene la doble función de la inserción de Sec y termina la traducción, y sólo la última función es reconocido por los programas disponibles anotación, selenoprotein genes son casi universalmente en misannotated secuencia de las bases de datos [15]. Para abordar este problema, diferentes enfoques computacionales para predecir selenoprotein genes que se han desarrollado [16 - 21]. Estos nuevos programas de éxito identificados selenoproteins en los genomas de mamíferos y Drosophila y en varias bases de datos de EST. Sin embargo, debido a la falta de consenso bacteriana SECIS modelos, la predicción de selenoproteins bacteriana en secuencias genómicas es difícil. En lugar de ello, estas proteínas pueden ser identificados a través de búsquedas de Sec / Cys pares de secuencias homólogas en [22].

Presentamos aquí la utilización de una estrategia de búsqueda modificado para caracterizar el selenoproteome procariótico de los más grandes proyectos de secuenciación, los 1,045 millones de nucleótidos de todo el genoma secuencia de escopeta el Mar de los Sargazos poblaciones microbianas [23]. Esta base de datos contiene secuencias de más de 1800 especies de microbios, incluidas las bacterias phylotypes novela 148. Hemos detectado todos conocido procariótico selenoproteins presentes en este conjunto de datos e identificaron a un gran número de genes adicionales selenoprotein. Este método ofrece una manera relativamente imparcial para examinar selenoprotein la diversidad de las familias y de su evolución, y para analizar la composición de el Mar de los Sargazos selenoproteome microbiana en comparación con el que en el conjunto combinado de procariótico genomas secuenciados completamente.

Resultados
Selenoprotein identificación de los genes en el Mar de los Sargazos ambientales base de datos del genoma

El Mar de los Sargazos genómica base de datos contiene la más grande colección de secuencias microbiana deriva de un solo estudio [23]. No Sec-genes que codifican las proteínas que contiene fueron previamente identificadas y anotado en este conjunto de datos. Selenoprotein para identificar genes en el Mar de los Sargazos microbiana secuencias, hemos utilizado un algoritmo que busca conservadas Sec / Cys pares de secuencias homólogas. Este enfoque tiene la ventaja de que casi todos han selenoproteins homólogos (a menudo en diferentes organismos) Cys en la que ocupa el cargo de Sec. La metodología se describe en Material y métodos y se muestra esquemáticamente en la Figura 1. En pocas palabras, se realizaron búsquedas en las secuencias de nucleótidos para el Mar de los Sargazos de la base de datos que, al ser traducido, alineados con las secuencias de proteínas de la nonredundant (NR) la base de datos tal que traducido TGA codones alineados con Cys y estos pares se flanqueado en ambos lados por secuencias conservadas. Cada secuencia de TGA-que contiene el Mar de los Sargazos, en la base de datos que se identificó de esta manera se siguió contra la selección de un conjunto de filtros, que se analiza para posibles marcos de lectura abierta (ORFs), la conservación de los codones TGA, la conservación de la Cys en homólogos, la conservación de los TGA Acompañamiento de las regiones en diferentes marcos de lectura y de la redundancia. Nonredundant hits se agrupan en familias de proteínas y un segundo BLAST búsqueda se realizó en contra de genomas microbianos y NR bases de datos. Por último, todos los grupos de resultados se analizaron manualmente y dividido en homólogos de la anteriormente conocida selenoproteins, nuevo selenoproteins y selenoprotein candidatos.

Este procedimiento selenoprotein identificado 209 genes, que pertenecía a diez conocidos selenoprotein familias y 101 selenoprotein genes, que pertenecían a 15 nuevos selenoprotein familias (cada una representada por al menos dos secuencias) (Tabla 1]. Además, hemos detectado 28 secuencias, que mostraron homología ni a los conocidos y nuevos selenoproteins ni los unos a los otros, y estos se designaron como candidato selenoproteins. Teniendo en cuenta que varios conocidos selenoproteins También estuvieron representados por única secuencias (por ejemplo, la glicina reductasa selenoprotein Ay glicina reductasa selenoprotein B), algunos de estos 28 candidatos selenoproteins puede ser cierto selenoproteins. Sin embargo, en la actualidad, la secuencia de errores que generan en el marco TGA codones no puede ser excluido y, por lo tanto, no hay conclusiones definitivas se pueden hacer con respecto a estas secuencias. Selenoproteins predijo, en particular los representados por un pequeño número de secuencias, el futuro requerirá la verificación experimental.

En total, 310 conocidos y nuevos selenoprotein genes y 28 genes candidatos selenoprotein se detectaron. Todos estos genes se misannotated en el Mar de los Sargazos de datos, debido a que el utilizado anteriormente anotación herramientas de codificación reconocidos Sec-TGA codones como terminadores. En consecuencia, algunos selenoprotein ORFs fueron truncados anotado como proteínas o bien que carecen de carboxi-terminal amino-terminal o de las regiones que contienen Sec, mientras que otros selenoprotein ORFs se perdieron por completo.

Anteriormente conocido selenoprotein familias detectadas en el Mar de los Sargazos base de datos

Nuestro procedimiento detectado todos conocido procariótico selenoprotein genes presentes en el Mar de los Sargazos base de datos, que también podría ser independiente identificados por búsquedas de homología de secuencias utilizando selenoprotein conocidas como las preguntas. Ocho de las diez familias conocidas selenoprotein detectado en el conjunto de datos estuvieron representados por 5-48 selenoprotein genes, mientras que dos familias, glicina reductasa selenoprotein A (grdA) y glicina reductasa selenoprotein B (grdB), estuvieron representados por secuencias único. Curiosamente, a pesar de todos conocido selenoproteins presente en el conjunto de datos se identificaron, sólo nueve de las diez familias habían Cys NR homólogos en la base de datos. Una selenoprotein, grdA, no han conocido Cys homólogos [22]. No obstante, grdA También se identificó a causa de errores de anotación, como Sec en esta proteína fue anotado como Cys en algunos NR entradas de la base de datos.

Varias familias selenoprotein tenido una alta representación en todo el Mar de los Sargazos de datos. La familia más abundante fue SelW similares, que contiene 48 genes. A pesar de que la función de esta proteína es poco clara, un motivo conservado CXXU (Cys separados de los otros dos por la Sec residuos) sugiere una función redox. Además, esta proteína fue determinado anteriormente para interactuar con glutatión, una de las principales compuestos tiol redox en las células [24, 25]. Un peroxiredoxin (Prx), la familia había 43 genes y fue la segunda más abundante selenoprotein familia. Peroxiredoxins proteger bacterianas y células eucarióticas contra lesiones oxidativas [26]. Proline reductasa (prdB, 42 genes) y selenophosphate sintetasa (28 genes) son la tercera y la cuarta más abundante familias. El primero está implicado en el metabolismo de aminoácidos y cataliza la hidrólisis de reducción anillo D-prolina a 5-aminovalerate [27]. Esta última es un componente clave en la biosíntesis procariótico selenoprotein [2, 28]. Un Prx-al igual que la familia de proteínas estuvo representada por 22 selenoprotein secuencias. Tuvo distante Prx homología a la familia, sino que predijo su sitio activo contiene una thioredoxin-como UXXC motivo en lugar de la TXXU motivo presente en la sección que contiene Prx. Estas cinco familias representaban el 87,6% de los que se sabe selenoprotein sucesiones y sugiere importancia de sus funciones en el Mar de los Sargazos. Otros detectado selenoprotein familias incluidas thioredoxin (Trx), formiato deshidrogenasa de cadena alfa (fdhA), glutatión peroxidasa (GPx), grdA y grdB.

Nueva selenoprotein familias identificadas en el Mar de los Sargazos base de datos

Entre los 15 nuevos selenoprotein familias, 13 que figuran al menos dos individuales TGA-que contiene ORFs (Tabla 1]. Aunque dos selenoprotein familias, y como DsbG-NADH: ubiquinona oxidoreductase, estuvieron representados por entradas individuales, que los pusieron en la nueva categoría selenoprotein debido a que se había informado anteriormente como candidato selenoproteins [22]. De las 15 familias, 14 o bien contiene una función de dominio de los que se sabe o se homólogas a las familias de proteínas con funciones conocidas, entre ellas varias que estaban representados por múltiples secuencias: AhpD similares a la proteína (27 secuencias), arsenato reductasa (14 secuencias), molybdopterin biosíntesis MoeB proteína (11 secuencias), glutaredoxin (Grx) (diez secuencias) y DsbA similares a la proteína (nueve secuencias). Por lo tanto, estos resultados selenio implicados en la reducción de arsenato, molybdopterin biosíntesis, disulfuro de formación de bonos y otros basados en los procesos redox. No hay pruebas funcionales se pueden obtener de una sola familia, que fue designado como hipotética proteína 1 (representada por cuatro secuencias). Sin embargo, un motivo conservado CXXU estuvo presente en el hipotético proteína 1, lo que sugiere una posible función redox. Múltiples alineaciones de varios nuevos selenoproteins Cys y sus homólogos que contienen (Figura 2] poner de relieve la conservación de la secuencia Sec / Cys acompañamiento de sus pares y de las regiones.

Todos los nuevos contenidos selenoproteins estable tallo-bucle de abajo de las estructuras de codificación Sec-TGA codones que se asemejaba bacteriana SECIS elementos. Representante predijo SECIS elementos encontrados en varios de los nuevos selenoprotein familias se muestran en la Figura 3. Una alineación estructural de putativo SECIS elementos conocidos y nuevos selenoprotein genes en el Mar de los Sargazos base de datos (Figura 4] mostró que comparten las características comunes de bacterias SECIS elementos (por ejemplo, un pequeño bucle apical que contiene una guanosina, ver Materiales y métodos) .

Solapamiento significativo entre eucariotas y procariótico selenoproteomes

Entre 25 y conoce nuevos bacteriana selenoprotein familias identificadas en el Mar de los Sargazos de datos, tres familias, SelW-como, GPx y deiodinase, antes se pensaba que el origen de los eucariotas. Sin embargo, múltiples alineamientos de secuencias (Figura 5], y los análisis filogenéticos (Figura 6] firmemente sugirió un origen bacteriano de estas selenoproteins. Aunque varias secuencias eucarióticas en el Mar de los Sargazos de datos también fueron detectados (por ejemplo, GPx homólogo, el número de AACY01485942), todos SelW y deiodinase la mayoría de secuencias y secuencias de GPx fueron bacterianas selenoproteins. Para ello nos conclusión sobre la presencia de bacterias y eucariotas y la ausencia de elementos archaeal SECIS en estas secuencias. Además, los análisis filogenéticos de las secuencias de codificación de los genes que flanqueado selenoprotein indicó que estos contigs se deriva de las bacterias (datos no presentados). Como la información sobre las especies presentes en el medio ambiente no se dispone de muestras, análisis de los elementos SECIS proporciona un medio de distinguir selenoprotein secuencias en los principales ámbitos de la vida, como SECIS elementos son diferentes en eucariotas, bacterias y arqueas, en cuanto a la secuencia y la estructura [ 29]. Representante bacteriana SECIS elementos de las tres bacterias selenoproteins y sus homólogos eucariotas se muestra en la Figura 7.

Deiodinase se conoce para activar o inactivar las hormonas tiroideas a través de la reacción de reducción deiodination [30]. Esta proteína ha sido descrita previamente sólo en los animales y sólo en la forma selenoprotein. Sin embargo, hemos identificado tanto Cys-Sec-y que contiene que contiene homólogos de deiodinase en el Mar de los Sargazos de datos (Figura 5]. Bacteriana-deiodinase proteínas probable servir como una función diferente de los animales deiodinases como hormonas tiroideas no se espera que se producen en estos organismos. Deiodinases poseen una variación de la thioredoxin veces [31], que es conocida por redox funciones. Es posible que deiodinase bacteriana-como las proteínas también cumplen una función redox.

SelW y GPx homólogos se han detectado recientemente en algunas bacterias, pero el número de estas secuencias fue pequeño y su origen no está claro [22]. La detección de un gran número de SelW y GPx selenoprotein secuencias en el Mar de los Sargazos nos permitió realizar los análisis filogenéticos (Figura 6], que sugiere que al menos algunos miembros de estas familias evolucionado independientemente en bacterias y eucariotas.

Además, hemos identificado cinco eucarióticas selenoproteins: SelM, SelT, SelU, y GPx-S-metionina sulfóxido reductasa (MsrA). Con excepción de GPx, estas familias estuvieron representadas por solo selenoprotein genes. N bacteriana SECIS elementos fueron encontrados en estos genes. En SelM y SelT secuencias, elementos típicos de eucariotas SECIS estaban presentes en 3 'UTRs detectadas por SECISearch [16], mientras que GPx, MsrA y SelU secuencias no se extiende lo suficiente para poner a prueba para determinar la presencia de elementos SECIS en 3' UTRs. Sin embargo, la MsrA GPx y la mayoría de las secuencias son similares a las proteínas vegetales, lo que sugiere que las dos proteínas son también de origen eucariota. Además, eucariotas GPx secuencias pueden ser distinguidos por la presencia de intrones.

Previo análisis de selenoprotein conjuntos en los tres dominios de la vida bacteriana y reveló que archaeal selenoproteomes superposición significativa, mientras que eucariotas tiene un conjunto diferente de selenoproteins [15, 20]. La única excepción fue selenophosphate sintetasa, pero ya que está involucrada en la biosíntesis Sec, esta proteína se debe mantener en los organismos que utilizan Sec. Sin embargo, nuestra búsqueda de nuevos selenoproteins en Sargasso Sea organismos reveló una significativa superposición entre procariótico selenoproteomes y eucariotas.

Las diferencias en selenoprotein conjuntos en el Mar de los Sargazos y de la base de datos completamente secuenciado los genomas procariótico

Una búsqueda exhaustiva de los Sargazos Mar selenoproteins contra 260 genomas completamente secuenciados procariótico selenoproteins reveló que estos estaban presentes en un número limitado de los genomas, que contrasta con los numerosos casos de Cys-que contiene sus homólogos (Tabla 2]. Aunque el tamaño de el Mar de los Sargazos de datos y el conjunto combinado de 260 procariótico genomas son similares, los dos conjuntos de datos difieren en cuanto al número y distribución de selenoprotein genes presentes en estas bases de datos. El Mar de los Sargazos de datos era tres veces más rico en el que selenoproteins procariótico genomas, lo que sugiere que el medio ambiente de el Mar de los Sargazos en general favorece la evolución y el mantenimiento de selenoproteins. Presumiblemente, el Mar de los Sargazos organismos aprovechar una oferta relativamente constante de selenio en el agua de mar y han aumentado su demanda de este elemento, mientras que la dependencia de los organismos con genomas secuenciados completamente en selenio se mezcla como el selenio pueden ser un factor limitante en Algunos ambientes. Seis anteriormente conocido selenoproteins no se hayan detectado en el Mar de los Sargazos base de datos (cuadro 2]. Esto es probable debido a que estas se producen principalmente en selenoproteins arqueas. Archaea representaron sólo para una pequeña parte de el Mar de los Sargazos organismos [23].

Además, la abundancia de genes selenoprotein particular en el Mar de los Sargazos, en el conjunto de datos y 260 genomas microbianos es muy diferente. Especialmente sorprendente es el pequeño número de genes formato deshidrogenasa en el Mar de los Sargazos base de datos [32]. Previo análisis de genomas completamente secuenciados procariótico encontrado que esta proteína estaba presente en prácticamente todos los organismos que utilizan Sec, y su ocurrencia es más común, con mucho, que cualquier otro selenoprotein [22]. Sin embargo, en el Mar de los Sargazos medio ambiente, la utilización de esta proteína fue limitada. Esto podría estar relacionado con el carácter aeróbico de las especies de microbios que residen cerca de la superficie del Mar de los Sargazos (en la que el medio ambiente se obtuvieron muestras para secuenciación).

También observó que en los anteriormente analizados procariótico genomas, más de la mitad de selenoproteins son proteínas que unen metales, en el que la Sección coordinada molibdeno, tungsteno o de níquel [22]. En contraste, el Mar de los Sargazos selenoproteins tiol eran principalmente dependientes de peroxidasas y oxidoreductasas; metal de la coordinación de selenoproteins estuvieron representados exclusivamente por formato deshidrogenasa y representó menos del 4% de todos los detectados selenoproteins. Estos datos sugirieron que la caracterizó previamente genomas no representa la composición general de procariótico selenoproteomes.

Aunque los dos conjuntos de selenoproteins (Sargasso Sea y secuenciado completamente el genoma procariótico) eran diferentes, la mayoría de los detectados selenoproteins mostró dispersos ocurrencia. De hecho, la Sec-formas de las proteínas que contienen son poco frecuentes en comparación con homólogos Cys-contiene los formularios, que fueron generalizadas. Parece que detectó que la mayoría de selenoproteins evolucionado recientemente de Cys que contienen organismos homólogos en, que ya tenía el sistema de inserción Sec. Se puede predecir que, como las búsquedas de archivos de datos de secuencias adicionales procariótico selenoprotein identificar nuevos genes, muchos de estos se presente sólo en un pequeño número de especies. En la actualidad, Sec evolución no se conoce del todo, pero está claro que Sec / Cys intercambios son posibles en ambas direcciones, dependiendo de la necesidad particular de las propiedades redox y en la restricción impuesta por la dependencia de las especies sobre el oligoelemento selenio.

La mayoría de las familias selenoprotein servir redox funciones

Más análisis de los Sargazos Mar y secuenciado completamente el genoma procariótico reveló que prácticamente todos los selenoproteins con función conocida se redox proteínas, que utiliza ya sea para coordinar Sec redox-activa o metales para tiol / disulfuro-como catálisis redox. Entre 25 selenoprotein familias detectadas en el Mar de los Sargazos, 14 (194 selenoprotein secuencias, el 62,6%) eran conocidos homólogos de tiol que dependen de las proteínas redox (Tabla 3], y la mayoría de las otras proteínas redox candidato proteínas. Muchos de los Sargazos Mar selenoproteins contenía una UXXC redox motivo. El motivo análogo CXXC está presente en una variedad de tiol que dependen de las enzimas redox [33 - 35], pero también es común en proteínas que unen metales. La actividad catalítica de UXXC contienen selenoenzymes se espera que sea superior a la de sus homólogos que contienen Cys-[2, 36]. Además, varios selenoproteins había otro candidato motivos redox [34], como UXXS (arsenato reductasa), TXXU (peroxiredoxin y NADH: ubiquinona oxidoreductase), UXXT (glutation peroxidasa) y CXXU (AhpD-como la proteína [37], SelW - Como proteínas, dominio CMD-que contiene proteína y proteína hipotética 1).

Discusión

Plenario de escopeta proyectos de secuenciación del genoma se han aplicado extensamente para determinar las secuencias genómicas de una variedad de organismos, y, recientemente, este sistema se utilizó para la secuencia de la comunidad microbiana el Mar de los Sargazos. Muchos de los Sargazos Mar organismos representan phyletic grupos previamente no conocida o mal caracterizado, incluidos los organismos que no pueden ser aislados de la comunidad microbiana o ser cultivados [23]. Selenoprotein identificación de los genes en tan gran procariótico base de datos puede ayudar a comprender el papel del selenio en esta comunidad microbiana y, por analogía, en otros organismos, incluidos los humanos.

Anterior funcionales información sobre selenoproteins se ha derivado en gran parte de los experimentos de laboratorio húmedo. Más recientemente, varios enfoques in silico que identificar series completas de los organismos en selenoproteins siempre nuevos y potentes instrumentos para determinar las identidades de selenoproteins así como sus características y funciones de expresión [16 - 20, 38]. La mayoría de estos métodos se basan en la búsqueda de elementos SECIS. Como Sec es, por lo general ubicadas en centros activos de enzimas, y la mayoría de selenoproteins homólogos en el que había sustituido Cys Sec, un SECIS-estrategia independiente que también fue desarrollado para permitir búsquedas Sec / Cys pares de secuencias homólogas en [21, 22].

En el presente estudio, hemos utilizado un procedimiento similar, pero complementados con filtros adicionales para mejorar el rendimiento. Todos conocen procariótico selenoprotein familias presentes en el Mar de los Sargazos de datos genómicos fueron identificados por este método (209 genes que agrupan en diez procariótico selenoprotein familias). Además, 101 secuencias que pertenecían a 15 nuevas familias se identificaron selenoprotein. Por lo tanto, nuestro estudio ha duplicado aproximadamente a la lista de conocidos procariótico selenoprotein familias y generó el mayor selenoprotein de datos a la fecha.

Sobre la base de la presencia de elementos SECIS específicas a los principales ámbitos de la vida, hemos podido determinar el origen de selenoproteins detectado (es decir, bacterias, archaeal o eucariotas). Los diez nuevos conocidos y 15 familias procariótico selenoprotein había predicho bacteriana SECIS elementos. Curiosamente, ambos selenoprotein formas y Cys contienen homólogos de la hormona tiroidea deiodinase, una proteína que se pensaba anteriormente restringida al reino animal, y exclusivamente en el presente selenoprotein forma, se identificaron en procariotas. El deiodinase detectado-al igual que las proteínas, ya que se procariótico figura bacteriana SECIS elementos.

Detección de procariótico deiodinase-al igual que las proteínas bacterianas y varios otros selenoproteins cree que se limite a los eucariotas sugiere una revisión de la opinión de que eucarióticas y procariótico selenoproteomes no se superponen. Aunque esta idea está en consonancia con la anterior selenoprotein los análisis, al menos cuatro familias selenoprotein se sabe que se producen tanto en procariotas y eucariotas: SelW, GPx, selenophosphate sintetasa y deiodinase. También detectó homólogos de otros cinco selenoproteins eucarióticas, pero la ausencia de elementos SECIS bacteriana, la presencia de elementos o eucariotas SECIS intrones, y homología de proteínas eucarióticas argumentó que estos eran selenoproteins eucarióticas en origen.

Sorprendentemente, conjuntos de selenoproteins en el Mar de los Sargazos, en la base de datos y conjunto combinado de 260 procariótico completamente secuenciado los genomas son muy diferentes en lo que respecta a las dos identidades y el número de genes selenoprotein. El Mar de los Sargazos de datos era rica en selenoprotein genes, la mayoría de los cuales se sabe homólogos de tiol que dependen de las enzimas redox. En contraste, la proporción de selenoprotein genes en genomas completamente secuenciados procariótico era aproximadamente tres veces más bajos, y la mayoría de los genes utilizados detectado Sec metal para la coordinación. Por lo tanto, incluso con la disponibilidad de 260 genomas, los papeles de selenio en la naturaleza apenas están empezando a ser entendidos. Por ejemplo, nuestro análisis actual de el Mar de los Sargazos de datos selenio implicados en la reducción de arsenato, molybdopterin biosíntesis, sulfurtransferase función y otros procesos, que no se sabe que dependen de este elemento.

También observa características comunes en los dos conjuntos de selenoproteins. Por ejemplo, la mayoría de los selenoproteins ha detectado un gran número de homólogos Cys. La ocurrencia de selenoproteins dispersos en los dos conjuntos de datos sugiere un elevado dinamismo de la evolución Sec. Mientras el sistema de inserción se mantiene Sec, Sec pueden aparecer cuando es requerido por la evolución del entorno y desaparecen cuando este requisito retrocede. Así, el análisis de la indemnización compensatoria selenoproteomes y conjuntos de Cys que contienen proteínas proporciona un modelo único sistema para examinar las fuerzas evolutivas a los cambios del medio ambiente.

Materiales y métodos
Secuencia de bases de datos y recursos

La totalidad de la base de datos de secuencia del genoma de escopeta el Mar de los Sargazos se obtuvo del Centro Nacional de Información Biotecnológica (NCBI) servidor ftp con el proyecto de adhesión AACY00000000 número [39]. A diferencia de las entradas convencionales secuencia, sólo la simple y sin montar individuales singletons fueron depositados con el fin de reflejar con precisión la diversidad de la muestra y permitir que las búsquedas a través de toda la muestra en una sola base de datos. El Mar de los Sargazos base de datos de las secuencias genómicas que figuran 811372, que corresponde a un total de 1,045 millones de nucleótidos.

La base de datos de proteínas NR fue descargado del servidor ftp NCBI [40]. Este conjunto de datos que figuran 1990024 secuencias de la proteína (667623348 aminoácidos). Blast programas [41] también fueron obtenidos de la NCBI servidor ftp [42]. Hemos utilizado la versión 2.2.9 de este programa.

Para habilitar automáticamente selenoprotein búsquedas, hemos desarrollado un conjunto de programas que se mencionan a continuación. Un UNIX / LINUX plataforma se utilizó. Todo el proceso de búsqueda se realizó en un nodo Prairiefire 128-, 256-procesador cluster Beowulf supercomputadora en el Servicio de Investigación de Computación de la Universidad de Nebraska - Lincoln.

Identificación de Cys / TGA pares de secuencias homólogas

Cada secuencia contiene Cys-NR proteína en la base de datos se registraron contra el Mar de los Sargazos base de datos de secuencias de nucleótidos para la posible TGA-que contiene éxitos utilizando TBLASTN. E-valor de corte se fijó en 10,0. TBLASTN de salida para cada secuencia de la proteína fue analizada y Cys / TAA o Cys / TAG pares fueron filtrados. Sólo local alineaciones, en la que en una consulta Cys secuencia fue alineado con TGA en la secuencia de nucleótidos de la meta Sargazos Mar base de datos, se analizan más. Como Sec es, por lo general ubicadas en los sitios activos de enzimas, filtros adicionales fueron añadidos. En concreto, locales alineaciones fueron descartadas si figura más de dos codones de parada (incluyendo TGA, TAG y TAA), dos codones de parada de la que uno no se TGA, TGA o dos codones con uno alineado a un no-Cys de residuos. Un total de 38446 redundante alineaciones locales (también designado como Cys / TGA pares) se identificaron 19410 que corresponde a las proteínas en la base de datos de proteínas NR.

Los análisis de ORFs, la conservación de la TGA-regiones de acompañamiento y redundancia

Para cada TGA-que contiene la secuencia en la alineación local conjunto, las regiones antes y después de los TGA se analizaron para determinar mínima ORFs con la hipótesis de que en el marco de codificación para TGA Sec debe ser predicho dentro de ORFs. Si los codones de parada se encontraron más cerca de TGA codones que empezar candidato codones (ATG o GTG), por ejemplo-que contiene las secuencias de TGA se descartaron. Conservación de la TGA-acompañamiento en todas las regiones 6 marcos de lectura También se ha analizado y examinado con BLASTX contra una base de datos de dominios conservados utilizando RPS-BLAST. Estos criterios también se utiliza para filtrar los falsos positivos hits. Por último, se eliminaron las secuencias redundantes. Estos filtros reducido el conjunto de 2131-que contienen TGA único candidato ORFs.

La agrupación de TGA-que contiene las secuencias de

Para el grupo de proteínas en las diferentes secuencias de la proteína familias o grupos, la alineación pairwise herramienta BLAST en el paquete de programas, BL2SEQ, se utilizó. 1045 grupos se obtuvieron con las secuencias de 1 a 63 en cada grupo.

Cisteína selenoprotein conservación y clasificación

Teniendo en cuenta que Cys / TGA pares en la mayoría de hits de falsos positivos no se espera que se conserve, que se esperaba para la conservación de cierto-positivo Cys / Sec pares, todos los grupos son automáticamente búsquedas en contra NCBI NR microbiana y bases de datos utilizando BLASTX y TBLASTX. Cada predijo que contiene una ORF en el marco de TGA fue considerado más sólo si al menos dos correspondientes Cys contienen homólogos fueron detectados, y la proporción de TGA / Cys pares en el conjunto de homólogos fue superior al 50%. Este procedimiento dio lugar a 331 agrupaciones que contiene 1072 ORFs.

Todos los 331 grupos se analizó la presencia de posibles elementos bacteriana SECIS inmediatamente aguas abajo de los codones TGA utilizando mfold [43] o RNAfold programas [44]. Además, los candidatos fueron seleccionados SECIS estructuras bacterianas SECIS contra un modelo de consenso [45]. La presencia de archaeal o eucariotas SECIS elementos fue probado usando SECISearch [20, 22]. La ocurrencia de SECIS elementos específicos para cada dominio de la vida fue uno de los criterios para determinar la proteína de origen. Análisis filogenéticos y de la ocurrencia de intrones son también utilizados como criterios para la designación de las proteínas bacterianas como, archaeal o eucariotas.

Una simple clasificador fue desarrollado para dividir los grupos que figuran bacteriana SECIS-como estructuras en tres grupos: selenoproteins conocido, nuevos selenoproteins y selenoprotein candidatos. Salvo para conocer selenoproteins, los grupos que contengan por lo menos dos con diferentes secuencias conservadas en el marco de los codones TGA fueron considerados como nuevos selenoproteins. Las agrupaciones que contienen sólo una secuencia se consideraron candidatos selenoprotein debido a la posibilidad de un error de secuenciación de un marco TGA. Por último, los grupos que podrían ser alineados de tal manera que su TGAs también alineados, se unieron en grandes grupos.

Adicional de los archivos de datos

El conjunto completo de secuencias selenoprotein predijo con anotaciones (número, nombre de la proteína, la ORF y la ubicación en el marco ubicación TGA) está disponible como un archivo de texto (archivo de datos adicional 1] con la versión en línea de este trabajo y en [46].

Material suplementario
Archivo Adicional 1
Un conjunto completo de secuencias selenoprotein predijo con anotaciones (número, nombre de la proteína, la ORF y la ubicación en el marco ubicación TGA)
Agradecimientos

Este trabajo fue apoyado por el NIH subvención GM61603. Damos las gracias al Servicio de Investigación de Computación de la Universidad de Nebraska-Lincoln para el uso de Prairiefire superordenador.