Genome Biology, 2005; 6(3): R25-R25 (más artículos en esta revista)

Transcripcional deslizamiento en bacterias: en la distribución y utilización de los genomas secuenciados ES elemento en la expresión de genes

BioMed Central
V Pavel Baranov (baranov@genetics.utah.edu) [1], Andrew W Hammer (ahammer@genetics.utah.edu) [1], Jiadong Zhou (jiadong_zhou@gg.nitto.co.jp) [1], Raymond F Gesteland (ray.gesteland @ genetics.utah.edu) [1], John F Atkins (atkins@genetics.utah.edu) [1]
[1] Department of Human Genetics, University of Utah, Salt Lake City, UT 84112-5330, USA
[2] Bioscience Institute, University College Cork, Cork, Irlanda
[3] Current address: Gene Technology Division, Nitto Denko Technical Corporation, 401 Jones Road, Oceanside, CA 92054, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Para encontrar una longitud de deslizamiento propensos secuencias en la que la selección contra transcripcional deslizamiento es evidente, la transcripción de una de las carreras repetitivas y T de diferentes longitudes de 108 genomas bacterianos se analizó. ES elemento genes se encontraron de explotar deslizamiento de la regulación transcripcional de la expresión génica.

Antecedentes

Durante la transcripción, la ARN polimerasa cataliza la incorporación de los nucleótidos en las cadenas de RNA creciente sobre la base de la complementariedad a la plantilla de la DNA. Aunque la transcripción de largo poli (A) o poli (T) extensiones, sin embargo, deslizamiento o "tartamudeo" (también conocido como pseudo-templated transcripción) ocurre, con la consiguiente incorporación de uno o más nucleótidos extra ocasional o la falta de una base o dos Correspondiente a la fase de repetición de las bases. Transcripción deslizamiento se registró por primera vez en estudios in vitro [1], y, más tarde investigados in vivo [2]. Aunque las secuencias que son capaces de causar eficiente transcripcional deslizamiento ocurren con poca frecuencia en el ADN genómico, que se han encontrado y un papel funcional se ha asignado a algunos de ellos. Por ejemplo, la transcripción deslizamiento se utiliza para la regulación de la Escherichia coli pyrBI y codBA operones y ocurre poco después del inicio de transcripción cuando se aplican condiciones especiales [3, 4].

Cuando una transcripción deslizamiento propensos ( 'resbaladiza') se produce en una secuencia de codificación de la secuencia, el ARNm productos son heterogéneos. En ese mRNA población, la secuencia aguas abajo de un camino patrón generalmente ocurre en los tres diferentes fases de la lectura en relación con el marco de lectura 5 'de la secuencia propensas a deslizamientos. La traducción de estos mRNAs rendimientos proteína productos que difieren en su secuencia de aminoácidos aguas abajo de la secuencia resbaladizo. Genes que codifican para un único producto de la proteína funcional, la presencia de secuencias resbaladizo se espera que sea perjudicial, ya que es probable que desperdiciar recursos para sintetizar celulares no deseados, o en algunos casos incluso deletéreos, a los productos. Aberrantes formas de beta-amiloide y la proteína precursora ubiquitin B encontrados en la enfermedad de Alzheimer y el síndrome de Down son los pacientes relacionados con molecular errónea, cuyo mecanismo es probable que se transcripcional deslizamiento [5]. Además, este tipo de interpretación errónea molecular se sugirió a ser relevantes para el proceso de envejecimiento [6 - 8]. Transcripcional retraso en el gen APC humanos (además de replicational deslizamiento [9]] también se ha propuesto como una de las causas del cáncer colorrectal [10].

Sin embargo, hay al menos dos situaciones en las que transcripcional deslizamiento dentro de una región de codificación puede ser ventajosa. Una de ellas es cuando un frameshift mutación se produce en la secuencia de codificación y transcripción deslizamiento en un sitio cerca de permisos síntesis de una parte de mRNAs en el que un no-templated nucleótidos (s) compensa esta mutación, con lo que la restauración de la original enmarcado. Un ejemplo de la participación de un solo nucleótido supresión se produce en apoB, el gen humano en el que causa defectos familiar hypobetalipoproteinemia. Además de la codificación de espera truncado disfuncionales producto, alrededor de una décima parte del producto es de larga duración, como resultado de su plantilla con un mRNA Un extra insertado en un plazo de ocho Como [11, 12]. Una situación similar se informó recientemente de la canina AP3B1 de genes [13].

Una segunda situación en la que ha transcripción deslizamiento un resultado positivo es cuando se lleva a la síntesis de más de un producto útil a partir de un único gen - durante expresión de los genes P en paramixovirus, por ejemplo. El ejemplo mejor estudiado es el virus de Sendai, donde un número determinado de untemplated Gs se insertan en la posición correspondiente a la resbaladiza sitio (revisado en [14]]. Sorprendentemente, este proceso depende de una reducción gradual de la hexanucleotide resbaladizo relativo a la secuencia final del genoma y es modulada por proteína viral N [15]. Además de su participación en paramixovirus decodificación, transcripcional deslizamiento se utiliza para la síntesis de proteínas funcionales adicionales en otros virus, como el virus de Ébola [16 - 18].

Utilización de transcripcional deslizamiento no se limita a los genes virales. Altamente eficiente transcripción deslizamiento en la decodificación de los genes celulares dnaX de Thermus thermophilus resultados en el 50% de el producto más corto que el "estándar" de productos [19]. Este gen tiene un plazo de nueve Como en su sentido capítulo siete octavos de la forma a través de su secuencia de codificación. Durante la transcripción, la ARN polimerasa sintetiza ARNm que contiene poli (A) se lleva a cabo de longitud variable. Cuando el número de As es igual a la templated 9 o 9 + 3n, el producto de larga duración, la ADN polimerasa III tau subunidad, se sintetiza. Cuando el número de Como es cualquier otra cosa, por ejemplo, 8, 10, 11, 13, la traducción de ribosomas encuentro a 3 'del codón localizado cerca de la poli (A) plazo. Ellos terminar, lo que resulta en la síntesis de un producto más cortos (Figura 1], la subunidad gamma de la DNA polimerasa III, que ha distintivo propiedades funcionales [20, 21]. En algunas otras bacterias como la E. Coli [22 - 24] y de sus familiares cercanos [25, 26], dnaX también codifica dos subunidades, pero la corta se sintetiza a través de ribosomal frameshifting transcripcional en lugar de deslizamiento. El mismo resultado se puede lograr no estándar eventos en los diferentes niveles de lectura [19].

Otro ejemplo de la utilización de transcripcional deslizamiento se informó recientemente en la descodificación de la Shigella flexneri mxiE gen que codifica el activador de la transcripción [27]. MxiE consiste en la superposición de dos marcos de lectura abierta (ORFs), mxiEa y mxiEb. Transcripcional inserción de un adicional no templated nucleótidos en el plazo de los resultados de nosotros en una proporción de los mRNAs de haber mxiEa y mxiEb en el mismo marco de lectura [27]. Por lo tanto, en contraste con T. Thermophilus dnaX transcripcional deslizamiento, donde la novela de productos es más corto que el producto estándar de decodificación, mxiE transcripcional deslizamiento es necesario para la síntesis de proteínas ya producto.

Transcripción deslizamiento propensos secuencias se espera que estén poco representadas en la codificación de las regiones [2], debido a la utilización funcional de las secuencias de este tipo es poco probable que sea común. El reciente aumento espectacular en el número de genomas bacterianos secuenciados ofrece la oportunidad de realizar análisis a gran escala de toda la reinos de la vida [28]. El actual trabajo se investigó si se ejecuta de largo o Ts Como son, en efecto evitarse en la codificación de las regiones de 108 genomas bacterianos secuenciados, y siempre que ello se produzca se ejecuta, ya sea que desempeñar un papel funcional en la expresión génica.

Resultados
Distribución de homopolymeric T A y se ejecuta en los genomas de bacterias

Si el patrón es cualquier secuencia distribuidos al azar en una secuencia genómica, la siguiente ecuación debe ser satisfecha:

Pc / Pg Nc / Ng

Donde Pc es el número de copias en el patrón de codificación de las regiones, Pg es el número de copias en todo el genoma, Nc el número de nucleótidos en regiones codificantes y Ng el tamaño de todo el genoma. Hemos analizado la relación Pc / Pg para 118 publicado eubacterial y archaeal genomas para homopolymeric A T o patrones de diferentes longitudes (véase el archivo de datos adicional 1). Un ejemplo de este tipo de análisis para algunos representante genomas se ilustra en la Figura 2 bis. Durante varios genomas, una fuerte reducción de Pc / Pg es evidente durante la transición de los patrones que contienen n número de Ts o Como a los patrones que contiene n + 1 o Como Ts. La posición de la transición es diferente entre los genomas analizados. Un fuerte transición es evidente sólo para AT-ricos genomas bacterianos; en la GC-ricos genomas bacterianos largo de la existencia de A / T corre tiene una baja probabilidad (si es aleatorio) [29]. Por lo tanto, es más probable que ocurra si hay positivo de selección. En algunos genomas AT-rica, sin embargo, no hay transición en el Pc / Pg ratio en cualquier longitud (por ejemplo, Borrelia burgdorferi). Esto sugiere que estos organismos han desarrollado un mecanismo para reprimir transcripcional deslizamiento en carreras de larga o Como Ts. De hecho, la frecuencia de 9 A / T o 10 A / T se ejecuta en dichos genomas es de aproximadamente uno por cada gen.

Comparación de la poli (A) y poli (T) se producen en secuencias genómicas frente a la codificación de las regiones tiene dos desventajas. En primer lugar, se ejecuta de Como no puede ser discriminado de carreras de Ts en el plano de las secuencias genómicas. En segundo lugar, esas carreras podría tener un papel positivo o negativo (s) fuera de la codificación de las regiones. Por ejemplo, corre a largo de Ts puede servir como partes de transcripcional terminadores, aunque poli (T) corre no tiene que ser ininterrumpido para este fin [30]. Además, la ocurrencia de A y T corre puede verse afectada por el sesgo dinucleotide, codón de uso y composición de aminoácidos de las proteínas de codificación.

Para reducir al mínimo la influencia de esos factores en nuestro análisis, hemos utilizado otro método para estimar la distribución de esas pautas. Un millar de azar genomas fueron generados por cada genoma muestra en la Figura 2 bis usando las siguientes reglas: secuencias de la proteína real genomas fueron conservados, pero los codones codificación de los aminoácidos fueron asignados en forma aleatoria, teniendo en cuenta el uso de codón. Tal azar genomas están aliviados de la presión selectiva para evitar secuencias resbaladizo. Un enfoque similar fue utilizado anteriormente para el análisis estadístico de los patrones de frameshift de inducir en E. Coli [31] y de las estructuras secundarias de ARN en genomas bacterianos [32]. Además, hemos utilizado la aleatorización enfoques que preservarse dinucleotide sesgo y parcialidad tanto dinucleotide codón de uso y utilización de la DiShuffle y CodonDishuffle programas desarrollados por Katz y Burge [32]. Figura 2b muestra la distribución de A / T se ejecuta en dichos genomas azar frente a la real genomas. Si no hay presión selectiva sobre un patrón particular, su presencia en el genoma al azar sería similar a su aparición en el correspondiente real del genoma. Si hay selección negativa en contra de un patrón particular, que se producen con más frecuencia en el genoma al azar que en las verdaderas. Este análisis confirma nuestra conclusión general de que se ejecuta Como Ts y de una cierta longitud se evitan en algunos genomas procariótico, pero la duración de la pauta que pueda ser perjudicial varía entre los diferentes genomas. Por consiguiente, estos patrones están sub-representadas en el AT-ricos genomas.

Curiosamente, en el genoma de Wigglesworthia glossinidia, A / T pautas de cualquier longitud se producen con la misma frecuencia y no en la codificación de las regiones, lo que sugiere que transcripcional deslizamiento no es posible en esta especie en patrones de cualquier longitud. Sin embargo, cuando la incidencia de tales pautas se compara con su aparición en el genoma al azar, una selección negativa es evidente para los patrones de excepcional duración. Esto sugiere que los patrones de muy largo tener un efecto negativo no tiene relación con el deslizamiento transcripcional.

Funciones de deslizamiento transcripcional

El siguiente paso es encontrar los casos de deslizamiento transcripcional y para investigar, mediante el análisis comparativo de secuencias, independientemente de que puedan tener cualquier papel funcional. El esquema de este análisis se muestra en la Figura 3. Se buscaron casos de 9As y 9Ts codificación de los genes en proteínas. Sólo los genes que fueron seleccionados transcripcional deslizamiento daría lugar a la síntesis de una proteína que es mayor que el generado por contrapartida estándar de decodificación. Cuando transcripcional deslizamiento resultados en la síntesis de un producto incompleto, como en la decodificación T. Thermophilus dnaX, es difícil predecir importancia funcional sobre la base del análisis comparativo de secuencias, puesto que no existe una amplia "nuevo" secuencia de codificación adecuado para este tipo de análisis. El siguiente filtro fue la exclusión de los genes de bacterias que transcripcional deslizamiento es improbable que se produzca en carreras de 9As y Ts. Los organismos con genomas AT-ricos que no demuestran la selección contra 9A y 9T secuencias dentro de sus regiones codificantes pueden haber evolucionado para reprimir transcripcional deslizamiento sobre 9A y 9T y es poco probable que exhibirlo. Para seleccionar bacterias en el que transcripcional deslizamiento sobre 9A y 9T es poco probable, en primer lugar, determinar el número de genes que contiene 9T y 9A. Por esas bacterias que este número es más alto que el umbral de número 20 (se supone que es poco probable que transcripcional deslizamiento puede ser utilizado por más de 20 genes de la misma especie), se realizaron búsquedas en las pruebas de selección negativa en contra de estas secuencias. Si esas secuencias no eran insuficientemente representados, correspondiente bacterias fueron considerados como aquellos en los que transcripcional deslizamiento es improbable que se produzca en 9A o 9T corre. Los genes de esa bacteria fueron excluidos de los nuevos análisis.

El conjunto de los genes restantes que figuran algunos genes idénticos. Algunos de estos existen varias copias del genoma en el interior de la misma, mientras que otros son idénticos, ya que deriva de genomas de especies muy relacionadas. Esos genes idénticos se combinaron para reducir la redundancia. En la lista de estos genes (2] sólo se da un representante para cada grupo de genes idénticos. Los productos de los genes que pueden ser generados por transcripcional deslizamiento se compararon entre sí utilizando tBLASTn [33], y, a los que se derivan de otras secuencias presentes en secuenciado los genomas bacterianos. Los genes que producen no significativa similitud de secuencias fueron consideradas como ORFans [34, 35]. Desde ORFans no son adecuadas para el análisis comparativo, fueron excluidos de un análisis más detallado (que se muestra en gris en 2]. El número de grupos de genes homólogos para los que se encontraron es de 53.

La probabilidad de que la utilización funcional de transcripcional deslizamiento se estima a través del análisis comparativo de secuencias. Según el esquema utilizado (Figura 4], consideramos transcripcional deslizamiento patrones de probabilidades de ser funcional si la organización de ORFs fusionados transcripcional por deslizamiento es la misma en al menos dos no idénticas secuencias de intercambio significativa similitud de secuencias. No hemos encontrado pruebas de la utilización funcional de transcripcional deslizamiento de 40 casos (que se muestra en azul y 2]. Lo más probable, aunque transcripcional deslizamiento es probable que ocurra durante la expresión de estos genes, no tiene efectos perjudiciales. Este resultado es consistente con nuestra anterior conclusión de que las secuencias que directa niveles significativos de frameshifting en el E. Coli genoma pueden ocurrir sin función aparente [31]. Seis casos en que se encontraron productos de la proteína expresada por transcripcional deslizamiento homólogos han codificado en un único ORF de los genes de otras especies.

Un ejemplo se muestra en la Figura 5. Esos genes son normalmente consideradas como pseudogenes, porque sus ORF es interrumpido. Sin embargo, transcripcional deslizamiento debería dar lugar a la síntesis de proteína normal funcional y, en consecuencia, dichos genes no deben ser tratados como inactivas como consecuencia de la mutación frameshift. Estos genes se muestran en verde en el 2. En siete casos (en rojo 2] homólogos se encontraron con un conservadas organización de la superposición de ORFs y un patrón de 9As conservadas en la superposición de las regiones. Entre ellos, seis de los casos se derivan de los elementos cuyo número total de ejemplares es de 27. Un grupo se compone de la mapW genes de cepas de Staphylococcus aureus; mapW es un candidato funcional derivado de un elemento no móvil.

Transcripcional deslizamiento se ha descubierto recientemente en la S. Flexneri patogenicidad de codificación plásmido que lleva el gen mxiE [27], no se incluye en las 108 secuencias de genomas completos para descargar el presente estudio (a pesar de que la secuencia cromosómica se incluyó).

Discusión

Hemos obtenido una primera vista de la distribución funcional y utilización de los sitios de deslizamiento simple transcripcional en genomas bacterianos realizados sobre una múltiple escala del genoma. Los datos obtenidos demuestran que corre de Como y Ts, que se traducen en eficiente transcripcional deslizamiento, son significativamente subrepresentadas en la codificación de las regiones ricas en AT genomas. Una probable razón para esto es la insuficiente 'resbaladiza' naturaleza de tales sitios. Además de transcripcional deslizamiento, estas secuencias es probable que se hypermutable como resultado del deslizamiento durante la replicación. Esto también contribuye a la selección negativa en contra de estas secuencias. Ha sido demostrado que en eucariotas corto secuencias repetitivas específicas de duración suelen ser insuficientemente representados en la codificación de las regiones en comparación con regiones no [36]. La consecuencia es que tales secuencias son susceptibles a frameshift errores en el DNA. No podemos distinguir si el motivo de la selección negativa en contra de una o T se corre deslizamiento en la replicación o nivel transcripcional o en ambos. Nuestro enfoque a la búsqueda de genes que transcripcional deslizamiento es funcionalmente puede utilizarse, sin embargo, una discriminación de replicational deslizamiento en algunos casos. Dado que se trata de los casos en que la secuencia prórroga después de un camino en un patrón desplazado marco de lectura se conserva entre varios homólogos, es muy probable que esta prórroga se expresa. En teoría, su expresión puede lograrse como resultado de replicational y / o transcripcional deslizamiento. En el primer caso, el resultado sería la existencia de una población de bacterias con genomas heterogéneos, donde diferentes miembros de esa población tendrá un número distinto de los nucleótidos en un repetitivo plazo, que se describió anteriormente para varias apariciones en el Campylobacter jejuni [37 ]. Hemos encontrado varios ejemplos de este tipo para el grupo de genes que hemos clasificado como "pseudo pseudogenes" (es un ejemplo en la Figura 5].

Si un determinado plazo de 9As o 9Ts ocurre dentro de una serie de homólogos y de la duración de tal plazo se conserva entre todos los homólogos, entonces es muy probable que este plazo se utiliza para transcripcional deslizamiento propósito de generar un conjunto heterogéneo de mRNAs. Posterior traducción de esos mRNAs dará lugar a la síntesis de más de una proteína producto del mismo gen. Un ejemplo se muestra en la Figura 6 para IS elementos de D. Radiodurans. No hemos encontrado homóloga ES elementos que contienen inserciones o deleciones en la carrera de Como. La que se muestra en la Figura 6 son los únicos homólogos.

En general, un plazo de conserva o Ts Como en varios homólogos no implica que la replicación deslizamiento es imposible en ese plazo. Por ejemplo, cuando la inserción de un nucleótido adicional es deletérea, será contra la selección de las secuencias de nucleótidos con el adicional. Sin embargo, en este caso, tales replicational deslizamiento no puede ser mencionado como funcional.

El análisis comparativo de secuencias de los genes con carreras de nueve Como Ts de los genomas y cuando dichas bases se repita deslizamiento en este sentido, puso de manifiesto S. Aureus mapW como candidata a la utilización funcional de deslizamiento transcripcional. MapW pertenece a un grupo de genes que codifican mapa MHC clase II (complejo principal de histocompatibilidad de clase II)-al igual que las proteínas. MapW consta de dos ORFs y se propuso anteriormente que puedan expresarse Juntos para producir una de larga duración 'fusión' de proteína [38]. Tal vez la capacidad de S. Aureus para codificar MHC-II, como proteínas con longitud variable puede facilitar la supervivencia de los mamíferos de variados orígenes genéticos [39]. Sin embargo, la presencia de genes mapW con un ininterrumpido ORF en algunos S. Aureus sugiere que las cepas replicational deslizamiento puede ser también utilizado en este caso.

El mayor grupo de funcionalmente utilizado transcripcional deslizamiento sitios pertenece a los elementos móviles de SE. Nos hemos dado cuenta de los patrones de 9 Como en el 27 SE elementos de los siguientes organismos - Deinococcus radiodurans, Mesorhizobium loti, Nostoc sp. PCC 7120, Streptococcus pyogenes y Sulfolobus solfataricus. Curiosamente, algunos de los elementos homólogos ES D. Y radiodurans Nostoc sp. PCC 7120 han 8As en lugar de 9As en el mismo lugar. Esto sugiere que en estos organismos, transcripcional deslizamiento es productivo incluso en ocho As. Figura 6 ilustra la alineación del codón homóloga ES elementos de D. Radiodurans. Es evidente que el tramo de evolutionally Como es conservado entre estos elementos IS (aunque su longitud varía, no hay supresión o inserciones) y ORF su organización sugiere que se ejecuta de cuanto se utilizan para producir fusiones ORF. (A de alta resolución FITC análisis de espectrometría de masas de numerosos péptidos tríptico de D. radiodurans se ha realizado por Smith y colegas [40]. Un análisis preliminar de estos datos es revelador de los productos se sintetizan a través de mRNAs elemento transcripcional deslizamiento (R. Smith, PVB, AWH, JZ, RFG y JFA, resultados no publicados) El ajuste de los elementos de Nostoc IS no está demostrado, ya que todos sus elementos son idénticos, salvo en la duración de la poli (A) plazo que varía de 8 a 10 Como. Muchos elementos ES Codificar sus transposase superpuestas en dos ORFs, orfA y orfB. Síntesis de un fundido ORFA-ORFB producto es necesario para la transposición. La más común conocido mecanismo de síntesis de ORFA-ORFB fusión es -1 ribosomal frameshifting (ver [41 - 44] para Comentarios). Transcriptional deslizamiento, sin embargo, ha sido propuesta anteriormente como un mecanismo alternativo para un elemento IS [19]. El presente estudio ha identificado una serie de elementos que se utilizan para la síntesis de deslizamiento transcripcional de sus ORFA-ORFB fusión. Por lo tanto transcripcional deslizamiento puede Ser considerada como un mecanismo común para la IS elemento de expresión.

Además, hemos encontrado un conjunto de pseudo pseudogenes donde lo que normalmente se considera como una mutación frameshift se extiende no resbaladizo patrón de 8 cuanto a la secuencia propensas a deslizamientos, de 9 de Como. Como resultado de ello, tal frameshift mutación no conduce a la plena inactivación de un gen que normalmente puede ser anotada como un pseudogen, como un producto funcional normal es producido todavía. La ventaja de la inusual decodificación de estos genes transcripcional por deslizamiento, en comparación con el estándar de decodificación de tipo salvaje homólogos, es incierto. Es evidente que estos casos son generados por las mutaciones y el único que puede, o no, estar presente en diferentes cepas de la misma especie. Transcripcional deslizamiento, sin embargo, puede considerarse como funcionalmente utilizado, ya que si esos genes se transcriben, una parte de los ARNm de síntesis debe contener la codificación de la información intacta. Esta consideración importante tiene que ser tomado en cuenta en la anotación del genoma.

Aunque organismo específico-transcripcional utilización de deslizamiento no se puede descartar, se ha identificado un gran número de genes que, mediante el análisis comparativo, no aparente papel funcional pueden ser asignados para transcripcional deslizamiento. Este resultado es paralelo a nuestro anterior análisis de las secuencias de frameshift de inducir en el E. Coli K12 genoma [31]. Se demostró que un nivel significativo de los errores se da en frameshifting muchos E. Coli A_AAA_AAG secuencias de los genes que contiene (codones están separados por subrayando), pero en ninguno de ellos se encontraron secuencias altamente expresado en los genes [31]. Consideraciones similares se pueden aplicar aquí para transcripcional deslizamiento. Cuando errónea no estándar de decodificación se produce en los genes que no son altamente expresado, la carga celular es modesto debido al bajo nivel de aberrantes producto en comparación con el total de proteínas en masa. Esas situaciones pueden ser fácilmente tolerado.

Transcripcional deslizamiento motivos se encuentran en muchos ORFans, pero cualquier finalidad funcional no pueden ser evaluados en el presente estudio. Encontramos corre de 9A o 9T en 48 ORFans. El origen de la (s) ORFans es misteriosa. Si bien algunos de ellos son susceptibles de ser "una coincidencia ORFs" o "junk ORFans", que no producen proteínas bajo cualquier condición [45 - 47], muchos ORFans es probable que sean reales los genes [36, 48, 49].

El análisis transcripcional de deslizamiento en este estudio se limitaba a la que se produce en 9As y 9Ts. Es evidente, sin embargo, que la eficiencia de transcripcional deslizamiento sobre carreras de Como y Ts es altamente dependiente organismo, y hay una serie de bacterias en el que se pueden producir deslizamiento transcripcional en carreras de menor duración. Además, los patrones de transcripcional deslizamiento puede ocurrir en otros nucleótidos repite. El mecanismo más simple que se puede proponer para transcripcional deslizamiento es la disociación de la creciente cadena de ARN de su plantilla de la DNA mientras que dentro de un complejo de la RNA polimerasa, y la posterior re-asociación con la plantilla de la DNA en una nueva ubicación (Figura 7]. Sobre esta base, otras repetir las pautas de baja complejidad se pueda producir un deslizamiento transcripcional. Por ejemplo, (AT) n puede dar lugar a la inserción de los adicionales no templated ATs. Transcripcional deslizamiento sitios también pueden ser formadas por la combinación de dos patrones relativamente corto homopolymeric paramixovirus como en [14].

Simple secuencia se repite (SSR), también conocidas como microsatélites, se producen con frecuencia en diferentes genes de virulencia de bacterias patógenas [37, 50, 51]. Debido a replicational deslizamiento, que son responsables de la hipermutabilidad y variaciones en la fase de bacterias patógenas [52]. El efecto de estas secuencias de la transcripción y la traducción aún no ha sido estudiado de forma exhaustiva. Esas secuencias también podría dar lugar a la decodificación no estándar (deslizamiento o transcripcional ribosomal frameshifting) y, en consecuencia, expresar más de un producto proteico. Expresión de múltiples productos codificados por los genes de virulencia pueden ser beneficiosos para los agentes patógenos, como una estrategia para evadir la respuesta inmune del huésped. De Estadística, experimental y análisis funcional de las secuencias de este tipo en relación con la transcripción y traducción de esperar ser objeto de una investigación más a fondo.

Materiales y métodos
Un análisis de la distribución y T repetir en los genomas de bacterias

Fasta archivos que contiene las secuencias de nucleótidos de todo el genoma bacteriano y las secuencias de nucleótidos de la codificación de las regiones fueron descargados desde el Centro Nacional de Información Biotecnológica sitio ftp [53], el 25 de marzo, 2003. Los casos de A y T corre con diferentes longitudes se calcularon para cada genoma en el archivo que contiene secuencias de los genomas (accession_number.fna), y en los archivos que contienen la codificación de las secuencias de nucleótidos de ORFs (accession_number.ffn). La proporción de casos de ejecuciones de entre A y T. Fna y archivos. Ffn archivos se calcularon para cada número y los datos se resumen en el 1.

Random genomas se generaron representante de los genomas como se describe en [31]. Además hemos aplicado DiShuffle y programas proporcionados por CodonDiShuffle C. Burge [32]. La correlación entre las apariciones de Ay T real se ejecuta en los genomas y los valores medios de T A, y se ejecuta en el genoma al azar fueron más calculado.

Generación de nuevas secuencias de la proteína correspondiente a los producidos a través de deslizamiento transcripcional

Pistas de 9A o 9Ts se buscaron dentro de regiones codificantes de las secuencias genómicas de los genomas bacterianos terminados. Para generar una novela en silico proteína que puede ser producida por transcripcional deslizamiento, de uno y dos o Ts Como se introdujeron en el plan de 9As o 9Ts. La longitud resultante de la ORF en estas secuencias se compararon con la ORF en el original de las secuencias. Estas secuencias que contienen ORFs más largo que el original se seleccionaron para su ulterior análisis.

Adicional de los archivos de datos

Datos adicionales está disponible con la versión en línea de este documento. Adicional 1 archivo de datos contiene números de apariciones de A y T se ejecuta en los genomas bacterianos. Adicional archivo de datos 2 contiene información sobre los genes que 9A o 9T patrones se encontraron.

Material suplementario
Archivo Adicional 1
El número de ocurrencias de A y T se ejecuta en los genomas bacterianos. La columna A se usa para los nombres de los archivos analizados y fila 1 indica la longitud de A / T plazo. Hoja de 'todo el genoma "corresponde a los sucesos en todo el genoma, la hoja' de codificación de secuencias de los acontecimientos corresponde a la codificación de las regiones y en la hoja 'ATRatio' corresponde a la relación entre estos números
Archivo Adicional 2
La información sobre los genes que 9A o 9T patrones se encontraron. Estos genes corresponden a la reserva de genes seleccionados para el análisis comparativo. En el cuadro figuran los representantes de 98 grupos de genes seleccionados en la etapa 4 del sistema en la figura
3
Una columna se utiliza para los números de la adhesión. B es de las coordenadas de los correspondientes genes. C indica si se trata de un plazo o de una T en un sentido capítulo. D muestra el estado funcional de un gen. El estado funcional es anotada por el texto y por el color. El color rojo se utiliza para los genes con potencial papel positivo de transcripcional deslizamiento, el azul es para aquellos en los que no existe un positivo papel funcional, el verde es para los genes que transcripcional deslizamiento podría restablecer un perturbado ORF y gris se utiliza para ORFans, donde el estado funcional no puede Ser evaluados. Columna E contiene las secuencias de nucleótidos de mRNAs producido
A través de
Transcripcional deslizamiento con ORFs más largo que los de la original de las plantillas de ADN. La columna F contiene secuencias de la proteína correspondiente
Agradecimientos

Damos las gracias a Chris Burge por darnos códigos fuente para los programas de DiShuffle y DiCodonShuffle. Damos las gracias a Norma Wills por su papel clave en el trabajo de fondo sobre las que se basa este estudio. El sueldo de JFA fue apoyado por el NIH GM48152 y conceder un premio de la Fundación de Ciencias de Irlanda. El sueldo de PVB fue apoyada por el Departamento de Energía de subvención DE-FG03-01ER63132 a RFG