Theoretical Biology & Medical Modelling, 2005; 2: 20-20 (más artículos en esta revista)

Promotor direcciones: revelaciones de oligonucleótido de perfiles aplicado a la Escherichia coli genoma

BioMed Central
Clausbcn Sivaraman (k.sivan @ gmail.com) [1], Aswin Sai Narain Seshasayee (achoo.s @ gmail.com) [1], Krishnakumar Swaminathan (ibio2000@gmail.com) [1], Geetha Muthukumaran (geethamk @ Annauniv.edu) [1], Gautam Pennathur (pgautam@annauniv.edu) [1]
[1] Centro de Biotecnología, Anna University, Chennai, India
[2] AU-KBC para la investigación, el campus del MIT, Anna University, Chennai, India

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

La transcripción es el primer paso en el procesamiento de información celular. Es regulado por cis-elementos que actúan como promotores y operadores en el ADN, y transeuropeas de elementos que actúan como factores de transcripción y factores sigma. Cis-Identificación de elementos reguladores que actúan en una escala genómica requiere análisis computacional.

Resultados

Hemos utilizado oligonucleótido de perfiles de las regiones reguladoras de predecir en un genoma bacteriano. El método se ha aplicado a la Escherichia coli K12 genoma y los resultados analizados. El contenido de la información de los oligonucleótidos de modo putativo de reglamentación previsto es validado a través de los análisis intra-genómica, la correlación con los datos experimentales y de las comparaciones entre el genoma. Con base en los resultados que hemos propuesto un modelo para el promotor bacteriano. Los resultados muestran que el método es capaz de identificar, en el genoma de E.coli, cis-actuando como elementos TATAAT (sigma70 sitio de unión), CCCTAT (1 base familiar de sigma32 sitio de unión), CTATNN (LexA sitio de unión), AGGA Contienen hexanucleotides (Shine Dalgarno consenso) y CTAG contienen hexanucleotides (básicos sitios de unión para Trp y Met represores).

Conclusión

El método adoptado es simple pero eficaz en la predicción de los elementos de regulación aguas arriba en las bacterias. Ello no se requiere una previa de los datos experimentales, salvo la propia secuencia. Este método debe ser aplicable a la mayoría de los genomas conocidos. Perfiles, que se aplican a los E.coli genoma, recoge conocidos cis-actuando y elementos de regulación. Sobre la base de los resultados de perfil, proponemos un modelo para el promotor bacteriano que es extensible incluso a los eucariotas. El modelo es que el núcleo promotor se encuentra dentro de una meseta de doblados AT-ricos ADN. Este ADN doblados actúa como un segmento para el realojamiento sigma factor de reconocer el promotor. Así, este modelo sugiere un papel importante de los paisajes locales procariótico y en la regulación de genes eucariotas.

Introducción

Transcripción, el primer paso del flujo de información de ADN, se rige por la secuencia específica del ADN en proteínas interacciones. La regulación depende de la presencia de elementos cis-actuando. Los mejores ejemplos de cis-son elementos que actúan los promotores. Otros ejemplos bien conocidos incluyen bacterias en la Shine Dalgarno (SD) secuencia, sigma 32 sitio de unión, sitio de unión LexA, etc

En las bacterias, los promotores reconocidos por factores sigma iniciar la transcripción. Las respuestas de un organismo a diversos estímulos están mediados por los cambios en los patrones de la expresión génica. Estos cambios son iniciados por el promotor-sigma factor de las interacciones y regulado por otros elementos cis-actuando. Por lo tanto, las familias de la co-genes están regulados bajo el control de un mismo promotor. Aunque los promotores fundamentales son palabras pequeñas (6-8 bases), ciertos cambios que son permisibles en promotor secuencias tienen poco o ningún efecto sobre su actividad. Esto significa que unos pocos estrechamente relacionados con las secuencias, en el contexto correcto, puede funcionar como promotores. La identificación de los promotores es un problema difícil pero gratificante; difícil porque los promotores pueden diferir sutilmente en la secuencia sin incrementar la función, y gratificante porque puede arrojar luz sobre la vida de un organismo de estilo. Computacional ya que se requieren enfoques de los métodos experimentales para la identificación de los promotores no son aplicables en un genoma de gran escala.

En la mayoría de los casos, la identificación de cálculo o predicción de los promotores consiste en la base de modelos búsquedas. El modelo es, en gran medida, deriva de los datos anteriores. Utilizando técnicas de redes neuronales artificiales [1] o las metodologías de programación genética [2] también se utilizan, y requerirá la autorización previa de los datos experimentales. El uso de los datos antes de la identificación de nuevos candidatos se conoce también como diccionario basado en la búsqueda. Bases de datos de verificar experimentalmente cis-actuando elementos están disponibles para el promotor de predicción [3] a través de enfoques basados en el diccionario. Estos enfoques se polarizan hacia el mejor promotor caracteriza-en el conjunto de datos inicial, aunque no redundante conjuntos de datos se han utilizado recientemente [4]. A falta de datos experimentales pueden comprometer la eficacia de estos métodos. El éxito de los métodos basados en diccionario depende directamente de la relación de la base de datos para la consulta. También se ha observado que, si bien la utilización de métodos basados en el diccionario, tomando en cuenta el paisaje local genómica Markov para generar perfiles de la mejora de la predicción de la calidad en eucariotas [5]. Otro método que se ha aplicado a la vez más simple y más amplio de los genomas es el método de análisis comparativo del genoma. Se observa que las regiones funcionales, aunque no codificante, se conservan a través de especies y géneros. Los análisis de este tipo se han utilizado para la levadura [6, 7], eucariotas superiores [8, 7] y bacterianas regulons [9, 7].

En Saccharomyces cerevisiae, la distribución de ciertas palabras en todo el genoma no es aleatoria. Por ejemplo, algunas palabras parece que se prefieren aguas arriba en las regiones [10] o [11] de los genes. Los análisis mostraron que estas palabras se producen preferentemente cerca de los genes representan elementos funcionales. Aunque no aleatoria uso de la k-palabras de tamaño en los genomas de bacterias ha sido documentado [12, 13] en genómica contigs, los estudios no se han centrado en las regiones de aguas arriba procariótico genes.

Hemos desarrollado un método que utiliza preferencial ocurrencia de k en palabras de tamaño específico (gen-proximal) regiones en un determinado genoma de predecir cis-actuando elementos. Este método no utiliza un diccionario o una base de datos para iniciar la búsqueda. El método se puede aplicar a cualquier genoma de los cuales el gen coordenadas son conocidas. Su ventaja es que no hay extrapolación de los datos. Esto permite que las familias único cis-de los elementos que actúan para un determinado genoma que se determine. Interamericano de comparación del genoma puede establecer la funcionalidad de palabras conservadas a través de los géneros.

Los resultados de oligonucleótido de perfiles que se aplican a los del genoma de E.coli K12 [14] se presentan. Análisis comparativo de la resultante oligonucleótido perfiles muestran que un subconjunto de hexanucleotides preferido en E.coli K12-se conserva a través de otros dos genomas, los de Salmonella typhi y Yersinia pestis [15, 16]. Sugerimos una función a la que están omnipresentes hexanucleotides preferentemente en la actualidad -100 regiones y no son ni una sola base de los familiares de TATAAT o AGGA ni CTAG contienen, y se propone un novedoso modelo de los promotores bacterianos.

Resultados y Discusión

Los resultados de oligonucleótido de perfiles, tal como se realiza en el transcurso de E.coli K12 genoma, se discuten. La palabra tamaño se limita a seis. Para tamaños mayores palabra ocurrencia de la palabra frecuencia fue baja. Palabras más pequeños no se utilizaban desde la intra-palabra Markov dependencias, en su caso, son estadísticamente nulas [17].

Palabra apariciones fueron analizados en cuatro contiguas secuencia fija, F4 a través de F1 (Fig. 1a],. Un umbral del 200% (dos veces mayor en la genómica ocurrencia más de media) se estableció para identificar las señales de cis-actuando elementos. El promedio de ocurrencia de un hexanucleotide azar en una secuencia conjunto es de 4,6% de su total de los genomas y la desviación típica es 0,573. Se puede observar que un aumento al doble (9,2%) es más de seis veces la desviación estándar (σ) por encima de la media. Cualquier hexanucleotide que había al menos 9,2% de su ocurrencia dentro de los genomas en general cualquiera de los cuatro fragmentos analizados se denominó "enriquecido" en el que cada región. Tal enriquecimiento fue más pronunciada en el gen de las regiones proximal (-1 a -100 región) que en las regiones distales (-300 a -400). En los tres conjuntos de secuencia aleatoria (controles), sólo una vez hicimos nos encontramos con el enriquecimiento (un elemento que contienen CTAG). Fig. Esquemáticamente 1a ilustra este procedimiento.

Las ocurrencias de hexanucleotides preferencial dentro de los controles y de los fragmentos en estudio, contrastadas en la Tabla 1. Las distribuciones de hexanucleotide incidencia en el control 1 y fragmentos (F1-F4) se muestra en la Fig. 1b, mientras que la Fig. 1c muestra el número de frecuencias con hexanucleotides N × (σ) más de la media. Las unidades en el eje X son N (N veces σ) y el 200%.

El método recuperados 183 hexanucleotides que fueron enriquecidos en la región -100. Entre ellos, el cuadro de Pribnow (TATAAT), SD consenso (AGGA), el sitio de unión LexA (CTATNN), sigma 32 sitio de unión de una base relativa (CCCTAT) y CTAG contienen elementos reguladores [Información suplementaria 1].

El CTAG contienen elementos se sabe son fundamentales represor vinculante regiones en el Trp, Met y MalPQ operones de genes y la treA [18 - 20]. Que se produzcan en alta frecuencia cerca del rRNA gen grupos [12]. Sin embargo, en el resto del genoma, nos encontramos con su distribución más o menos uniforme a ser (datos no presentados).

Ciertas tendencias son evidentes en el uso de oligonucleótidos enriquecido por los genomas bacterianos. La ocurrencia de algunos oligonucleótidos se incrementa progresivamente con la proximidad a los genes (clase I oligonucleótidos), mientras que otros (clase II oligonucleótidos) pico cerca de los genes. Una tercera clase no comprende específicamente preferido oligonucleótidos (Clase III oligonucleótidos).

Clase I oligonucleótido

Las bacterias se espera que tengan promotor número limitado de elementos y que las cerca de los genes. La caja de Pribnow en E.coli es un representante promotor. La frecuencia total de la caja de Pribnow es inferior a la media de los genomas (1067 apariciones frente a la media de los genomas de ~ 1400). Aquí, se analizan: la aparición de la caja de Pribnow y su única base de la sustitución de los familiares, la distribución de la caja de Pribnow dentro de la región -100, y la posición de dependencia de otras bases en la caja de Pribnow en sus proximidades. Para este análisis, Pribnow apariciones en la caja -100 región solamente se tuvieron en cuenta para cuatro cepas de E.coli.

Clase II oligonucleótidos

AGGA-(SD consenso) y CTAG hexanucleotides que contienen pertenecen a esta clase. A diferencia de los oligonucleótidos de Clase I, Clase II oligonucleótidos muestran un marcado aumento en la ocurrencia en la región -100. Esto se prevé en el caso de la secuencia Shine-Dalgarno (AGGA), ya que debe recaer dentro de los 30 pares de bases aguas arriba del sitio de inicio ORF (geométrica debido a limitaciones impuestas por el complejo ribosomal).

Otro ejemplo de esta clase es el tetranucleotide CTAG, en representación de todas las hexanucleotides que contienen. CTAG torceduras de ADN cuando obligado por las proteínas [23], por lo que es un probable candidato para un sitio de regulación. CTAG también ha genómica baja frecuencia, la distribución uniforme y una preferencia por la región -100. Esto podría implicar una función reguladora.

Clase III oligonucleótidos

Algunos oligonucleótidos no sólo tienen una media de más de genómica frecuencia, pero también son más comunes en la región -100. Muchos de estos son A / T ricos oligonucleótidos, que son conocidas para doblar ADN cuando se extiende en la actualidad [24]. La presencia de tales A / T repetir elementos aguas arriba [25] y [26] aguas abajo de la canónica promotor es necesaria. Son evidentemente no autónomos señales. Proponemos que son elementos facilitadores que son necesarios pero no suficientes para el reconocimiento y la función de promotor. El conjunto de tales oligonucleótidos que se distinguen fácilmente como facilitadores se da, junto con su distribución, en la información complementaria 3. Que se produzcan preferentemente hasta -100 y más allá. Esto nos parece importante, ya que un reciente informe revela que el ADN de 90 pares de bases de tamaño puede doblarse a sí misma en una secuencia que dependen de manera [24].

A pesar de los 64 A / T contiene hexanucleotides se encontraron a ocurrir con más frecuencia que la genómica promedio, sólo 18 de ellos fueron enriquecidos en la región -100. Así, la mayor incidencia de la clase III hexanucleotides no es un artefacto de una mayor base de la frecuencia. Resulta que el genoma de flexión aumenta la capacidad de la región -100 de uso preferencial de ciertos oligonucleótidos.

La ocurrencia de hexanucleotides en representación de cada una de las tres clases se muestra en la Fig. 1d. TATAAT se utiliza para representar a la clase I, que contiene AGGA-hexanucleotides para representar a la clase II y AAAAAA para representar a la clase III.

Binding Protein Capacidad de la región -100: Prueba de NDB

Se estudia la aparición de hexanucleotides enriquecido en una proteína determinada estado en la base de datos NDB [27]. De los 130 ~ hexanucleotides que no son ni TATAAT relacionados con (1 base de la sustitución de oligonucleótidos) ni AGGA-CTAG-o que contengan, 112 tienen por lo menos una aparición en la base de datos, vinculados a las proteínas [no se muestran los datos]. La mayoría de ellos se produjeron más de una vez en la base de datos de proteínas en un determinado estado. Estos resultados demuestran la propensión del genoma para aumentar la capacidad de interacción proteína--100 de la región y, por tanto, aumentar la actividad de esta región.

Análisis de la dependencia

Una posición específica de la matriz de probabilidad (PSPM) se ha creado para enriquecido oligonucleótidos que no se TATAAT relacionados o AGGA / CTAG contienen. Esta matriz se utiliza para determinar la tendencia de hexanucleotides a asumir el consenso palabras específicas dentro de la región -100 de los genes. Secundaria matrices se obtuvieron mediante el anclaje de la primera base en la PSPM. El consenso palabras que derivan de estas matrices se dan en la información complementaria 4. Para cada matriz secundaria, otros dos estados de caracteres se eligieron para el anclaje en función de su importancia,. Los resultados muestran una marcada preferencia por las señales de tetra-A, que contiene las señales de TATA-GGA y que contienen señales.

Interamericano de genoma comparación de los perfiles de uso hexanucleotide

Conservación de la secuencia de ADN de todo el genoma se ha establecido como un puntero a la funcionalidad. Este método se ha utilizado para identificar regiones de regulación en Saccharomyces [6], de la comparación de secuencias entre las diferentes especies. Vemos que la lógica se extiende más allá de la conservación de las secuencias y pautas a la de oligonucleótido perfiles.

Hemos comparado el perfil del enriquecido hexanucleotides entre E. coli, Salmonella enterica y Yersinia pestis para probar su validez. La E.coli y Salmonella perfiles compartidos 110 enriquecido oligonucleótidos de 160 en Salmonella typhi. Yersinia pestis, cuyo perfil ha enriquecido oligonucleótidos 97, 66 de ellos compartidos con E.coli. De los que se conservan a través de los genomas, el AGGA que contienen y contienen hexanucleotides CTAG, TATAAT, y el sitio de unión LexA fueron destacados (Información 5).

Si bien la conservación de hexanucleotides implica el uso de la funcionalidad, la conversación no puede ser cierto y podría reflejar único regulador / facilitador elementos de cada genoma.

Papel de facilitador en los elementos de identificación y el promotor Dirigidas Promotor Modelo

Clásica promotores en bacterias son sigma factor de unión. La secuencia que se sabe que se unen a sigma con factor de la máxima afinidad in vitro es llevado a ser el más fuerte promotor. ADN footprinting experimentos no nos permiten evaluar la importancia de las secuencias circundantes.

Es evidente que, de los perfiles de los más fuertes promotores que han limitado aparición en el genoma. La mayoría de los genes son controlados por E.coli sigma 70 en [28], y sólo ~ 12% de la fuerte consenso ocurren en una región donde son máxima eficacia [21]. La cuestión que se debe abordar es cómo un factor sigma (Sigma 70 en este caso) puede distinguir el promotor de la no-específica-como promotor de señales (-10 y -35 degenerar como señales en lugares no funcionales en el genoma). El factor sigma no podían leer cada una de las posibles combinaciones de la señal ya que esta daría lugar a una enorme pérdida de tiempo en los genomas bacterianos. En genomas más grandes, dado el pequeño tamaño y la degeneración de los promotores, es posible que el factor sigma reconocería una falsa señal en la mayoría de las ocasiones.

Dar cuenta de la eficiencia del promotor reconocimiento en el organismo, nos proponemos abordar el promotor modelo, en donde el factor sigma es un elemento obligatorio de información densa pico (información específica) en una meseta de moderada densidad de la información (palabras distintas, pero relacionadas entre sí). El pico y la meseta conjunto, constituyen el promotor. La meseta está formada por la clase III oligonucleótidos que tienen la capacidad de doblar el ADN. Los facilitadores son parte integrante de la promotora. La presencia de los facilitadores, que se producen con mayor frecuencia en todo el núcleo promotor, servirá de direcciones para el núcleo promotor. Estas direcciones actuar como radiorecalada segmentos que permiten el factor de transcripción de reconocer el núcleo promotor y se unen a ella.

Este modelo inmediatamente sugiere una forma de identificar cis-actuando en eucariotas regiones, donde mayor tamaño del genoma y la degeneración son más visto. La extensión de esta lógica sería ver a potenciadores y reglamentarias de las regiones en los genomas eucariotas grandes paisajes como locales y no como secuencia de motivos. Si bien la unión de proteínas aún sería secuencia de motivos, que se produzcan en un determinado paisaje puede ser el factor determinante para su actividad. Esto concuerda con la observación de Huang et. Al. [5] genómica paisaje local que afecta a la información de predicción de calidad de promotor elementos.

Para ilustrar este modelo, hemos analizado la distribución de un elemento representativo de cada una de las tres clases. La distribución se estudió en un 30-base con una ventana deslizante 10-base de lanzamiento. El representante elementos son TATAAT (clase I), AGGAGG (Clase II) y AAAAAA (Clase III). La distribución se muestra en la Fig. 2a. Se puede observar que las formas AAAAAA una meseta en torno a la TATAAT pico. El modelo clásico y el modelo dirigido promotor, contrastadas en la Fig. 2b.

Conclusión

Este método de regulación para la identificación de regiones en el ADN es de gran alcance. Su fuerza es su capacidad de utilizar la secuencia genómica como control. Esto elimina la necesidad de que la extrapolación de los datos relacionados con los genomas. El método puede identificar elementos funcionales que pueden ser caracterizados experimentalmente.

La aplicación de este método a la E.coli K12 genoma revela la presencia de al menos tres clases de cis-actuando elementos. La ocurrencia, la distribución y las dependencias de estos elementos han sido analizados. La mayoría de los datos se correlacionan con el perfil existente evidencia experimental. La canónica sigma70 promotor ha sido analizado con mayor detalle en cuatro E.coli genomas.

La información derivada de E.coli K12 utilizando este método sugiere que la funcionalidad de un promotor está determinada no sólo por la secuencia de la promotora elemento básico, sino también por su entorno local. Tomamos nota de que la aparición de elementos propuestos facilitador sólo se extiende más allá de la longitud conocida de ADN para doblar sobre sí misma (90 pb) y esto, junto con otros informes sobre AT ricos en panfletos en los alrededores de la canónica promotor, sugiere que el factor sigma Reconoce un promotor más eficiente si está presente en la "dirección". Esto explica por qué el inmediato proceso de transcripción es eficiente a pesar de la degeneración que el promotor exposiciones. Vemos que la aparición de facilitadores no es un artefacto de una mayor base de las frecuencias.

La aparición de muchos de los enriquecido hexanucleotides como proteína determinada complejos de ADN en la base de datos NDB es indicativo de su capacidad de interacción de proteínas. Esto refleja en la capacidad de unión a proteínas del gen proximal regiones en E.coli K12.

La limitación de este método es la imposibilidad de recoger elementos reguladores rara. En los pequeños genomas el método que se conoce para dar falsos positivos, y en los degradados genomas que recoge falsos negativos. En tales casos, relacionados con el análisis comparativo de genomas dará información valiosa.

Métodos
Secuencia de extracción

Publicado secuencias del genoma de la base de datos NCBI http://www.ncbi.nlm.nih.gov (. Fna archivo) fueron utilizados. El comienzo sitios de los genes que figura en la anotación de archivo (. Ptt archivo) fueron utilizados para la extracción de aguas arriba de todas las secuencias de los genes. Upstream secuencias fueron tomadas sólo desde sus respectivos capítulos (+ + capítulo de los genes y viceversa), debido a la direccionalidad de los promotores. Cuatro de esos fragmentos fueron tomados de aguas arriba de cada gen, a saber. -1 A -100, -101 a -200, -201 a -300 y -301 a -400. La distancia entre dos genes no se le dio importancia debido a la posibilidad de que el regulador transcripcional y empezar sitios pueden estar presentes en la región de codificación del gen anterior.

Perfiles

Por cada gen en el E. Coli K12 genoma, cuatro contiguas fragmentos de ADN a partir de la correspondiente capítulo se extrajeron. La duración de cada fragmento de 100 bases. Los fragmentos fueron nombrados F4 a través de F1, donde F1 es la gen-fragmento proximal. Hay 4311 genes en E.coli. Secuencia de cuatro conjuntos, uno por cada F1, F2, F3 y F4, se crearon para todos los genes. Cada uno de estos conjuntos de la secuencia cubre aproximadamente el 4,6% del genoma.

Ocurrencia de todos hexanucleotides fue contado en ambos capítulos del genoma y los cuatro aguas arriba de la secuencia fija. El Compseq programa de la EMBOSS suite [29] fue utilizado para este fin. Cualquier palabra que no es funcional se espera que se distribuirán por igual en toda la secuencia fija. Así, para un no-funcional palabra en el contexto aguas arriba, esperábamos aproximadamente el 4,6% de su aparición en cualquier genómica de la secuencia fija.

Desde cis-son elementos que actúan gen-proximal, que se espera que se produzcan a ser más elevada que en otros lugares en F1. Hemos establecido un umbral (T), de 200% en la palabra de frecuencia para identificar las señales. Habida cuenta de una desviación estándar de 0,56, es evidente que un 200% de aumento (9,2% de ocurrencia genómica) es de más de 6 σ, que es importante. Cuya frecuencia de palabras en un determinado orden establecido fue de 9,2% o más se denomina "enriquecido", en el fragmento correspondiente.

Todos los análisis se realizaron utilizando scripts de Perl 5.6.1 http://www.perl.com Mandrake Linux en una plataforma de 9,1. El conjunto completo de datos está disponible en una casa-en http://www.mysql.org MySql basado en servidor.

Markov análisis de la dependencia

Se analizó el carácter-estado probabilidades de todas las palabras (137 palabras) para los que una función no puede ser asignado. Para ello, hemos creado una posición específica de la matriz de probabilidad (PSPM). El PSPM se elaboró a partir de una posición específica de la matriz de frecuencia (PSFM), que se define de la siguiente manera. Para el tamaño de una palabra de L, una PSFM es un 4 × L matriz M, en la que cada elemento de M i, j [i ∈ (A, T, G, C) y j ∈ (1,2, ... L)] es el número de veces que el carácter de estado i se produce en la posición j. En este caso, L = 6.

Si S es la suma de todas las ocurrencias de las palabras, y la PSPM está relacionada con la PSFM como que se detallan a continuación:

PSPM = (1 / S) × PSFM

Esta matriz fue utilizada para obtener el consenso palabras preferido en la región -100. Desde el PSPM, cuatro sub-matrices se derivan de anclaje por los diversos estados de caracteres (A, C, G, T) en la primera posición. Además fueron analizados por las dependencias posterior anclaje de los otros dos puestos, en base a su importancia en la sub-PSPMs, a su carácter representativo de los estados.

Análisis de Markov para TATAAT dependientes de las señales

Para cada aparición de la caja de Pribnow dentro de la región -100, la anterior de 50 de base se extrajo región. El PSPM fue creado para establecer la secuencia tal y como se describe más arriba, en donde el valor de L es de 50. Los diferentes perfiles fueron creados por la base de perfil de anclaje en todas las posiciones de las cuatro bases. Esto se utiliza para analizar la dependencia de las señales de aguas arriba sobre TATAAT. Este análisis se realizó sobre un conjunto de secuencias cotejados con las cuatro cepas de E.coli.

Contribuciones de los autores

KS dio a la idea central de oligonucleótido de perfiles, análisis de la ocurrencia y el modelo propuesto. ASNS trabajado con KS en perfiles y análisis de la significación estadística de los resultados, y trabajó con KrS KS en el análisis de la distribución de las palabras en las regiones proximal gen. GM participa en el análisis de los resultados y analizar críticamente el manuscrito. PG es el líder de grupo.

Agradecimientos

Los autores desean agradecer a la Sra Anishetty para los debates, y reconocer el apoyo financiero dado por el Consejo de Investigación Científica e Industrial, el Gobierno de la India y el Departamento de Biotecnología del Gobierno de la India a través de la BTIS programa. También damos las gracias a los desarrolladores de EMBOSS para su puesta a disposición libre de costo. Deseamos expresar nuestro reconocimiento a la contribución de la Free Software Foundation, MySQL, Perl y otros son útiles para hacer el software libre disponible.