Genome Biology, 2005; 6(3): R28-R28 (más artículos en esta revista)

Contexto el análisis comparativo de pares en un codón ORFeome escala

BioMed Central
Gabriela Moura (gmoura@bio.ua.pt) [1], Miguel Pinheiro (monsanto@ieeta.pt) [2], Raquel Silva (rsilva@bio.ua.pt) [1], Isabel Miranda (imiranda @ bio. Ua.pt) [1], Vera Afreixo (vafreixo@mat.ua.pt) [2], Gaspar Dias (gaspar@ieeta.pt) [2], Adelaide Freitas (adelaide@mat.ua.pt) [3] , José L Oliveira (jlo@ieeta.pt) [2], Manuel AS Santos (msantos@bio.ua.pt) [1]
[1] Centro de Biología Celular, Departamento de Biología, Universidad de Aveiro, 3810-193 Aveiro, Portugal
[2] Instituto de Electrónica y Telemática, Ingeniería de la Universidad de Aveiro, 3810-193 Aveiro, Portugal
[3] Departamento de Matemáticas de la Universidad de Aveiro, 3810-193 Aveiro, Portugal

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Hemos desarrollado un sistema de análisis comparativo codón contexto de marcos de lectura abierta en todo el genoma, proporcionando conocimientos sobre las normas que rigen la evolución de codón de par contexto.

Antecedentes

El código genético estándar utiliza 64 codones de sólo 22 aminoácidos, incluyendo los aminoácidos selenocysteine y pyrrolysine cuya incorporación a la proteína requiere la reasignación de la UGA y UAG codones de parada, respectivamente [1, 2]. Esta degeneración del código genético tiene implicaciones importantes para la estructura primaria de la evolución de genes, ya que proporciona la naturaleza con una amplia gama de opciones para la construcción de marco de lectura abierta (ORF) para cualquier secuencias de la proteína. Sin embargo, el uso de codones sinónimos para la construcción de ORFs no es al azar, lo que sugiere la existencia de mecánica o evolutiva que limitan el grado de libertad para la construcción de la secuencia de codificación [3 - 6]. En otras palabras, cada organismo utiliza un conjunto de normas para la construcción de secuencias ORF que restringen el número total de las opciones previstas por la degeneración del código genético. Estas normas se entiende sólo en parte. Sin embargo, es cada vez más evidente que el codón de uso y el contexto reflejar sesgo de la acción de dos grandes fuerzas evolutivas: selección de la eficiencia y la decodificación de mRNA mutacionales deriva actuando indiscriminadamente en la codificación y no de ADN [7 - 10].

Codón de uso selección refleja la eficiencia de la traducción, como se expresó muy genes tienden a utilizar los codones que son decodificadas por abundantes afines tRNAs [11 - 13]. Del mismo modo, el contexto de una secuencia par de codones (codón de par) es parcial, pero este sesgo es, al parecer, más ligados a la precisión de descodificación que a la velocidad traslacional [14 - 17]. Esto sugiere que la maquinaria de traducción es sensible a la naturaleza del codón de par en el presente y un ribosome P decodificación sitios [16, 18 - 20], lo que plantea la posibilidad de que, al igual que el uso de codones, codón contexto también pueden ser específicos de especies. Esto se sustenta en el hecho de que tRNA poblaciones divergen en el número y abundancia de tRNA isoacceptors codón para cada familia y también en el patrón de nucleósidos modificados en los tRNAs, que también afecta a la precisión de descodificación ARNm.

Para arrojar nueva luz sobre el patrón general de codón contexto a nivel de especies y evaluar la forma en el codón de par contexto varía entre las especies, hemos desarrollado software y metodologías estadísticas para el codón de par contexto de análisis sobre todas las ORFs en un genoma en su conjunto ( La ORFeome). Porque nuestro principal interés es evaluar el efecto del contexto en el codón mRNA decodificación exactitud, este estudio se centra en el contexto del codón de pares y no de largo alcance sobre los efectos contexto. Con pocas excepciones, de largo alcance contexto no es relevante para la decodificación de ARNm por los ribosomas. Estas nuevas metodologías se sometieron a pruebas de la completa ORFeome secuencias de los eucariotas Saccharomyces cerevisiae, Candida albicans y Schizosaccharomyces pombe y de la bacteria Escherichia coli. La metodología desarrollada proporciona herramientas robustas y flexibles para intra-e inter-ORFeome comparativa codón de par contexto de análisis, permita la identificación de cada especie, el codón contexto huellas digitales y proporciona nueva visión sobre el papel del contexto en el codón mRNA decodificación precisión y, en definitiva, sobre la presión Impuestas por la maquinaria de traducción de la evolución de la ORFeome. El software desarrollado, llamado Anaconda, está disponible en [21].

Resultados
Análisis global de contexto en el codón de levadura

La Anaconda bioinformática sistema desarrollado en este estudio se identifica el inicio de un codón ORF y dice que se desplazan por una 'ventana de decodificación de los tres nucleótidos a la vez en la 3' dirección hasta que se encuentra un codón de parada. Al hacerlo se fija el codón medio de la ventana de lectura y memoriza sus 5 'y 3' vecinos. Anaconda crea una tabla de frecuencias de 64 × 64 codones que permite el cálculo de la cantidad de veces que el conjunto completo de pares contiguos codón se produce en un ORF o en un ORFeome. La arquitectura general de Anaconda se describe en la Figura 1.

El codón de par contexto frecuencia de cuadro construido por Anaconda permite el análisis estadístico de tablas de contingencia que se utilizarán para poner a prueba si el contexto es significativamente sesgado [22 - 25]. Estas tablas permiten a una prueba de la existencia de asociación entre el codón de pares a través de la chi cuadrado (χ 2) prueba de la independencia; preferido para identificar y rechazó pares de codones en el ORFeome mediante el análisis de residuos ajustada para tablas de contingencia (Tabla 1 Y Figura 2], y la construcción de un codón en un contexto mapa ORFeome escala (Figura 3]. El algoritmo de Anaconda, su interfaz gráfica y aplicado metodologías estadísticas se sometieron a pruebas de la levadura S. ORFeome cerevisiae. Para ello, la completa ORFeome se descargan de la base de datos de genoma de la levadura [26], el valor residual para ajustar el número total de parejas codón se calcularon (ver Materiales y métodos) y cada valor residual presente en una celda de la tabla de contingencia (64 Líneas × 64 columnas) se convirtió en una de dos colores mapa (Figura 3]. En este último, el verde representa a los valores positivos superiores a 3 (en adelante denominado preferido codón-pares) y el rojo representa los valores negativos inferiores a -3 (en adelante denominado rechazó codón-pares) de acuerdo con la escala de colores indica en la figura 3 bis. Los datos muestran claramente que cada codón ha preferido un conjunto de 3 'codón vecinos (verde) y rechaza un conjunto de otros codones (rojo), lo que indica que el codón contexto es altamente sesgada en S. Cerevisiae. Sin embargo, en un gran número de casos, el 3 'codón contexto no es tendencioso o, al menos, fuertemente rechazada o preferido. Esto es indicado por el color negro en el mapa (Figura 3] y en el histograma de los residuos de distribución (Figura 4]. Este color negro se corresponde con el valor residual que caen dentro del intervalo de -3 a +3 y corresponden a los contextos codón que no contribuyen a la parcialidad para un nivel de confianza del 99,73% (Tabla 1 y Figura 2]. El general de la distribución empírica de los valores residuales de codón en el contexto de levadura ORFeome (Figura 4] muestra claramente que una gran proporción (alrededor del 47%) del codón de par contextos comprendidas en el intervalo de -3 a +3, lo que indica que en muchos casos El contexto no puede ser selectivo en virtud del alto limitación.

Codón agrupación presenta características únicas de codón contexto

El codón de par contexto mapas se muestra en la Figura 3a, b fueron construidas manualmente utilizando una distribución de los codones predefinidas en ambas líneas y columnas. Para entender mejor el verdadero alcance de la par-codón contexto sesgo en la levadura, los datos se agruparon mediante el coeficiente de correlación de Pearson [27], que permite la agrupación de los codones con similares preferencias contexto. Uso de la agrupación doble (es decir, tanto la agrupación de líneas y columnas) varios grupos distintos de rojo y verde codón de par contextos se identificaron para el S. ORFeome cerevisiae, lo que muestra que ciertos grupos de codones similares 3'-vecino preferencias (Figura 5].

Para identificar los codones responsables de la definición de los subgrupos con alto sesgo (rojo y verde clusters) y evaluar si se podrían definir codón de par contexto reglas, un zoom sobre el contexto subclusters. Tres subclusters específico (una roja y dos verdes) fueron analizados en este estudio (Figura 6a-c]. El subgrupo de color rojo se muestra en la Figura 6 bis se define por pares codón-en el que el último nucleótido del primer codón es uridine (U) y la primera de nucleótidos de la próxima codón (3 'lado) es la adenosina (A). Como tal norma no se observó en las otras posiciones de codón - es decir, las posiciones 1 y 2 o 2 y 3 del codón 1 o posiciones 1 y 2 o 2 y 3 del codón 2 (datos no presentados), los codones se agrupan sobre la base de El siguiente contexto rechazo regla: XXU-AYY. La intensidad de rechazo (por el ajustado residual en sí) no es idéntica para todas las combinaciones de codón en el subgrupo. Sin embargo, con la excepción de la UCA y serina asparagine AGU codones, y algunos otros cuyos valores residuales son de la no estadísticamente significativo intervalo de -3 a +3, todos los demás-que termina U codones evitar 3'-vecino a partir de los codones una A . Si se asume que los codones fijo en el mapa (líneas) representan P-sitio codones y 3 'codones (columnas) representan un sitio de los codones, la norma indica que por encima de la tercera base de un codón P-sitio de alguna manera influye en la elección De la primera base del codón A-sitio. En otras palabras, y suponiendo que modula contexto decodificación exactitud, S. Cerevisiae codón pares tal fin con una U y empezar con una A pueden causar algunos problemas al ribosoma durante la decodificación.

Las anteriores observaciones fueron confirmadas por el análisis de dos verdes codón de par contexto subclusters (bueno contextos). En estos casos, las dos agrupaciones se identificaron las normas, a saber, la XXC-AYY y la XXU-GYY (Figura 6b, c]. Al igual que el mal contexto subgrupo debatió anteriormente, en estas buenas contexto subclusters hay excepciones, que incluyen el rojo y el negro contexto células. No obstante, hay una fuerte tendencia para que por encima de la norma dentro de cada subgrupo, lo que indica una vez más que la tercera base del codón P-sitio influye en la primera base del codón A-sitio. El hecho de que estas normas no puede ser visto por otros codón posiciones, y de que hay excepciones a estas reglas para otros codón familias en el mapa general, excluye la posibilidad de que la tercera-primera base dinucleotide normas identificadas reflejan las preferencias o rechazos resultantes de la replicación del ADN Y la reparación ([28] y ver más adelante).

Codón análisis comparativo contexto

Debido a que el S. Cerevisiae codón de par contexto mapa producido un claro patrón de contexto, se preguntó si este mapa podría representar una especie de huella digital, como es el caso de la utilización de huellas digitales-codón. Para ello, los mapas de S. Pombe, C. Albicans y E. También se construyeron coli, la que estará siendo utilizado como un grupo afuera. Algunas semejanzas entre el codón de par contexto mapas fueron inmediatamente visibles, a saber, una fuerte línea diagonal verde en la levadura mapas (Figura 7]. Sin embargo, hay diferencias importantes que se hacen evidentes cuando el negativo y positivo residual de los valores se clasifican para la levadura especies estudiadas (Tabla 2]. Estos valores representan los más negativos y positivos residuos de la levadura mapas y, en consecuencia, constituyen una buena indicación de las diferencias de contexto codón presente en las tres especies de levadura. De los 10 valores más positivos residual clasifican en la Tabla 2, sólo dos son comunes para las tres especies de levadura, a saber GAA-GAA, GGU-GGU-CGU y CGU. Un resultado similar se obtuvo cuando la mayoría de los valores negativos se clasificaron (Tabla 2]. Además, el C. Albicans genoma muestra un sesgo más codón de par contexto. Por ejemplo, la 10 ª más positivo residual (49476 para ACA-ACA) es más alto que el máximo valor residual de S. Y S. cerevisiae Pombe: 45422 para CAG-CAG y 35086 para la UCU-UCU, respectivamente (Tabla 2].

Otro enfoque a la identificación de codón de par contexto diferencias entre S. Cerevisiae, S. Pombe y C. Albicans, fue realizada por la superposición de los mapas completos codón contexto muestra en la Figura 7. Para ello, los mapas con un orden predefinido de los codones para ambas líneas de los 64 y los 64 se fusionaron columnas, que permite la construcción de una comparación codón de par contexto de ruta. Nosotros lo llamamos el codón un diferencial de par contexto mapa (DCM) y que corresponde al módulo de la diferencia entre los residuos de las células se superponen de los 64 × 64 contexto de mesa (Figura 8]. Un nuevo color de escala basada en la gradación de azul se usó para mostrar la diferencia. Utilizando esta metodología, el contexto codón diferencias para las tres especies de levadura se hizo evidente, lo que indica que el codón contexto - al igual que el codón de uso - es la especie (Figura 8]. En los tres DCMs se muestra en la Figura 8 hay características comunes, que son indicados por el negro células, pero las diferencias (azul) son claramente visibles. Como se esperaba desde la distancia filogenética de las diferentes especies estudiadas, la de los pares DCMs E. Coli - S. Cerevisiae y E. Coli - C. Albicans mostrar muchas más diferencias que la DCM para el par S. Cerevisiae - C. Albicans.

El DCMs muestran también que el codón de par contexto es más similar a la par S. Pombe - S. Cerevisiae (datos no presentados) que para los otros dos pares de la levadura, lo que indica que hay menos diferencias entre S. Pombe y S. Cerevisiae que entre C. Albicans y S. Cerevisiae. Esto es sorprendente, teniendo en cuenta que S. Divergen de S. pombe Cerevisiae 420 millones de años mientras que C. Albicans divergen de este último sólo 170 millones de años [29]. El efecto de la fuerte y no diagonal verde (codón repite) en el C. Albicans mapas también es visible en el DCMs (casillas azules) de la C. Albicans - S. Cerevisiae pares (Figura 8]. Con el fin de arrojar más luz sobre las diferencias en el codón contexto mapas de las tres levaduras, codón pares se ordenarán de acuerdo con el módulo de la diferencia entre residuos (Cuadro 3]. Sorprendentemente, sólo un par codón para las tres especies de levadura (CAA-CAA) está presente entre los 10 valores más altos que se clasificaron. Además, la diferencia entre estas tres especies no es sólo cualitativa, como se muestra arriba, pero también es cuantitativa. Por ejemplo, para el S. Pombe-S. Cerevisiae par, la mayor diferencia se encontró a la par CAG-CAG con un valor de 27798, mientras que en el S. Pombe-C. Albicans mapa de la CAA-CAA par mostraron una diferencia de valor de 100639. De hecho, en este último par de levadura DCM los 10 valores relacionados son más altos que el valor más alto (27798) falló a favor del CAG-CAG codon par en el S. Pombe - S. Cerevisiae mapa (Tabla 3]. Por lo tanto, en conjunto, DCMs Ranking de residuos y proporcionar visión única de la codón de par contexto diferencias, incluso en el caso de especies filogenéticamente relacionadas, tales como levaduras.

Contribución de la diagonal de la mutación codón contexto par -

Una característica importante del codón de par en el contexto mapa levaduras analizadas, pero no en E. Coli, es la presencia de una línea diagonal verde (Figuras 3 y 7]. La existencia de esta línea verde implica que en esas levaduras, la mayoría de los codones prefieren tener otro idéntico sobre sus codón 3 ', que indica un grado de la duplicación en tandem codón ORFeome la de las levaduras. Trinucleótidos repetidos son características de los genomas eucarióticos y que se han atribuido a la DNA polimerasa deslizamiento durante la replicación del genoma [30]. Si el codón duplicación observada en el ORFeome de las levaduras analizadas es una consecuencia de la replicación del ADN sólo, o también refleja una evolución limitación impuesta por el ARNm decodificación de la maquinaria en los ORFeomes, todavía no está claro y estamos investigando en la actualidad. En cualquier caso, esta línea diagonal en el codón contexto mapas de las levaduras es una característica fuerte, el más alto desde el codón de residuos pares (preferido pares) se producen para el codón repite tándem (Tabla 2].

Las anteriores observaciones nos llevó a investigar si el sesgo mutacional también desempeñaron un papel en el codón de par contexto sesgo, y si tal sesgo puede ser extraído del codón de par contexto mapas. Para ello, se prestó especial atención al contenido de GC, ya que desempeña un papel importante en el codón de uso [31]. Un algoritmo se implementó en Anaconda para el cálculo total% GC, GC% en el codón posición 1 (GC1), GC% en el codón posición 2 (GC2) y% GC posición en el codón 3 (GC3). Si bien la digitalización de una ORFeome, Anaconda ORFs divide en subgrupos GC-contenido y crea ORFs con grupos de alto y bajo contenido de GC. También determina la distribución de acuerdo a sus ORFs GC y GC3 total (Figura 9 bis, c]. Codón de par codón contexto mapas se pueden construir para cada subgrupo de los codones y mapas de la comparó con la herramienta de DCM (Figuras 9 ter, y 10 d].

Porque es mejor GC sesgo observado en el tercer codón posición como consecuencia de la degeneración del código genético, GC3 se utilizó para evaluar si el sesgo mutacional contribuido a la par de codón utilizando el contexto S. Cerevisiae y E. ORFeomes coli como prueba de principio. En el primer caso, la ORF de distribución varía de un mínimo de 11,9% a un máximo del 76,7%; sin embargo, la mayoría ORFs cayó dentro de un estrecho intervalo de entre 35-40% GC3 (Figura 9a]. En el caso de E. Coli, la ORF de distribución es más amplia, que van desde un mínimo de 20,0% a un máximo del 89,4%, pero la mayoría de ORFs tener un GC3 entre el 50% y el 60% (Figura 9c]. Esta distribución hace posible la construcción de codón de par contexto mapas de la baja y alta GC3 subgrupos GC3. Como estas diferencias entre baja y alta GC3 mapas contexto se espera para permitir la evaluación de la importancia del sesgo introducido por la deriva de mutaciones en el codón de par contexto mapas, estos mapas se superponen utilizando la herramienta de DCM. Al igual que antes, los mapas fueron construidos utilizando un único color (azul) ayuda a la visualización de las diferencias de contexto. Si mutacionales deriva no contribuyó a la parcialidad contexto, el codón de par contexto mapas de la GC3 subgrupos serían idénticos, la elaboración de un mapa de visualización diferencial negro. Esto se debe a que la diferencia de los módulos de los residuos sería cero para todas las celdas de la tabla de residuos.

El diferencial de mostrar el mapa de la baja y alta GC3 ORF subgrupos de S. Cerevisiae mostró varias diferencias, lo que indica que GC sesgo contribuye a la codón de par contexto. Sin embargo, la mayoría de estas diferencias corresponden a pequeñas desviaciones en la fuerza de la preferencia o rechazo de la codón de par contextos (Figura 9 ter y 10, véase también el cuadro 4]. En otras palabras, el valor residual tenido la misma señal positiva o negativa, en ambos casos, pero el valor fue superior en un subgrupo GC3 que la otra y viceversa. En algunos casos, una inversión de la señal de los residuos (por ejemplo, de positivo a negativo) fue detectado, lo que indica que el residual del codón de par fue positivo en un subgrupo GC3 y negativos en el otro subgrupo GC3 (luz azul en la Figura 9b]. Esta inversión de la señal ofrece una clara evidencia de la influencia de la GC contenido sesgo en el codón de par contexto. Se obtuvieron resultados similares para el E. ORFeome coli, sin embargo, un número mucho mayor de inversiones de la señal residual se observó en este caso, lo que indica que el contenido de GC es mucho más fuerte sesgo en el E. Coli que en S. Cerevisiae (Figuras 9 quinquies y 10, véase también el cuadro 4]. Las razones de estas diferencias y en cuanto a la contribución de sesgo mutacional a codón de par contexto sesgo aún no se puede comprender plenamente y en la actualidad está siendo investigada. Sin embargo, Anaconda ya proporciona una fuerte evidencia para una función de sesgo mutacional en el codón de par contexto.

Discusión

Codón contexto ha sido ampliamente estudiado en procariótico, eucariotas, el de la mitocondria y genomas virales, y estos estudios muestran de manera inequívoca que el codón de par contexto es parcial [9, 10, 32 - 35]. Sin embargo, ningún instrumento aún no ha sido desarrollado para mostrar el codón contexto de datos y, en particular, el codón de par contexto (contexto de corto alcance) de una manera que facilite la interpretación de los datos y permitir la inter o intra-genoma contexto comparaciones. Esto es esencial si putativo de las normas generales que rigen el codón de par contexto evolución se han de descifrar. Anaconda bioinformation El sistema se ha desarrollado para hacer frente a este problema. Mediante el uso de metodologías estadísticas basadas en tablas de contingencia y el análisis residual (ver Materiales y métodos), el codón de par específico contexto se dio a conocer las pautas y se muestra mediante un color codificado-ORFeome contexto de ruta. Los datos revelaron codón de par contexto parcialidad en levaduras y E. Coli y algunas normas que definen el codón de par en el contexto de los patrones de levadura.

Fuerzas que determinan el codón contexto par -

Estudios realizados en el 1980 s en E. Coli han demostrado que el codón de par contexto influye en la decodificación mRNA exactitud y eficiencia, lo que indica que la maquinaria traslacional impone importantes restricciones en el codón de par contexto [17, 36, 37]. Por ejemplo, en E. de hambre Coli células, la UCA y AAC asparagine codones son erróneamente como lisina en alta frecuencia [16]. La cuantificación del nivel de lisina misincorporation en los codones y la determinación de los efectos de la 3 'de nucleótidos contexto de la lisina misincorporation mostró que la UCA es el codón erróneamente hasta nueve veces más frecuentemente que la AAC codón, y que el 3' contexto de nucleótidos ( III-I contexto) influyó en el nivel de lectura errónea tanto como el doble [16]. Adicionales de los estudios realizados in vitro en E. Coli, también han demostrado que los ribosomas discriminar C-Phe UUC y terminó el CUC Leu codones menos que poner fin a la U-Phe UUU y CUU Leu, que muestran que los codones sinónimos difieren en traslacional exactitud [38]. Por lo tanto, el posible papel de codón de par contexto es la reducción al mínimo de decodificación de error, en particular en los codones que están mal discriminado por el ribosoma.

En E. Coli, excesivamente representados codón-pares se traducen más lentamente que menos representado codón de pares, lo que indica que el codón de par contexto también influye en la velocidad traslacional [14]. Esto sugiere que el codón de par contexto en el E. Coli se encuentra bajo fuerte selectivo de las limitaciones impuestas por la maquinaria de traducción. Si el contexto patrones ahora revelado en la levadura reflejan limitaciones similares selectivo sigue sin estar claro. No obstante, el codón de par contexto mapas describen aquí un buen punto de partida para abordar esta importante cuestión biológica in vivo en la levadura en una forma guiada. Pruebas adicionales para un papel de la selección en el codón de par contexto se destacó por el escaso, o incluso nulo, a la contribución de GC3 parcialidad en el contexto muy frecuentes o muy poco frecuentes codón-pares (fuerte contextos) en ambos S. Cerevisiae y E. Coli (Figura 9, Tabla 4] y por una serie de excepciones a las normas marco que definen el codón-subclusters de pares (Figura 6]. Por ejemplo, en el XXU-AYY rechazó subgrupo de los codones (Figura 6a], el codón pares UCA-AGC, UCA-AGU, UCA-UCA, UCA-AAC y el conjunto de AGC-AGU, AGU-AGU, AGU-UCA , AGU-ACA, AGU-AUA han residuos positivos, lo que indica que son pares codón preferido por la ORFeome. Similar excepciones se encuentran dentro de la subclusters de pares preferido codón muestra (Figura 6b, c]. Además, un análisis detallado del contexto general ORFeome mapa (Figura 5] muestra que el codón otros pares de violar la XXU-AYY normas, a saber GGU-AGO, GGU-AUC, GGU-AUU, GGU-CAC, GGU-ACU. Esto apoya la hipótesis de que los grupos de el contexto de ruta no se formó sobre la base de la particular dinucleotide combinaciones que pueden estar relacionados con la deriva de mutaciones del genoma. Esto se ve confirmado por la observación de que nuestro dinucleotide preferencia en la XXU-AYY, XXC-AYY y XXU-GYY codón pares no se observa cuando las diversas posiciones dentro de cada codón o codón de par se analizan. En otras palabras, en el codón par X 1 X 2 X 3 Y 1 Y 2 Y 3, el 3-X Y 1 preferencias no se observan para el dinucleotides X 1-X 2, X 2-X 3, Y 1 -- Y 2 y Y 2-Y 3 (datos no presentados).

A pesar de estos argumentos, ¿sesgo mutacional influencia codón de par contexto [7, 39 - 41]. Observado sesgo mutacional refleja eventos mutacionales que actúan de manera indiscriminada a todas las secuencias de ADN (codificación y no el ADN) y, en consecuencia, una de las propiedades del genoma y no el resultado de la selección actuando en el marco de ORFs [42 - 45]. Los datos que aquí se presenta está en línea con las observaciones. Por ejemplo, los mapas se muestra en el contexto de este estudio indican que el contexto de varios grupos se forman sobre la base dinucleotide contexto de las normas (artículo III-I), es decir, la XXU-AYY, XXC-AYY, XXU-GYY (Figura 6a-c ). Como dinucleotide contexto está relacionado con la reparación del ADN y la replicación de las limitaciones de esas agrupaciones reflejar sesgo mutacional [28]. Una característica importante que destaca la influencia de sesgo mutacional en el codón de par contexto es GC contenido, en particular GC3 contenido. GC contenido tiene una fuerte influencia en el codón de uso y en casos extremos incluso puede conducir ciertos codones de ORFeomes [46, 47]. Los datos presentados demuestran claramente que aquí GC3 afecta el codón de par contexto, sin embargo, este efecto es visible para todo el codón de pares que han débil residuos (Tabla 4, Figura 9]. Como fuerte residuos (ya sea positiva o negativa) proporcionan una medida indirecta de la fuerza de la asociación codón de par, es probable que para la extrema residuos GC3 sesgo sólo introduce ruido en el análisis de los residuos que, estadísticamente no significativa, cerca del intervalo (-3, 3), GC3 sesgo representa una importante contribución a la parcialidad contexto observado (Figura 9].

Además de los casos mencionados anteriormente, otras especies características específicas de genómica contribuirá también a codón de par contexto sesgo de relieve por Anaconda. Por ejemplo, la levadura codón de par contexto mapas muestran una característica de los genomas eucariotas que no está relacionada con la traducción del mRNA: trinucleótidos repetidos, que son evidentes en la línea diagonal en las figuras 3 y 7. Esto sugiere que hay un muy alto grado de repeticiones en tándem codón (trinucleótidos repetidos), que puedan surgir de sesgada la replicación del ADN (ADN polimerasa deslizamiento, ver [30]]. Si estos reiterados codón pares de mejorar la eficiencia de traducción del mRNA o precisión en la levadura queda por determinar experimentalmente. En la medida de lo que somos conscientes, no hay evidencia experimental que muestra el aumento de la eficiencia o precisión de descodificación en esos sitios.

Por último, las limitaciones impuestas por las secuencias de proteínas y ARNm estructura secundaria se cree que también influyen en el codón contexto [48, 49]. El contexto mapas parecen excluir la hipótesis anterior, porque el grupo no se forma como resultado de la selección o el rechazo de dos aminoácidos adyacentes. En cuanto a esta última limitación, la Anaconda algoritmo no fue diseñado para detectar mRNA estructuras secundarias y, en consecuencia, esta cuestión no puede abordarse en esta etapa.

Conclusiones

La Anaconda algoritmo fue desarrollado con el objetivo de estudiar el codón de par en un contexto ORFeome escala, definir las normas que rigen el codón de par contexto, llevan a cabo a gran escala entre el codón de par contexto comparaciones y clarificar el efecto de la selección y la deriva de mutaciones en el codón - Par contexto. Los resultados proporcionan nuevos puntos de vista importantes sobre el papel del codón de par contexto de mRNA decodificación exactitud y eficiencia, y esperamos que ello permita que el desarrollo de los genes de reportero en vivo e in vitro cuantificación de codón-decodificación de error y la velocidad traslacional. Por último, Anaconda será una herramienta valiosa para rediseñar ORFs para una eficiente y precisa homóloga o heteróloga, en la expresión de la proteína de levadura y, eventualmente, en otros sistemas adecuados de acogida.

Materiales y métodos
Estadísticas

Para estudiar la asociación entre pares contiguos codón-, la codificación de las secuencias analizadas por Anaconda se procesan en un 64 × 64 en la tabla de contingencia subdivide categorías mutuamente excluyentes. Si el 3 'contexto es que se está analizando, las filas de la tabla corresponden a los codones en el sitio P-y las columnas a los codones en la A-sitio de los ribosomas. Al 5 'contexto de análisis de la situación es la inversa, y así construyó la tabla de contingencia es una transposición de la versión de uno para 3' de análisis.

Varios matemáticos de diferentes metodologías ya han sido utilizados para estudiar el codón contexto parcialidad (por ejemplo [9, 50 - 52]]. En este estudio, el análisis de tablas de contingencia y residuos (Figura 3] se consideró apropiado, multinomial asumiendo un modelo probabilístico para la tabla de contingencia (una discusión detallada de este modelo en el contexto de la información genómica puede encontrarse en [53]]. En general, todos estos métodos se basan en z-score de tipo pruebas y dar información sobre la preferencia y el rechazo. En el fondo, los métodos difieren en el modelo probabilístico asumido, lo que las estadísticas cuya distribución de probabilidad es en la mayoría de los casos desconocidos. La ventaja de la metodología propuesta en este caso es que su teoría de la inferencia es bien conocido, con un rendimiento de un análisis que es más secuencial, más fácilmente interpretables y con más herramientas complementarias para el análisis (por ejemplo, medidas de asociación). En otras palabras, esta metodología ha sido elegido por el ajustado el valor residual dar información directa acerca de la preferencia y el rechazo en relación a lo que cabría esperar al azar. Además, la distribución de probabilidad bajo la hipótesis de la independencia de datos se determina sin simulaciones.

Para el análisis de tablas de contingencia y residuos [22 - 25], dado un r × c tabla de contingencia cuando una distribución multinomial se supone (Cuadro 5], la hipótesis de independencia entre las variables AyB se prueba utilizando el estadístico de Pearson dada por:

Donde:

Se sabe que Pearson tiene un asymptotical estadística de chi-cuadrado con distribución de probabilidad (r - 1) (c - 1) grados de libertad. Para identificar las celdas de la tabla responsable de la eventual rechazo de la independencia, los residuos ajustados d ij se calculan por:

Donde:

Es la diferencia estimada para r ij. Haberman [54] ha demostrado que, en virtud de la independencia entre A y B, la ajustada residuos d ij tienen una distribución de probabilidad normal, y, por tanto, P (- 3 <d ij <3) ≈ 0,9973, como N → + ∞. Esto significa que, para un 99,73% de nivel de confianza, el par (A i, j B) es considerado responsable de rechazo de la hipótesis de la independencia si | d ij | ≥ 3. En la práctica, consideramos que una ajustada residual es estadísticamente significativa si su valor absoluto es mayor que 3.

Además, el codón de encontrar patrones en el contexto tabla de contingencia, las líneas y las columnas se pueden agrupar utilizando la clasificación de metodologías tales como análisis de agrupamiento. Estos patrones son determinados por el cálculo de las similitudes entre dos vectores de la tabla de contingencia utilizando el coeficiente de correlación de Pearson centrado en la aplicación y la única vinculación. El único método de vinculación con grupos produce "efecto cadena", es decir, cualquier elemento de un grupo es más' parecidas' a un elemento del mismo grupo que a cualquier elemento de otro grupo.

Software

La arquitectura de software de la Anaconda se basa en tres módulos principales, a saber, la adquisición de datos, procesamiento y visualización (Figura 1]. Cada módulo funciona independientemente de las demás y puede ser fácilmente reemplazado o actualizado. Además, este enfoque basado en componentes permite la inserción de nuevos módulos o nuevas herramientas en cada módulo, tales como las nuevas características de estadística.

La adquisición y el procesamiento de los módulos de descarga fila de datos del genoma de las bases de datos, crear una base de datos local de ORFs utilizables y analizar los datos utilizando un algoritmo que simula el ribosoma durante la decodificación ARNm. Por último, construye una base de datos con los datos procesados. Estos datos se somete a análisis estadístico, tal como se describe más arriba. El módulo de visualización permite al usuario visualizar los datos de las matrices y las secuencias de genes y crear filtros que permitan la búsqueda de patrones específicos de secuencia definida por el usuario.

El módulo de adquisición de datos del genoma trata de los archivos de entrada, a saber, la lectura y la interpretación de las secuencias FASTA total o parcial de conjuntos de ORFs público o privado de bases de datos del genoma. Para garantizar que la selección de secuencias tienen la mejor calidad posible, y por lo tanto no introducir el ruido de fondo en el siguiente análisis, varios filtros de calidad se aplican al proceso de lectura. Cuando los filtros se activan los datos se clasifican de acuerdo con los siguientes criterios. Valida datos constará de los genes cuya secuencia es un múltiplo de tres, que comienzan con un codón AUG y con una parada UAG, UAA o codón UGA, y que cumplan otros requisitos definidos por el usuario. Rechazada datos constará de los genes cuya secuencia no cumpla con los requisitos mencionados. El resultado es la separación de la validez de ORFs rechazado. Otros parámetros que necesita la aplicación, como la referencia relativa codón sinónimo de uso (RSCU) valores para codón adaptación índice de cálculo (CAI) [55], también son subidos por este módulo.

El módulo de procesamiento es el núcleo de la solicitud, cuando el codón contexto se realiza el análisis. Prescanning Después de los archivos, el usuario puede probar la existencia de importantes sesgos en el codón contexto y utilizar el valor residual de seguir estudiando las matrices de los valores residuales (véase Estadística, supra). Los datos generados se convierte en una tabla de contingencia que incluye los correspondientes valores observados de las estadísticas de Pearson, y la matriz de residuos ajustado [25].

Después de la transformación, la que se dispone de datos al módulo de visualización. Este módulo es la interfaz gráfica. De ello se desprende el gestor de ficheros paradigma en el que la información se presenta en el jerárquica opiniones. Este módulo ofrece un conjunto de herramientas que permiten desarrollar varias tareas que se llevarán a cabo, a saber, la secuencia de los patrones de búsqueda preespecificados, de visualizar los datos en forma de histograma, el grupo codón contexto a los datos, a la exportación y el valor residual. También es posible visualizar otro tipo de información en el nivel de genes, como los codones raros y su distribución en el ORFs, para determinar su proporción en relación con el número total de codones, para determinar la GC% en la primera, segunda y tercera posiciones de codón Y determinar el índice de adaptación codón (CAI) y el número efectivo de los codones [55, 56].

Agradecimientos

Damos las gracias a FCT (Proyecto: POCTI/BME/39030/2001), y la IEETA II-UA (CTS-12) para apoyar el desarrollo de software de la Anaconda. GM está financiado por FCT subvención SFRH/BPD/7195/2001 y diputado por INFOGENMED (FP-V). MS con el apoyo de un Premio EMBO YIP.