BMC Bioinformatics, 2005; 6: 96-96 (más artículos en esta revista)

PREP-Mt: predictivo RNA editor de la planta genes mitocondriales

BioMed Central
Jeffrey P cortacésped (jpmower@indiana.edu) [1]
[1] Department of Biology, Indiana University, Bloomington, IN, 47405, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

En las plantas, la edición de ARN es un proceso que convierte a uridines específicas cytidines y uridines a cytidines en transcripciones de prácticamente todas las proteínas mitocondriales de codificación de los genes-. Hay miles de genes de plantas mitocondrial en la secuencia de bases de datos, pero los sitios de ARN de edición no se han determinado para la mayoría. Precisa de los métodos de edición de ARN sitio predicción será importante para rellenar este vacío de información y puede reducir o incluso eliminar la necesidad de la determinación experimental de la edición de sitios para muchas secuencias. Debido a la edición de ARN proteína tiende a aumentar a través de la conservación de especies por "corregir" los codones que especifican unconserved aminoácidos, este principio puede ser usado para predecir la edición de sitios por definir las posiciones en que un evento de edición de ARN aumentaría la conservación de una proteína a homólogos de otros Plantas. PREP-Mt toma este criterio para predecir la edición de los sitios para cualquier gen de codificación de la proteína de la mitocondria en la planta.

Resultados

Para poner a prueba la aplicabilidad general del PREP-Mt metodología, el RNA se prevé la edición de los sitios de 370 de longitud completa o casi completa de las secuencias de ADN de longitud y, a continuación, en comparación con los sitios conocidos de la edición de ARN para estas secuencias. De 60263 cytidines en esta prueba, PREP-58994 Mt correctamente clasificados como editado o bien un sitio sin editar (exactitud = 97,9%). PREP-3038 Mt debidamente identificados de los 3698 sitios conocidos de la edición de ARN (sensibilidad = 82,2%) y 55956 de los 56565 sitios conocidos sin editar (especificidad = 98,9%). Precisión y sensibilidad aumentó a 98,7% y 94,7%, respectivamente, después de la exclusión de 489 sitios de la edición de silencio (que no tienen ningún efecto en la secuencia de proteínas o de la función) de la prueba.

Conclusión

Estos resultados indican que el PREP-Mt es eficaz en la identificación de C U sitios en la edición del ARN mitocondrial planta de los genes codificantes de proteínas. Así, PREP-Mt debería ser útil en la predicción de secuencias de proteínas para su uso en moleculares, bioquímicos, y los análisis filogenéticos. Además, PREP-Mt podría utilizarse para determinar la funcionalidad de un gen mitocondrial o particular para identificar las secuencias con la edición de las propiedades inusuales. El PREP-Mt metodología debe ser aplicable a cualquier sistema en el que la edición del ARN en proteínas aumenta la conservación a través de las especies.

Antecedentes

Edición de ARN es un tipo de procesamiento de ARN (como polyadenylation, intrón empalme, y 5 'de fin fijación de un techo) que inserta, suprime o modifica los nucleótidos en una transcripción de ARN, con lo que el cambio de información codificadas por el genoma. Trypanosome descubrió por primera vez en la mitocondria [1], la edición de ARN desde entonces se ha observado en una serie de eucariotas, incluidas limo moldes, amoeboid protozoos, plantas, animales y hongos, y también en los virus [2, 3]. En las plantas, la edición del ARN convierte cytidines a uridines y uridines a cytidines en la mitocondria y el plastidio, pero no nucleares, transcripciones. La frecuencia y el tipo de conversión en cada orgánulo linaje es muy específicos [4 - 7]. En las angiospermas, por ejemplo, aproximadamente 400 sitios de edición (a todos C U) se han encontrado en el 30 al 40 de la codificación de la proteína mitocondrial de los genes [8 - 10], pero sólo alrededor de 30 C U sitios fueron vistos a través de más de 100 genes plastidio [11 - 13]. En cambio, ambos tipos de conversión se encuentran con alta abundancia en la mitocondria y el plastidio transcripciones de helechos y antoceros [4 - 6, 14, 15].

En todos los linajes de plantas, la mayoría de las veces la edición de ARN altera la secuencia de aminoácidos de las proteínas codificadas por los genes de codificación, pero de vez en cuando puede empezar a generar nuevos codones, crear o eliminar los codones de parada, en silencio o hacer cambios que no afecten a la secuencia de la proteína. ARN de edición también se ha observado en el tRNA genes, las regiones no traducidas, y intrones [2], si bien la frecuencia de la edición de estas regiones parece ser mucho menor. Una de las características observadas inmediatamente después del descubrimiento de la edición del ARN en las plantas es que las transcripciones editadas codifican para las proteínas que son más las especies que se conserva a través de las proteínas de ADN genómico predicho [16 - 18]. De hecho, esta tendencia a que el codón "corrección" fue una de las pistas que condujeron al descubrimiento de la edición de ARN, ya que las proteínas vegetales previsto desde principios de secuencias de ADN mitocondrial que figura bioquímicamente distintos aminoácidos en las posiciones que sean conservados en todo eucariotas [16 -- 18]. Estas primeras observaciones se han confirmado en varias ocasiones en casi todos los estudios posteriores de la edición en las plantas, con las excepciones más notables se producen en pseudogenes [19 - 21], que presumiblemente no tienen limitaciones en sus selectiva de edición de sitios web.

Debido a los cambios inducidos por la edición de ARN, la proteína codificada por secuencias mitocondriales madura transcripciones son a menudo muy diferentes de lo que es codificada por el ADN genómico. Con el fin de analizar correctamente las secuencias en planta mitocondrial filogenética, molecular, bioquímica o estudios, la edición de ARN información debe ser conocida. Experimental determinación, a través de una comparación directa de la transcripción de secuencias de ARN y ADN genómico de secuencias, es el estándar de facto para la identificación de sitios de la edición de ARN. Dado que estos análisis experimentales lleva tiempo y cuesta dinero, sin embargo, dos enfoques generales se han utilizado para predecir los lugares de la edición de ARN. La primera se basa en la posibilidad de que la secuencia de un contexto editado sitio contiene información de las señales de que la edición de la maquinaria o los factores asociados especificidad. En efecto, el análisis experimental de los alrededores contexto indican que la secuencia de nucleótidos aguas arriba y aguas abajo son importantes en la especificación de la edición de sitios [22, 23]. Además, más del 90% de la edición de los sitios tienen una pirimidina en el nucleótido adyacente aguas arriba [8, 24]. Lamentablemente, los intentos de identificar los motivos más allá de este consenso un importante nucleótidos han tenido poco éxito [8, 24, 25]. El segundo enfoque predictivo explota la tendencia de la edición del ARN en proteínas para aumentar la conservación a través de diferentes taxones. Debido a esta "corregir" la naturaleza de la edición de ARN, es posible escanear un alineamiento de secuencias de proteínas para unconserved aminoácidos. Muy a menudo, cuando estos unconserved aminoácidos tienen el potencial de ser corregidos por la edición de ARN, que se editó en realidad. Este enfoque ha demostrado ser muy exitoso en la predicción de los sitios de la edición de ARN de varios genes [6, 25, 26], y también se ha utilizado para inferir la ausencia de ARN en la edición de todo el genoma mitocondrial de Marchantia polymorpha, un complejo thalloid Hepáticas, y las algas verdes Chara vulgaris y Chaetosphaeridium globosum [27 - 29]. Limitada evidencia experimental hasta la fecha ha corroborado la falta de la edición en estos linajes [4 - 6, 30].

Con el fin de probar la generalidad de la segunda enfoque predictivo para cualquier planta de codificación de proteína mitocondrial-gen, el PREP-Mt programa fue diseñado para predecir la edición de sitios web usando comparación de secuencias de proteínas y de la naturaleza de la corrección de la edición de ARN. Debido a que los resultados de las pruebas indican que el PREP-Mt es a la vez rápida y precisa, una herramienta en línea fue desarrollado también [31]. Este recurso debe ser útil ahora desde la edición de los sitios se han determinado experimentalmente para sólo un pequeño porcentaje de genes mitocondriales de plantas disponibles en la secuencia de bases de datos, y será cada vez más útil a medida que más genomas mitocondrial secuenciado obtener en el futuro próximo. PREP-Mt también puede ser eficaz en la discriminación entre los genes y pseudogenes funcional, así como en la aclaración de los mecanismos de la edición del ARN al exponer ejemplos de genes que no se ajustan a las pautas de la edición normal de la planta en la mitocondria.

Aplicación
Construcción de la Base de Datos de Secuencias Alineados

395 de longitud completa o casi completa de la planta mitocondrial longitud de la codificación de los genes de proteínas, ARN de edición para que los sitios se han determinado experimentalmente o de los organismos (Marchantia, Chara, y Chaetosphaeridium) deducido a la falta de ARN capacidad de edición, se obtuvieron de Genbank. Secuencias de genes se extrajeron de cada archivo y, a continuación, editado según Genbank anotaciones o fuentes de la literatura. La editado secuencias de genes se traducen en proteínas de acuerdo a la norma de código genético. Proteínas homólogas fueron alineados usando ClustalW versión 1,81 [32] y ajustar manualmente cuando sea necesario. La Base de datos de secuencias Alineados (ASD), que consiste en estos alineamientos de secuencias de proteínas (ver archivos adicionales 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17 , 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42 De alineaciones).

En algunos casos, el lugar de edición de anotaciones en el Genbank archivos se asociaron con nucleótidos que no eran una citidina. Estas anotaciones incorrectas suelen ser el resultado de errores humanos y evidentes fueron corregidos por refiriéndose a la literatura las fuentes antes de su inclusión en la base de datos. Además, nueve secuencias de Marchantia (atp4, atp8, ccmFc-A, ccmFc-B, ccmFn, rpl2, rps1, rps3, rps4), ocho de Chara (atp4, atp8, ccmF, rpl2, rpl5, rps1, rps3, rps4 ), Y siete de Chaetosphaeridium (atp4, atp8, rpl2, rpl5, rps1, rps3, rps4) alineado mal a los demás ASD secuencias. Debido a que el PREP-Mt programa se basa en la precisión para determinar las alineaciones de edición de sitios RNA, estas divergencias no se incluyeron proteínas. Por la misma razón, no homóloga 5 'y 3' extensiones mitocondrial presente en algunas proteínas (por ejemplo, atp6 y rps2) fueron recortados de las alineaciones. Después de la eliminación de las diferencias en las secuencias, 371 secuencias permaneció en la final alineaciones, que se extiende de los 42 conocidos de codificación de los genes de las proteínas presentes en la tierra de varias plantas mitocondria [33]. Hay secuencias de 8,8 en cada alineación, en promedio, con los números reales, que van del 22 secuencias para nad3 a una única secuencia Marchantia para rps8.

Algoritmo para la edición de ARN sitio predicción

En vista de la codificación de una proteína y de su secuencia de ADN de genes de identidad, PREP-Mt predice sitios de la U de C ARN de edición [31]. La secuencia de entrada se convierten con el estándar de código genético y, a continuación, se suman a la alineación con ASD homóloga ClustalW utilizando los parámetros por defecto y la opción quicktree. Luego, para cada columna en la alineación de la proteína, el codón correspondiente de la entrada de la secuencia del ADN es examinada para determinar si es posible la edición. Si el codón contiene uno o más cytidines, entonces el conjunto de todos los posibles estados editado y sin editar para que se determina el codón. Por ejemplo, si la entrada de la secuencia de ADN que figuran codón "CCG", entonces el conjunto de estados posibles en la transcripción de ARN sería "CCG" (no editado), "UCG" (editado en la primera posición), " CUG "(editado en segunda posición), y" UUG "(editado en primera y segunda posición). Los aminoácidos, i, codificada por cada uno de los posibles estados codón se compara con la de aminoácidos, j, de todas las N secuencias de la base de datos. La puntuación correspondiente a cada estado, S i, se define por la ecuación

Donde el partido parámetro, M ij, está determinada por

Así, la puntuación de cada una de las posibles estado es un valor que oscila entre 0 y 1 y no es más que el porcentaje de coincidencias con los aminoácidos de la TEA para que las secuencias de la columna. El estado con la puntuación más alta se reporta como predijo el estado. En caso de empate, el estado que requiere el menor número de ediciones es elegida como predijo el estado, ya que la gran mayoría de los cytidines mitocondrial de los genes en las plantas de hecho no se editó. Sobre la base de esta regla, la edición de sitios en silencio siempre están desfavorecidos, ya que, por definición, no afectan a los aminoácidos codificados y, por lo tanto, siempre empate en un estado que había un menor número de la edición de sitios web. Si se produce un empate entre los estados que requieren igual número de ediciones, el estado que se editó en la segunda posición de codón es elegida como predijo el estado, ya que aproximadamente el 50% de todos los sitios en la edición de las plantas se producen en la segunda posición [8, 24 ]. Un ejemplo del sistema de puntuación se presenta en la figura 1.

Como un requisito adicional, un valor de corte, C, se puede ejecutar. Si un valor de corte se especifica, S i editado para un estado debe ser superior o igual al C, a fin de ser informado de que el estado predicho. Así, PREP-Mt que predicen un estado sin editar para un codón si S i editado para el estado es de menos de C, incluso si el Estado ha editado un mayor S i que el estado sin editar. C debe ser un valor que va de 0 a 1.

PREP-Mt rendimiento de los análisis

Para evaluar el desempeño predictivo de PREP-Mt, en cada secuencia de la TEA se utilizó como un caso de prueba. En primer lugar, la secuencia de la proteína del caso de prueba fue retirado de la TEA para que no se someten a la prueba en sí. Entonces, la proteína de longitud completa de la región de codificación para la prueba caso fue recogido de su archivo de Genbank y sin editar esta secuencia de ADN se utilizan como insumos en PREP-Mt. Sitios de la edición de ARN predicha por PREP-Mt, como se anotó, ya sea correcto (TP, verdadero positivo) o incorrecta (FP, falsos positivos) que se basa en la comparación a la conocida editado sitios. Del mismo modo, prevé que los sitios permanecen sin editar, tal como se anotó, ya sea correcto (TN, verdadero negativo) o incorrecto (FN, falsos negativos) después de la conocida comparación a los sitios sin editar. Este proceso se repitió para cada secuencia en el TEA, con la excepción de la única rps8 secuencia que no pudo ser probado porque no había otros rps8 secuencias de prueba en contra. Utilizando la clasificación anterior, varias medidas estadísticas de rendimiento predictivo se calcularon:

Debido a que el número de sitios conocidos editado es proporcionalmente mucho menor que el número de sitios conocidos sin editar, la precisión fue de valor depende en gran medida de la especificidad de valor. Para determinar la exactitud esperada si el número de conocidos editado y sin editar sitios fueron en la igualdad de proporción, el equilibrio en la precisión estadística y también se calculó con la fórmula

Por último, para evaluar el efecto de la corte sobre el valor predictivo de rendimiento de PREP-Mt, el análisis del rendimiento descritos anteriormente se vuelva a realizar la C con valores que van desde 0,1 a 1,0 en todos los incrementos de 0,1.

Resultados
Clasificación de los sitios conocidos de edición

Hay 60263 cytidines presente en la prueba 370 de la codificación de secuencias de proteínas (la única rps8 gen no puede ser probado porque no había rps8 homólogos a prueba en contra). De secuencias de los genomas mitocondrial completo de Marchantia, Chara, y Chaetosphaeridium, capacidad de edición de ARN se supone que estará ausente, según lo indicado por los análisis predictivos y experimentales [4 - 6, 27 - 30]. Para el resto de las secuencias, la edición de los sitios de ARN se había determinado experimentalmente y se notificaron en el Genbank archivos y / o de la literatura. Sobre la base de estas fuentes, 3698 (6,1%), de la cytidines fueron clasificados como sitios conocidos de la edición de ARN, mientras que los restantes 56565 (93,9%) fueron clasificados como sabe sin editar cytidines.

PREP-Mt rendimiento de los análisis

PREP-Mt se utilizó para predecir la edición de los 370 sitios en las secuencias de prueba. PREP-Mt predicción del rendimiento se mide por la comparación de la situación de cada predijo citidina a conocer su estado (Cuadros 1 y 2]. De los 3698 sitios conocidos editado, PREP-Mt correctamente identificados 3038 (TP) como sitios editados y predicho incorrectamente 660 (FN) como sin editar sitios (sensibilidad = 82,2%). PREP-Mt también correctamente identificados 55956 (TN) de los 56565 sitios conocidos sin editar, mientras que la predicción de mal 609 (FP) a ser editado (especificidad = 98,9%). En total, PREP-58994 Mt correctamente clasificados de la 60263 cytidines en secuencias como la prueba o bien un editadas o no editadas posición (97,9% = exactitud, la precisión equilibrada = 90,5%). De los 660 falsos negativos, 489 ocurrieron en la primera o tercera codón posiciones que no cambiar el aminoácido codificado por el codón. Excluyendo estos silencio edición posiciones, que no tienen ningún efecto en la secuencia de proteínas o de la función, la sensibilidad aumentó a 94,7%, la precisión aumentó a 98,7%, el aumento de la precisión y equilibrada a 96,8%. La especificidad no fue afectado por el silencio sitio de ajuste. La velocidad de predicción también fue muy rápido. Para cada una de las 370 secuencias de prueba, la edición de predicción tuvo lugar menos de un segundo en un Pentium IV 3,2 GHz ordenador que funciona con Linux RedHat 9 con 1 GB de RAM (datos no presentados).

Para evaluar el desempeño predictivo de PREP-Mt con más detalle, los resultados de rendimiento fueron subdivididos por gen (Tabla 1] y por género (Cuadro 2]. Después de hacerlo, se puso de manifiesto que sigue siendo muy alta especificidad para todos los tratamientos, nunca caiga por debajo de 95% para cualquier gen o de género. Precisión también fue consistentemente alta, con un solo caso inferior al 90%. En contraste, la sensibilidad depende de la genética o de género analizadas. En particular, varios genes (sdh3, sdh4, atp8, rpl2, rps1, rps3, y rps19) y géneros (Gymnocladus, Nicotiana, Oxalis, Podophyllum, y Secale) exhibieron baja sensibilidad resultados. En algunos casos, los pobres resultados de sensibilidad se debe al hecho de que una gran parte de los sitios conocidos se editó en silencio posiciones y, por tanto, no puede ser predicho por PREP-Mt. Cálculo de la sensibilidad después de excluir los sitios editados en silencio ayudó a aliviar muchos de estos bajos resultados, y, en general, aumentó la sensibilidad de la mayoría de las puntuaciones de los genes y géneros. Además, la baja sensibilidad puede ser el resultado del pequeño tamaño de las muestras encontradas en la mayoría de los ejemplos bajo rendimiento, si por casualidad el pequeño conjunto de los genes o géneros muestra no se ajuste a las pautas de la edición normal de los genes de plantas mitocondrial. En este sentido, es interesante observar que la edición de los datos para Gymnocladus, Oxalis, y Podophyllum vinieron de sdh3 y sdh4. Es posible que la baja sensibilidad para ver Gymnocladus, Oxalis, y Podophyllum fueron el resultado de la toma de muestras de estos genes bajo rendimiento, o, por el contrario, que los bajos resultados de sdh3 y sdh4 se deben a la inclusión de estos géneros bajo rendimiento.

PREP-Mt predictivo de rendimiento también se vio afectada por la inclusión de secuencias con inusualmente pobres resultados predictivos. 172 de los 609 falsos positivos se han encontrado en los genes de los tres organismos (Marchantia, Chara, y Chaetosphaeridium) supone que carecen de la capacidad para editar sus transcripciones (Tabla 2]. El número de falsos positivos a través de estos tres genomas fueron similares a los de los cuatro genomas completos (Arabidopsis, Beta, Brassica, y Oryza) que hacer editar sus transcripciones, que es más probable reflexiva de una tasa subyacente de falso positivo de predicción por PREP - Mt. Sin embargo, si la hipótesis de que Marchantia, Chara, y la falta de ARN Chaetosphaeridium edición no es correcta, entonces algunos de estos sitios falsos positivos pueden ser verdaderos lugares de la edición. Más análisis experimental que se necesita para comprobar que la edición de ARN no se da en estas tres especies. Otra gran parte de los falsos positivos vinieron de distintas secuencias que demostró predictivo pobres resultados (Tabla 3]. De los 58 sitios predijo edición del 12 ejemplos, 54 fueron falsos positivos. En promedio, los falsos positivos recibidos moderada a muy alta predictivo resultados, por lo que es poco probable que estos ejemplos son una colección de secuencias que tienen un gran número de falsas predicciones por casualidad. Estos ejemplos pueden ser simplemente el resultado del análisis experimental incompletos, errores de anotación, o pseudogenization. Más interesante, que puede representar una pequeña clase funcional de las secuencias mitocondriales que exhiben propiedades inusuales para la edición aún por razones.

Efecto de la puntuación de corte en la edición de predicción de sitio

El análisis predictivo presentadas anteriormente no impone un valor de corte (es decir, C = 0). Para determinar el efecto de la imposición de un mínimo valor de corte en la edición sitio predicción, el análisis predictivo se reevalúa C usando valores que van desde 0,1 a 1,0 (Fig. 2]. Como era de esperar, el aumento del valor de corte llevado a una disminución del número de falsos positivos y un aumento en el número de falsos negativos. Hasta C = 0,6, se trataba de un comercio equilibrado-off, porque el número de falsos positivos que se redujo fue aproximadamente igual al aumento del número de falsos negativos. Como C se incrementó de 0,6 a 1,0, sin embargo, falsos negativos acumulados mucho más rápido que la disminución de los falsos positivos. En consecuencia, la precisión de la predicción se mantuvo más o menos constante, ya que el valor de C se aumentó a 0,6, pero luego se redujo drásticamente a los nuevos aumentos de C. Debido a la especificidad está inversamente relacionado con el número de falsos positivos (y no se ve afectada por el número de falsos negativos), la especificidad y falsos positivos curvas también son inversamente relacionados. Asimismo, la sensibilidad y falsos negativos curvas son inversamente proporcionales a una de la otra.

Discusión
PREP-Mt análisis de desempeño

El PREP-Mt programa es muy exacta, correcta clasificación de 98% de todos los cytidines como ya sea un sitio sin editar o editado de 370 secuencias que abarca 41 diferentes genes funcionalmente diversos géneros y 44. PREP-Mt es también muy específicas y muy sensibles (al menos no en silencio para la edición de sitios), de identificar correctamente el 99% de los sitios conocidos sin editar y el 95% de los sitios conocidos que editó el cambio de aminoácidos codificados por un codón. Debido a que estos resultados son consistentes para casi todos los genes y géneros, el PREP-Mt metodología parece ser de aplicación general para la planta de proteína mitocondrial de los genes de codificación. Además, las predicciones se hacen extremadamente rápido, lo que hace que este programa adecuado como un recurso en línea. La velocidad de PREP-Mt se debe principalmente a los hechos que la TEA se prealigned homólogos, el número de secuencias en cada alineación es baja, y los genes mitocondriales son menos de 1000 nucleótidos de longitud en promedio.

La alta especificidad de PREP-Mt no es sorprendente, debido a que la metodología se aprovecha de la extraordinaria conservación (con raras excepciones) de la planta de secuencias mitocondriales, que tienen el más bajo conocido de las tasas de sustitución de cualquier organismo, [[34, 35], pero ver ref . [36]], y la serie limitada de aminoácidos posiblemente producido después de la edición del ARN de un codón, que es normalmente sólo una de cada 20. Por lo tanto, es muy poco probable que una columna en una proteína alineación conduzca a una falsa predicción por casualidad. Sin embargo, en las regiones mal conservados de una proteína alineación, una o dos secuencias en la ASD puede por tener la oportunidad específica de aminoácidos codificados editado por el estado de una secuencia de entrada codón. A modo de ejemplo, los primeros análisis de PREP-Mt rendimiento no recortar la no-homóloga 5 'y 3' se encuentran en varias extensiones de las proteínas mitocondriales. Debido a esto, numerosos sitios de la edición de ARN incorrectamente se deduce de estas regiones. Curiosamente, el número real de la verdadera edición de los sitios en esas mismas regiones es extremadamente bajo, con menos de un sitio observó, en promedio, en extensiones que pueden extenderse hasta 1000 nucleótidos de longitud. Por lo tanto, estas extensiones homóloga no puede ser removido de la ASD casi sin consecuencias negativas.

Precisión también es elevado y, que se debe a la fuerte influencia de la especificidad de la exactitud Resultado. Precisión es una medida de rendimiento global, que combina la predicción de resultados a título individual de los sitios conocidos sin editar (medida por la especificidad) y de la conocida editado sitios (medido por la sensibilidad). Sin embargo, dado que el número de sitios conocidos sin editar supera ampliamente el número de sitios conocidos editado independientemente de los genes o de género examinados, PREP-Mt en la capacidad para identificar los sitios conocidos sin editar es más ponderado en la exactitud Resultado. Para tener una medida objetiva de los resultados globales, la sensibilidad y especificidad se puede promedio. Esta precisión equilibrada valor representa el (biológicamente poco realista) escenario en el que el número de conocidos y editado y sin editar los sitios son iguales. Desde la especificidad es relativamente constante a través de todos los tratamientos, la precisión estadística equilibrada correlaciona fuertemente con la mayoría de las fluctuaciones de la sensibilidad.

PREP-Mt es también muy sensible en la identificación de la edición de sitios conocidos que cambiar la codificación de aminoácidos, encontrando el 95% de estos no silenciosa de edición de sitios web. Algunas de las perdidas no silencio de edición de sitios es probable linaje específicos de las ganancias de la edición de ARN que no se predijo ya que el linaje es insuficientemente representadas en el TEA. Otros son, probablemente, debido a errores en los datos que define el conocido editado y sin editar sitios (ver más abajo). El análisis de sensibilidad muestra que la principal limitación del PREP-Mt metodología es su incapacidad de identificar la edición de sitios en silencio. Actualmente, el empate de romper las reglas utilizadas por PREP-Mt siempre seleccione el codón estado que requiere el menor número de modificaciones. Desde cualquier codón con las posibilidades de edición de silencio produce el mismo aminoácido, independientemente de la edición de la condición, las puntuaciones de los estados editado y sin editar será idéntico y el empate de romper la regla siempre sin editar, seleccionar el estado. Sería posible cambiar de romper este lazo norma, de manera que el estado con el mayor número de ediciones es preferentemente elegido, pero el hacerlo daría lugar a un gran número de falsos positivos en estas posibilidades de edición de sitios en silencio, ya que la gran mayoría de estos Sitios no están editados en realidad. Alineación de las secuencias de ADN en lugar de proteínas ayudará a identificar algunos de estos sitios de la edición de silencio, pero las posibilidades de identificación de falsos positivos es mucho mayor y desde aquí sólo hay cuatro nucleótidos en el ADN en lugar de 20 aminoácidos en las proteínas. Determinación de la secuencia de motivos que inequívocamente especificar una citidina como lugar de la edición también ayudaría a predecir estos sitios problemáticos. Sin embargo, incluso si tales motivos existen y son descubiertos, en silencio edición de sitios puede siguen siendo difíciles de predecir. Silent edición de los sitios a menudo se encuentran sólo ocasionalmente editado en los estudios experimentales, lo que sugiere que el putativo motivos son más débilmente conservado durante muchos sitios de la edición de silencio.

A diferencia del problema de silencio edición sitio predicción, que se debe a una real limitación de la metodología, PREP-Mt predictivo rendimiento es también negativamente afectados por los errores en los datos utilizados para definir la conocida editado y sin editar sitios, lo que provoca que algunos sitios de predicciones correctas Que se incorrectamente clasificada como falsos positivos o falsos negativos. En la determinación experimental de la edición de sitios de ARN, varios tipos de errores se producen. En algunos casos, editado sitios no son detectados, ya sea porque es un sitio sólo de vez en cuando editó incompleta o porque son transcripciones editadas preferentemente durante PCR amplificado. Así, prevé la edición de algunos sitios puede, de hecho, ser verdad edición de sitios, pero ya que no se detectaron en el análisis experimental, son identificados como falsos positivos. En otros casos, los errores introducidos durante la transcripción reversa o secuenciación conducir a la identificación de la U de C que no son cambios reales de la edición de sitios web. La inclusión de estos errores en el conocido juego de la edición de sitios causas predijo sin editar sitios que se incorrectamente identificados como falsos negativos. Otros ruido en la conocida edición de datos viene del hecho de que el Genbank anotaciones están sujetos a errores humanos. Numerosos ejemplos de los errores de anotación fueron encontradas al Alineados Secuencia de la construcción de la base de datos. La mayoría eran fácilmente corregido, ya que implicaba un nucleótido que no era una citidina. Mientras que tres casos fueron conocidos sitios de la U de C rara edición de las angiospermas, la gran mayoría eran claramente los errores. Se espera que aproximadamente el 25% de los errores de anotación que ocurra por casualidad citidina para anotar otro, y estos son indetectables, excepto por hacer referencias a cada sitio conocido editado con la literatura. Dado que esto no se hizo, un pequeño aumento en los dos falsos positivos y falsos negativos se espera. La inclusión de secuencias de Marchantia, Chara, y Chaetosphaeridium, que puede realmente realizar la edición de ARN, en cierta medida, y en la Tabla 3, que pueden ser simplemente el resultado del análisis experimental incompleto, puede causar también prevé la edición de los sitios a ser erróneamente clasificados como falsos positivos.

Mejorar el rendimiento predictivo

Debido a que el actual sistema de predicción de la puntuación calcula utilizando todos los ASD homólogos, linaje específicos de las ganancias o pérdidas de la edición se puede perder debido a la desigual distribución filogenético de las secuencias en el TEA (Fig. 3]. Aunque la edición de ARN mitocondrial se sabe que se producen en casi todos los principales linajes de plantas de tierras [4 - 6], el 74% de las proteínas en la ASD eran de la angiospermas, mientras que casi todas las otras proteínas procedían de los organismos que más probable es que no llevan a cabo ARN de edición. En cambio, sólo cinco se dispone de secuencias de la gimnospermas, y las otras grandes linajes de plantas no estaban representados en absoluto. Secuencia parcial de datos con la edición de la información estaba disponible para un número de genes de los grupos subrepresentados, pero estas secuencias que abarca menos de la mitad de los genes en casi todos los casos y, por lo tanto, no fueron incluidas en el TEA.

Una forma de superar la sesgada muestra de ASD secuencias sería modificar el sistema de puntuación de forma que se aproxima a los métodos filogenéticos. Debido a la edición de ARN sitios son hereditarios, más sitios son compartidas entre especies estrechamente relacionadas entre más alejadas. Así, en lugar de utilizar todas las secuencias homólogas ASD, un subconjunto de secuencias que se relacionan estrechamente con la secuencia de entrada puede ser especificado. Asignación de secuencia de pesos a la base de datos sobre la base de sus homólogos general similar a la secuencia de entrada permitiría alcanzar resultados comparables. La mejor solución a este problema sería la utilización real de métodos filogenéticos para identificar la más parsimoniosa o más probablemente de un estado particular codón en la secuencia de entrada, sin embargo, la predicción de la velocidad, sin duda, sufrir si esta estrategia se puso en práctica. Un enfoque alternativo para superar los desequilibrios en la distribución de las secuencias de ASD sería ampliar la base de datos a fin de que ésta consiste en un mayor equilibrio de la diversidad de las especies. Este enfoque también ayudaría a reducir los efectos negativos de los pequeños tamaños de muestra en el rendimiento predictivo. Como adicional transcriptome genoma mitocondrial y que se dispone de datos, se espera que los PREP-Mt rendimiento seguirá aumentando.

El esquema simplista de puntuación también puede dar lugar a falsas predicciones de las proteínas mal conservadas regiones. Para resolver este problema, un componente que las medidas de conservación en la base de datos de secuencias de cada columna en la alineación podría incorporarse en la puntuación. Regiones de alta conservación entre homólogos a menudo son funcionalmente importantes para que las proteínas. Así pues, la naturaleza de la corrección de la edición de ARN se espera que sea más valioso en estas regiones y el PREP-Mt predicción de resultados podría ser ponderada en función del nivel de alineación de conservación.

Comparación con otros métodos de predicción

Un reciente documento de secuencia utilizado contexto y la estimación de la energía plegable de estas regiones para predecir la edición de sitios en la planta de los genes mitocondriales [24]. Los autores construyeron un conjunto de datos que contenga todos los sitios conocidos de la edición completa de los genomas de Arabidopsis thaliana, Brassica napus, y Oryza sativa y los comparó con un número igual de conocidos sin editar sitios seleccionados al azar de estos genomas. El uso de árboles basados en modelos estadísticos, el conjunto combinado de datos se basa en la partición de las variables que mostró la mayor capacidad de discriminar entre editado y sin editar sitios. Edición de los sitios se predijo con exactitud el 70,5% mediante un procedimiento sencillo solo árbol enfoque y 84,8% de precisión utilizando un "azar bosque" método que analiza miles de árboles. Estos valores son directamente comparables con los equilibrada exactitud de 90,5% para el PREP-Mt, ya que la precisión estadística equilibrada es la precisión esperada para PREP-Mt si un número igual de conocido editado y sin editar sitios se utilizaron. La velocidad del árbol basado en modelos estadísticos no se presentan, pero son muy poco probable (especialmente el bosque modelo aleatorio) para ser competitivos con los casi instantánea predictivo de los resultados PREP-Mt.

Cabe señalar que Cummings y Myers [24] calculó también la sensibilidad y la especificidad de su método, sin embargo, se clasifican los falsos positivos y falsos negativos diferente a lo que se informa para PREP-Mt. Cummings y Myers clasificados falsos negativos como los sitios sin editar que fueron incorrectamente particionar con los verdaderos positivos (los clasificados correctamente editado sitios) y falsos positivos como los sitios que fueron editados incorrectamente particionar con los verdaderos negativos (los sitios clasificados correctamente sin editar). Esto no tiene efecto en el cálculo de la precisión, pero tiene un gran efecto en las puntuaciones de sensibilidad y especificidad. Por su enfoque único árbol, Cummings Myers y siempre que el número de crudo correctamente clasificados incorrectamente y editado y sin editar posiciones, lo que permite calcular la sensibilidad y especificidad de la misma manera que para el PREP-Mt. Este método correctamente clasificados 1262 a 1347 de la edición de sitios conocidos (sensibilidad = 93,7%), pero sólo 637 de 1347 conocida sin editar sitios (especificidad = 47,3%). Así, por un lado, su enfoque es muy bueno en la identificación de RNA editado sitios. Sin embargo, aproximadamente la mitad de todos los lugares conocidos sin editar también están incorrectamente clasificados como sitios editados. Debido a su modelo utiliza la poco realista escenario en el que el número de sitios editados y sin editar los sitios son iguales, este problema se aumentó significativamente cuando se aplica a situaciones biológicamente realista. Para el 1347 editó conocidos sitios que los autores examinaron de Arabidopsis, Brassica, y Oryza, en realidad hay alrededor de 17900 cytidines que no están editados (TN + FP de la Tabla 2]. El uso de un solo árbol de su planteamiento, más de 9000 de estos sin editar cytidines sería incorrectamente clasificada como de edición de sitios web. Por el azar de bosques modelo, el número real de forma correcta y los sitios clasificados incorrectamente no se proporcionaron, de manera similar cálculos no se puede determinar. Sin embargo, debido a su valor que incorpora el número de la partición incorrectamente sin editar sitios es más bajo para ambos enfoques, parece probable que el azar enfoque del bosque también identificar un importante número de falsos positivos en situaciones biológicamente realista.

Un segundo documento reciente utilizan proteínas homólogas alineaciones (PREP-al igual que millones de toneladas) para predecir C edición de los sitios de inserción en el limo molde Physarum polycephalum [37]. Bundschuh predijo ARN edición sitios para seis Physarum genes mitocondriales por la determinación de su óptimo estados modificados de un modelo de markov ocultos (HMM) que permite la citidina inserciones. En la transición parámetros HMM se definieron para cada gen utilizando la posición específica de la matriz de puntuación (PSSM) de un PSI-BLAST alineación de todas las proteínas homólogas en el Genbank la base de datos no redundante. En comparación con el PREP-Mt, el HMM enfoque es menos sensible en la búsqueda de la edición de sitios (71% en promedio, frente a 82% para el PREP-Mt) y menos precisas en la determinación de la correcta secuencias de aminoácidos (92% en promedio, frente a 99% para PREP-Mt [no se muestran los datos]). Estas comparaciones de los resultados deben tomarse con cautela, ya que los dos métodos se utilizaron para predecir los distintos tipos de ARN en la edición de diferentes linajes organismal. Para permitir una comparación más directa, ambos enfoques podrían ser fácilmente modificado para predecir el otro tipo de edición. Sin embargo, Bundschuh del uso de todas las proteínas homólogas de definir el PSSM puede ser problemática si se aplica a la U de C en la planta de la edición de la mitocondria. Un porcentaje significativo de homólogos identificados para una planta proteína mitocondrial sería otra planta mitocondrial proteínas, pero la casi totalidad de estas secuencias en el Genbank son predicciones basadas en el ADN genómico. En otras palabras, la edición de ARN información no se haya incorporado o no se conoce lo que el predijo secuencias de la proteína no es la correcta. Predicción de la edición obtendrá engañar por incorrecta inclusión de estas proteínas, ya que muchos sitios de la edición se reparten entre las plantas. Además, la inclusión de la no planta homólogos para definir el PSSM dará lugar a alineaciones más variable, el aumento de las posibilidades de predicción espurios. También hará el comienzo y el final de los genes más difíciles de ajustar, como ya se ha observado para Bundschuh del método que no puede analizar aproximadamente el 10% de cada gen Physarum. El PREP-Mt método recibe en torno a estos problemas mediante la limitación de las secuencias a las plantas, a fin de que los alineamientos son altamente conservados y de la proteína extremidades son fácilmente alineados (con excepción de atp6 y rps2 que no homóloga 5 'y 3' extensiones para muchas especies ). Además, sólo corregir las secuencias de la proteína se utilizan en la alineaciones, desde PREP-Mt límites de la planta a las secuencias conocidas con la edición de la información. Por último, debido a que estas alineaciones son predefinidos para PREP-Mt, Bundschuh planteamiento tendría que utilizar HMMs predefinidas para cada gen para ser competitivos en términos de velocidad.

Aplicaciones

El principal uso del PREP-Mt será identificar los sitios en la edición de ARN los miles de secuencias de genes mitocondriales de plantas disponibles en la secuencia de bases de datos, ya que la edición de la información es sólo conocido por un pequeño porcentaje de estas secuencias. Además, como muchas otras plantas proyectos de secuenciación del genoma mitocondrial están previstas o ya en marcha, PREP-Mt podrían desempeñar una importante función de determinar rápidamente y con precisión la mayoría de los sitios de ARN de edición sin necesidad de secuenciación mitocondrial de las transcripciones.

Actualmente, la información para la edición de ARN de longitud completa de plantas genes mitocondriales se limita principalmente a las angiospermas (Fig. 3], que casi siempre se convierten en la U de C dirección. Debido a esto, la U inversa a la edición de C fenómeno no se considera aquí. Sin embargo, revertir la edición ha resultado ser mucho más comunes en los helechos y hornwort mitocondrias y fue demostrado que aumenta la conservación de proteínas y [4 - 6]. Es probable, por tanto, que la modificación de PREP-Mt para permitir la U de C predicción sería éxito de la especie que realizar periódicamente este tipo de edición. Del mismo modo, el PREP-Mt metodología se puede aplicar al problema de la edición de ARN en cloroplastos de plantas, que también llevan a cabo la edición que conduce a un aumento de la proteína a través de la conservación de las especies [7, 11 - 15]. Más en general, el PREP-Mt metodología debe ser eficaz para cualquier sistema en el que la edición del ARN en proteínas aumenta la conservación a través de las especies.

PREP-Mt también podría ser usado como una herramienta biológica más allá de la simple identificación de los sitios de la edición de ARN. Por ejemplo, PREP-Mt podría utilizarse como un factor determinante de la funcionalidad de genes. A diferencia de los animales y hongos, cuyo gen mitocondrial contenido se ha mantenido estable durante decenas de cientos de millones de años, el contenido de genes en el genoma mitocondrial de las plantas es mucho más variable [33]. El linaje específicos de las diferencias en el contenido de genes de plantas mitocondrial son en su mayoría debido a la proclividad de algunos genes que se reubiquen en el núcleo [38]. Tras la transferencia al núcleo, el gen mitocondrial copia a menudo degrada en un pseudogen. Debido a que estas son a menudo aún pseudogenes transcrito y editado [8, 9, 19 - 21], no se atribuye la funcionalidad basada en la presencia de internos de los codones de parada o frameshifts. Esto podría ser problemático, ya que un gen mitocondrial, que ha sido funcionalmente sustituido por un gen nuclear, todavía puede ser intacto y en el marco. Usando PREP-Mt, pseudogenes también podría ser identificado basándose en el hecho de que la edición de sus posiciones no siempre conducen a la mayor secuencia de la proteína a través de la conservación de especies funcional de los genes que demostrar [19 - 21]. Intactos y en el marco de los genes que demuestran la edición de las propiedades inusuales, como los que se enumeran en la Tabla 3, puede indicar la pérdida de funcionalidad y de la presencia de una copia funcional nucleares, como ya se ha sugerido para rps1 de Oenothera [39] y rps14 de Brassica [10 ]. Es interesante observar que el 10 de los 12 casos registrados en el cuadro 3 son de los genes que se encuentran muy a menudo transferidos al núcleo de las plantas [38].

Por atp1 y cox3, pseudogenization no es una hipótesis probable porque estos genes no han sido transferidos a encontrar el núcleo de las plantas [38]. Estos dos ejemplos (así como de los 10 examinados anteriormente) podría representar de buena fe de los casos funcional mitocondrial transcripciones que no reciben correctamente editado por alguna razón. Identificación de genes con patrones anormales de la edición y un nuevo análisis de las causas subyacentes a estas pautas puede llevar a una comprensión de los mecanismos del ARN en la edición de las plantas, que todavía en gran medida desconocidos [2, 3].

Conclusión

PREP-Mt está disponible como un recurso en línea que predice sitios U de C para la edición del ARN en proteínas vegetales mitocondrial de los genes de codificación. Se probó en un amplio conjunto de genes conocidos con la información y la edición de ARN ha demostrado ser muy sensibles, específicos y precisos en la mayoría de los casos. La velocidad de predicción también fue extremadamente rápido. Así, Mt-PREP es una mejora sustancial con respecto a otros métodos de predicción de edición de ARN, y su rendimiento predictivo se espera que siga mejorando a medida que más la edición que se dispone de datos. PREP-Mt puede ser útil en la predicción de secuencias de proteínas, para determinar la funcionalidad de genes, y para comprender el mecanismo de la edición de ARN. El PREP-Mt metodología podría ser utilizada para predecir la edición de sitios en cualquier sistema en el que el efecto de la edición es aumentar la proteína a través de la conservación de especies, como para invertir U de C en la edición de las plantas y para la edición de ARN plastidio.

La disponibilidad y las necesidades

PREP-Mt es una herramienta en línea que está disponible gratuitamente para su uso en http://www.prep-mt.net/

Material suplementario
Archivo Adicional 1
Atp1
Adaptación en formato FASTA
Archivo Adicional 2
Atp4
Adaptación en formato FASTA
Archivo Adicional 3
Atp6
Adaptación en formato FASTA
Archivo Adicional 4
Atp8
Adaptación en formato FASTA
Archivo Adicional 5
Atp9
Adaptación en formato FASTA
Archivo Adicional 6
CcmB
Adaptación en formato FASTA
Archivo Adicional 7
CcmC
Adaptación en formato FASTA
Archivo Adicional 8
CcmFc
Adaptación en formato FASTA
Archivo Adicional 9
CcmFn
Adaptación en formato FASTA
Archivo Adicional 10
Adobe
Adaptación en formato FASTA
Adicional 11 Archivo
Cox1
Adaptación en formato FASTA
Adicional 12 Archivo
Cox2
Adaptación en formato FASTA
Adicional 13 Archivo
Cox3
Adaptación en formato FASTA
Adicional 14 Archivo
MatR
Adaptación en formato FASTA
Adicional 15 Archivo
MttB
Adaptación en formato FASTA
Adicional 16 Archivo
Nad1
Adaptación en formato FASTA
Adicional 17 Archivo
Nad2
Adaptación en formato FASTA
Adicional 18 Archivo
Nad3
Adaptación en formato FASTA
Adicional 19 Archivo
Nad4
Adaptación en formato FASTA
Adicional 20 Archivo
Nad4L
Adaptación en formato FASTA
Adicional 21 Archivo
Nad5
Adaptación en formato FASTA
Adicional 22 Archivo
Nad6
Adaptación en formato FASTA
Adicional 23 Archivo
Nad7
Adaptación en formato FASTA
Adicional 24 Archivo
Nad9
Adaptación en formato FASTA
Adicional 25 Archivo
Rpl2
Adaptación en formato FASTA
Adicional 26 Archivo
Rpl5
Adaptación en formato FASTA
Adicional 27 Archivo
Rpl6
Adaptación en formato FASTA
Adicional 28 Archivo
Rpl16
Adaptación en formato FASTA
Adicional 29 Archivo
Rps1
Adaptación en formato FASTA
Adicional 30 Archivo
Rps2
Adaptación en formato FASTA
Adicional 31 Archivo
Rps3
Adaptación en formato FASTA
Adicional 32 Archivo
Rps4
Adaptación en formato FASTA
Adicional 33 Archivo
Rps7
Adaptación en formato FASTA
Adicional 34 Archivo
Rps8
Adaptación en formato FASTA
Adicional 35 Archivo
Rps10
Adaptación en formato FASTA
Adicional 36 Archivo
Rps11
Adaptación en formato FASTA
Adicional 37 Archivo
Rps12
Adaptación en formato FASTA
Adicional 38 Archivo
Rps13
Adaptación en formato FASTA
Adicional 39 Archivo
Rps14
Adaptación en formato FASTA
Adicional 40 Archivo
Rps19
Adaptación en formato FASTA
Adicional 41 Archivo
Sdh3
Adaptación en formato FASTA
Adicional 42 Archivo
Sdh4
Adaptación en formato FASTA
Agradecimientos

Doy las gracias a Jeffrey Palmer, Danny Rice, Aaron Richardson, y Predrag Radivojac útil para los debates y Alejandro Araya de la prestación de los RNA de la edición de posiciones en el exón 5 de nad1 de Triticum aestivum. Esta investigación fue apoyada por los Institutos Nacionales de Salud Grant R01-GM-35087 (a Jeffrey D. Palmer).