Genome Biology, 2005; 6(4): R30-R30 (más artículos en esta revista)

Genoma toda la predicción e identificación de los cis-naturales antisentido transcripciones en Arabidopsis thaliana

BioMed Central
Xiu-Jie Wang (wangx@rockefeller.edu) [1], Terry Gaasterland (gaasterland@mail.rockefeller.edu) [1], Nam-Hai Chua (chua@mail.rockefeller.edu) [4]
[1] Laboratory of Computational Genomics, The Rockefeller University, New York, NY 10021, USA
[2] Institute of Genetics and Developmental Biology, Chinese Academy of Sciences, Beijing 100101, China
[3] Scripps Institution of Oceanography, University of California San Diego, La Jolla, CA 92093, USA
[4] Laboratory of Plant Molecular Biology, The Rockefeller University, New York, NY 10021, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Un nuevo método de cálculo para predecir la cis-codificada naturales antisentido transcripciones (NAT) en Arabidopsis identificaron 1340 potenciales NAT pares. La expresión de ambos sentido y antisentido transcripciones de 957 pares de NAT se confirmó, MPSS y el análisis de los datos sugiere que para la mayoría de pares una de las dos transcripciones es predominantemente expresado en una forma específica de tejido.

Antecedentes

En los últimos años, varias familias de moléculas de ARN de regulación han demostrado ser ampliamente expresada en eucariotas [1, 2]. Antisentido transcripciones Naturales (NAT) pertenecen a una de esas familias. NAT son moléculas de ARN endógeno cuyo parcial o secuencias de exposición de toda la complementariedad con otras transcripciones. Hay dos tipos de NAT. Cis-NAT son de la misma transcrito genómica loci como sus transcripciones, pero en sentido contrario filamento de la DNA. Por el contrario, el trans-NAT se expresan de regiones genómicas distintos de los que la codificación de su sentido transcripciones [3 - 5]. Cis-NAT y su sentido son por lo general relacionados con el ARN en un uno-a-uno de moda, mientras que un único trans-NAT Mayo Objetivo varias transcripciones sentido, por ejemplo, un tipo de micro ARN (miARN) podría regular la expresión de varias objetivo mRNAs [6].

Estudios realizados en diversos organismos han sugerido que NAT pueden participar en una amplia gama de acontecimientos de reglamentación, como la transcripción de oclusión resultante en el sentido de la expresión recíproca de ARN antisentido [7, 8] y de la interferencia de ARN (RNAi), que conduce a la degradación de Varados doble sentido-antisentido transcripción pares [9]. Hay pruebas de la participación de los NAT en el splicing alternativo [10, 11], la edición de ARN [12, 13], la metilación del ADN [14, 15], imprinting genómico [16 - 20], y el cromosoma X-inactivación [21]. NAT se sabe también para regular la expresión de algunos genes del reloj circadiano [22]. Sin embargo, dado que cada uno de los modos de regulación se observó solamente en unos pocos casos, el general de las funciones biológicas y los mecanismos de regulación de NAT todavía son inciertas.

Recientes gran escala NAT identificaciones en varios organismos modelo han puesto de manifiesto la existencia generalizada de cis-NAT en eucariotas. Lehner et al. NAT 372 por primera vez en humanos por la búsqueda de la superposición de las secuencias de ARNm en las bases de datos públicas [23]. Utilizando un público de secuencias expresadas (EST) etiqueta base de datos, y Shendure Iglesia también encontró 144 humanos NAT NAT y 73 de ratón [24]. En un trabajo posterior, Yelin et al. Predijo en 2667 NAT humanos y llegó a la conclusión de que alrededor de 1600 fueron transcritas NAT pares de los dos capítulos después de la validación experimental [25]. El grupo identificó RIKEN NAT 2481 y 899 pares no antisentido bidireccional transcripción de 60770 unidades ratón ADNc de larga duración [26]. Un análisis similar por el mismo grupo descubrió 687 bidireccional transcripción de 32127 pares de arroz (Oryza sativa) ADNc de larga duración [27]. Antisentido 7600 sobre expresión de los genes anotado se observó en un reciente trabajo utilizando todo el genoma-arrays para analizar la transcripción de la actividad A. Thaliana genoma. Sin embargo, una lista detallada de estos Arabidopsis ARN antisentido y su análisis completo todavía no está disponible [28]. Tomamos nota de que en todas las investigaciones anteriores se centraron en la predicción NAT cis-NAT.

A continuación, presentamos los resultados de un genoma a nivel computacional de búsqueda para predecir y determinar las cis-NAT en Arabidopsis. Combinar la información de la secuencia de Arabidopsis ADNc de longitud completa de las bases de datos públicas y anotada Arabidopsis genes de la liberación del genoma de Arabidopsis, se ha identificado un potencial de 1340 cis-NAT pares. Expresión transcripciones de las pruebas derivadas de las dos líneas de 957 pares cis-NAT se obtuvo de la Arabidopsis cDNA de longitud completa y el público masivamente paralelo Arabidopsis firma secuenciación (MPSS) de base de datos.

Resultados
Predicción e identificación de Arabidopsis cis-NAT pares

Para buscar cis-codificada Arabidopsis naturales antisentido transcripciones, que se suman todos los Arabidopsis cDNA de longitud completa secuencias recogidas en el UniGene y RIKEN datos con el genoma de Arabidopsis secuencias. Pares de las transcripciones que cumplieron los siguientes criterios fueron seleccionados como cis-codificada naturales sentido-antisentido transcripción pares (conocidas como NAT pares en adelante): en primer lugar, tanto las transcripciones de ADNc puede ser asignada exclusivamente a la genoma de Arabidopsis con al menos 96% de identidad de secuencia , En segundo lugar, las dos transcripciones se derivan de las líneas de frente del genoma, en tercer lugar, ambas transcripciones son codificadas por la superposición de genómica loci, la superposición y la duración es de más de 50 nucleótidos, en cuarto lugar, el sentido y antisentido transcripciones tienen distintas modalidades de empalme. La aplicación de todos los criterios anteriores, se identificaron 332 sentido-antisentido pares de Arabidopsis ADNc de longitud completa. NAT Estos pares se denominan cDNA-NAT.

Los 332 pares de cDNA-NAT se pueden agrupar en dos categorías. En la primera categoría figuran 145 NAT pares en la que tanto el sentido y antisentido transcripciones había anotado casi perfecta de genes partidos. La segunda categoría figuran 187 NAT parejas en la que al menos una transcripción no tenía anotado gen correspondiente. Esta observación nos llevó a la hipótesis que más pares de NAT, cuya ADNc correspondiente no fueron incluidos en el UniGene y RIKEN Arabidopsis cDNA de longitud completa bases de datos, podrían identificarse utilizando el genoma de Arabidopsis anotación.

Para determinar los posibles pares de NAT sin cDNA de longitud completa de pruebas, se compararon los genomas loci de todos los genes de Arabidopsis anotado para buscar pares de genes que se solapan en un antiparallel. El uso de los criterios descritos en los materiales y métodos, 952 pares putativo NAT se identificaron en el genoma de Arabidopsis y fueron nombrados genómica-NAT. Entre los 952 genómica-NAT, 145 pares han correspondiente cDNA de longitud completa para ambos el sentido y antisentido genes, y por lo tanto también se incluyeron en el conjunto cDNA-NAT. Los restantes 807 nuevos pares de NAT se predijo usando el genoma de Arabidopsis anotación y sólo se hace referencia como la única genómica-NAT establecido en el siguiente análisis (Figura 1a].

Para la mayoría de NAT pares en la segunda categoría del cDNA-NAT conjunto, sólo una transcripción de cada par de genes coincide con anotada. Esto indica que las transcripciones de algunas de larga duración podría ADNc forma cis-NAT pares con otras transcripciones, aunque sus genes correspondientes no se incluyen en el actual genoma de Arabidopsis anotación. En una búsqueda de esos pares de NAT, se compararon los genomas de los loci UniGene y RIKEN Arabidopsis ADNc de longitud completa con las anotaciones de los genes identificados y 1291 de longitud completa ADNc cuyas transcripciones podría formar pares cis-NAT con posibles transcripciones de los genes anotado ( Véase Materiales y métodos de criterios). La genómica 1291-cDNA-NAT pares incluido el cDNA-NAT 332 y 758 pares único genómica-NAT pares. Por lo tanto, 201 pares único NAT se predijo por el cDNA de la comparación del genoma enfoque y se conocen como único genómica-cDNA-NAT pares en adelante (Figura 1b].

En total, hemos encontrado posibles NAT 1340 pares a partir de tres categorías: 332 pares con cDNA pruebas para ambos sentido y antisentido transcripciones; 807 pares sobre la base de la anotación del genoma de Arabidopsis (incluidos los 758 pares de longitud completa con pruebas de cDNA para un capítulo), y otro 201-genómica cDNA pares combinando con anotación del genoma de longitud completa del cDNA secuencia de la información.

Caracterización de Arabidopsis NAT pares

Hemos clasificado la única NAT 1340 pares según el exón-intrón estructuras de cada transcripción y la superposición de sus patrones (Tabla 1]. La superposición de modelos de NAT pares se determinaron mediante la comparación de las posiciones de ambas exón transcripciones utilizando sim4 [29] alineación resultados. De acuerdo con informes anteriores de NAT pares en otros organismos [23 - 27], la mayoría de Arabidopsis NAT pares (72,1%) se superponen en su extremo 3 '. Para casi todos los pares de NAT (99%), la superposición de la región incluido el exón secuencias, con algunas excepciones en las que una transcripción fue transcrita íntegramente con cargo al intronic secuencias de los demás. La Figura 2 muestra la distribución de longitudes de superposición de NAT. No cromosómicas evidente sesgo se observó para la distribución de la genómica NAT (Tabla 2] [30].

La alineación de cDNA sim4 resultados mostraron que algunos Arabidopsis ADNc de larga duración no son empalmados transcripciones. Para evaluar la calidad de ADNc de longitud completa, en comparación sistemática de la estructura y la codificación de empalme potencial de todos los ADNc de longitud completa utilizada en este estudio a todos los genes de Arabidopsis predijo. Nuestros resultados mostraron que la proporción de no empalmados transcripciones en UniGene y RIKEN ADNc de longitud completa fue inferior a la proporción de los no empalmados transcripciones anotado en los genes, lo que indica no empalmados ADNc es probable que se deriven de la buena fe transcripciones en lugar de genómica Contaminación de ADN (Tabla 3].

Análisis de la expresión de NAT pares utilizando datos públicos Arabidopsis MPSS

Para investigar la expresión de nuestra predijo NAT pares, que utiliza el público Arabidopsis MPSS datos en la Universidad de Delaware [31]. MPSS es un talón de secuenciación basados en la tecnología que identifica a una secuencia de nucleótidos de cada 17-20 transcripción. Esta técnica de secuenciación es capaz de identificar nuevas, rara vez expresó transcripciones. MPSS también puede medir cuantitativamente el nivel de expresión de una transcripción porque las transcripciones por millón (PGT), el valor de una transcripción en la secuenciación resultados reflejan su abundancia en vivo [32, 33].

El público Arabidopsis MPSS base de datos contiene 87705 'confianza' secuencias de la firma del 14 bibliotecas de cDNA. MPSS través de la aproximación de estas secuencias de genoma de la Arabidopsis y los 1340 pares de NAT, hemos identificado 455 pares con NAT única MPSS coincidencias tanto en el sentido y antisentido capítulos, incluyendo 103 cDNA-NAT pares, 293 pares de NAT-genómica y genómica 59-cDNA - NAT pares. MPSS firmas porque son cortos de 17 identificado las secuencias de nucleótidos de cada una transcripción, con múltiples secuencias genómicas loci fueron excluidos de nuestro análisis para evitar la ambigüedad con respecto al origen de un MPSS firma y para garantizar la fidelidad de la asignación de un MPSS la firma de su correspondiente transcripción ( Véase Materiales y métodos para más detalles). Entre las 455 parejas con NAT inequívoca MPSS transcripciones de datos para ambos, expresión de las dos transcripciones de 78 pares sólo se encuentran en distintas bibliotecas, indicando NAT estas parejas podrían tener una relación exclusiva de la transcripción. Para los otros 377 NAT pares, el sentido de la expresión antisentido y transcripciones se observó principalmente en las diferentes bibliotecas o una transcripción fue predominantemente expresó cuando ambas transcripciones se pudieron detectar en la misma biblioteca (Tablas 4 y 5]. Por un par de NAT encuentran en la misma biblioteca, si el valor de la TPM es una transcripción por lo menos tres veces mayor que la de la otra transcripción, consideramos que la transcripción dominantemente expresó. El número de coexpressed y dominantemente expresó transcripciones en cada biblioteca se muestra en la Figura 3. En promedio, coexpression se observó solamente en dos de las 14 bibliotecas de la prueba de muestra para cada uno de los 377 pares de NAT, en tanto que expresión de un dominante transcripción se hizo presente en 9 bibliotecas. No se detectó expresión en el resto de las bibliotecas.

También se encontró otros 222 pares NAT-genómica y genómica 51-cDNA-NAT con parejas de larga duración cDNA pruebas para una transcripción de datos y MPSS para la transcripción de otros. Junto con los 332 pares de cDNA-NAT, hemos obtenido ya sea de larga duración o de cDNA MPSS expresión de las dos pruebas de 957 transcripciones NAT pares, que corresponde al 71,4% del total de 1340 pares ((455 - 103) + 332 + 222 + 51 = 957).

ARNsi coincide con pares de NAT

Se compara el corto interferencia de ARN (ARNsi) secuencias recogidas en la base de datos de Arabidopsis pequeños ARN para investigar la posibilidad de que cis-NAT pares pueden generar siRNAs. Similar a la alineación MPSS proceso, sólo con siRNAs único loci en el genoma de Arabidopsis se han utilizado en la comparación para garantizar la asignación inequívoca. Se encontraron 11 pares de NAT ha ARNsi secuencias asignadas exclusivamente a la superposición de su región (cuadro 6]. SiRNAs de NAT todos menos uno de sus pares se originó la superposición región, con la única excepción de Al par # # En S18901030 y S18898439, cuya duración se superponen sólo 52 nucleótidos de longitud.

Conservación de la Arabidopsis NAT pares en el sector del arroz

Para examinar si NAT pares podría ser conservadas durante la evolución, la comparación de secuencias de proteínas de la Arabidopsis 1340 putativo NAT pares con secuencias de la proteína de arroz predijo el NAT 687 pares [27]. Orthologs de dos pares de Arabidopsis NAT también fueron codificadas por los genes antiparallel origen en el mismo lugar en el sector del arroz (Cuadro 7]. Además, los homólogos de una transcripción de 392 pares de Arabidopsis NAT, fueron encontrados en el arroz NAT conjunto.

Discusión

Aunque NAT se ven a menudo en procariotas, su prevalencia en eucariotas no fue detectado hasta que los últimos años [23 - 27, 34]. En este trabajo, hemos combinado la información sobre la secuencia de Arabidopsis ADNc de longitud completa con que a partir de la anotación del genoma de Arabidopsis y 1340 potenciales identificados cis-NAT pares en Arabidopsis (archivo de datos adicionales 1, 2, 3).

Evaluación de métodos de predicción nuestro NAT

El 1340 Arabidopsis NAT pares fueron identificados a partir de tres fuentes. En primer lugar, mediante la alineación de cDNA de longitud completa de las secuencias del genoma de Arabidopsis, hemos identificado 332 cDNA-NAT pares. Sin embargo, la comparación de esos 332 pares de cDNA-NAT con genes de Arabidopsis anotado mostró que más de la mitad de estas parejas habían NAT uno de los socios que no se incluyó en el actual genoma de Arabidopsis anotación. Debido principalmente tradicionales anotación del genoma tiene como objetivo la identificación de genes de codificación de proteínas dentro de un genoma, existe la posibilidad de que la falta de codificación de las transcripciones antisentido pueden ser pasados por alto por los buscadores de genes actualmente capacitado. Un reciente informe del genoma utilizando un suelo de baldosas gama de examinar la transcripción de la actividad de todo el genoma de Arabidopsis también apoya esta idea [28].

A la búsqueda de posibles pares NAT no incluidas en la actual de larga duración Arabidopsis cDNA biblioteca, se compararon los genomas de las coordenadas anotado todos los genes entre sí y con las de ADNc de longitud completa. Este enfoque descubrió otro superposición genómica 807-NAT pares basado en la anotación de sus correspondientes genes, la genómica y 201-cDNA-NAT pares, incluyendo cada una transcripción anotada derivados de un gen en un capítulo y una transcripción representados en el cDNA de longitud completa En la base de datos de la otra línea. El ADNc de longitud completa incluido en genómica-cDNA-NAT pares o bien no tenía anotado gen partido o sus correspondientes transcripciones no pueden formar pares cis-NAT con transcripciones de otros genes sobre la base de su anotación. Estos resultados indican que aunque el genoma de Arabidopsis es en la actualidad uno de los mejores anotado genomas eucariotas, gran parte de la información es aún desaparecidos. La identificación en eucariotas de varias clases de RNA de los genes reguladores, como los naturales de codificación antisentido transcripciones, que son el foco aquí, no sólo más nuestra comprensión de la estructura del genoma y regulación de genes, sino también abrir una nueva ventana para mejorar la anotación del genoma .

La mayoría de antisentido predicción de trabajo reportados a la fecha se ha centrado en la identificación de NAT y de ADNc expresó EST [23 - 27]. En este trabajo, evitar el uso de las tecnologías ecológicamente racionales ya que la ambigüedad de algunas secuencias de orientación. También incluyó la información secuencial de los genes de Arabidopsis anotado en nuestra predicción NAT con el fin de proporcionar una imagen más completa de las transcripciones antisentido en Arabidopsis. La fiabilidad de nuestro enfoque es apoyado por las siguientes líneas de evidencia: en primer lugar, la expresión de ambos sentido y antisentido transcripciones de 293 pares de genómica-NAT (36,3% de un total de 807) se observó en el público MPSS datos, y otro 222 genómica-NAT pares (27,5% de un total de 807) han cDNA de longitud completa de las pruebas y una transcripción de los datos asociados MPSS la otra transcripción, en segundo lugar, los dos pares de NAT, que se conserva en el arroz también fueron identificadas en nuestro Arabidopsis genómica - NAT conjunto de datos, en tercer lugar, se sabe que los genes impresos están probablemente sujetos a la reglamentación antisentido; tres de los seis genes de Arabidopsis impreso [35 - 39], FIE, FIS2 y MSI1, se incluyen en nuestro genómica-NAT conjuntos. Sin embargo, es también posible que algunos genómica-NAT pares son falsos positivos si las longitudes de sus regiones no traducidas (UTRs) fueron anotados erróneamente.

En el sector del arroz, tanto transcripciones de 86% de los NAT tienen codificación de la secuencia de pares (CDS), las regiones con el 28% del predicho Arabidopsis NAT pares incluir al menos una transcripción sin codificación potencial. No codificación de la proteína de las transcripciones son más prevalentes en genómica y de cDNA cDNA-NAT-en el que 170 pares de cDNA NAT y 156 pares de cDNA genómico-NAT pares no incluyen una codificación de la proteína de transcripción. Genescan hemos utilizado para evaluar el potencial de la codificación de cada transcripción de cribado por su correspondiente secuencia de ADN genómico válida para las estructuras de genes. El uso de los genes como los controles anotado, estima que la tasa de falsos negativos de nuestra definición de la codificación potencial de ser el 2,3%. A diferencia de CDS que contienen las transcripciones antisentido que puede traducirse en proteínas, en determinadas condiciones, sin ningún tipo de transcripciones de codificación de la proteína podría tener potencial únicamente funciones de regulación.

En nuestro trabajo que se describe aquí, y en todos los demás en todo el genoma antisentido transcripción documentos de identidad publicado hasta la fecha [23 - 27], la investigación se centró en cis-ARN antisentido, que se transcribe a partir de la misma genómica loci como su sentido ARN's, pero En la vertiente opuesta del genoma. Para garantizar la cis-antisentido relación de NAT informó aquí, sólo ADNc con singular genómica loci fueron incluidos en este estudio. Tomamos nota de que cierto número de trans-antisentido transcripciones también existen en las células. Los ejemplos incluyen miRNAs y siRNAs que son ampliamente estudiados en la mayoría de organismos modelo [6]. Genoma toda la identificación de trans-antisentido transcripciones en Arabidopsis se está intentado.

Evaluación de expresión utilizando NAT MPSS datos

El gel no basada en las propiedades de MPSS la tecnología hacen que sea un recurso ideal para evaluar el perfil de expresión de NAT pares, por las siguientes razones: en primer lugar, porque la tecnología de captura MPSS casi todos polyadenylated transcripciones dentro de las células, en teoría, esta tecnología es capaz de identificar nuevas , Pocas veces expresado transcripciones sin previo conocimiento de sus genes correspondientes, en segundo lugar, el resultado de MPSS digital refleja el patrón de expresión de una molécula de ARN secuencia, y por lo tanto proporciona una relación cuantitativa entre el sentido y antisentido NAT transcripción de una pareja en los distintos tejidos. Esta información no estaba disponible en ninguna de las anteriores NAT predicción de los trabajos [32, 33].

Usando el cDNA de longitud completa y pública Arabidopsis MPSS datos, hemos sido capaces de obtener pruebas de expresión para ambos transcripciones de 957 pares de NAT. La naturaleza digital de MPSS datos nos permitió evaluar la expresión de la relación de sentido y antisentido transcripciones directamente. Nuestros resultados mostraron que el sentido y antisentido transcripciones de un NAT par tienden a ser expresados en diferentes tejidos o en condiciones diferentes. Además, en los casos en que el sentido y antisentido transcripciones de un par de NAT se expresaron en la misma biblioteca, un tipo de transcripción fue generalmente más abundantes que los otros. En promedio, las transcripciones de NAT pares se encontraron coexpressed en sólo dos bibliotecas, mientras que dominante expresión (nivel de la expresión de una transcripción era al menos tres veces más alto que el de la otra transcripción) o absoluta de expresión (sólo una transcripción de un NAT Se expresó par) se observó en nueve bibliotecas. La expresión tejido-específica de sentido y antisentido transcripciones observado en este estudio es coherente con el genoma de Arabidopsis transcripción estudio utilizando un suelo de baldosas de todo el genoma gama, en la que unos 7600 genes que se han encontrado en tejidos específicos sentido y antisentido expresión [28]. Aunque una lista detallada de estos genes 7600 aún no está disponible, es posible que algunos de los genes no está incluido en nuestra lista, la transcripción antisentido actividad ha sido aportada por transeuropeas de antisentido transcripciones. Esto podría explicar el motivo por el que predijo un menor número de pares de NAT que la anterior trabajo, ya que nuestro trabajo sólo se centra en las transcripciones cis-antisentido.

Para garantizar la MPSS secuencias fueron generados por sus transcripciones se pongan en venta, MPSS todos los datos fueron alineados con el genoma de Arabidopsis y anotado todos los mRNAs de eliminar las firmas con múltiples loci genómica. Por lo tanto, a menos que un MPSS secuencia de la firma se deriva de la joint-exón región de algunas transcripciones que no se incluyen en la actual anotación del genoma, debe proceder de su correspondiente transcripción.

La especulación sobre la función y el origen de NAT

Una de las posibles funciones de NAT es para activar la degradación de su sentido de transcripciones a través de la vía de RNAi. Sin embargo, en nuestro estudio, encontramos sólo 11 pares con NAT conocido ARNsi partidos. Hay dos explicaciones posibles para esta observación. En primer lugar, el público actual Arabidopsis ARNsi base de datos, que sólo contiene 1822 secuencias únicas ARNsi, es pequeña y no cubre todos los siRNAs asociados con secuencias de la NAT pares informó aquí. En segundo lugar, todos los NAT identificados en este trabajo son cis-antisentido transcripciones. SiRNAs son utilizados para downregulate los niveles de expresión de mRNA su objetivo de lograr una baja concentración de proteínas. Cis-antisentido transcripciones puede lograr el mismo objetivo por interferir con la transcripción de su sentido transcripciones, y este podría ser un mayor rendimiento energético mecanismo para lograr local Regulación génica. Esta hipótesis predice que se espera encontrar más siRNAs asociados a trans-antisentido transcripciones.

Para la mayoría de NAT con pares asociados MPSS transcripciones de datos para ambos, la expresión del sentido y antisentido transcripciones tiende a ocurrir en los distintos tejidos. En estos casos, se podría especular que la transcripción de genes que codifican estos NAT transcripción pares puede estar regulada por factores similares, pero que la producción de transcripciones antisentido podría interferir con la transcripción de las transcripciones su sentido, por lo que los patrones de expresión de reciprocidad. Otra posibilidad es que los dos genes de un par de NAT están sujetos a diferentes regulación transcripcional y, en consecuencia, nunca son expresadas en el mismo tejido en el mismo tiempo. Análisis funcional de todos los NAT pares de genes usando ontología no revela un exceso de representación de cualquier categoría funcional en comparación con el genoma de Arabidopsis, lo que indica que la regulación cis-antisentido podría ser un mecanismo mundial para todas las familias de genes. Son necesarios más estudios para investigar la validez de estas hipótesis.

Antiparallel transcripción y antisentido transcripciones se sabe que están implicados en el imprinting genómico de los genes Xist en el ratón y el humano [21]. Hay pruebas de que el acuerdo multilateral y PHE genes de Arabidopsis son parte [35], y, además, FIS2, FIE, MSI1 FWA y también puede ser impreso, a pesar de la evidencia de estos otros cuatro genes no es inequívoco [36 - 39] . No obstante, encontramos las unidades de transcripción antisentido para FIS2, FIE y FWA, lo que sugiere que la transcripción de estos tres genes podrían ser regulados por las transcripciones antisentido, o sus transcripciones antisentido podrían participar en silenciar su expresión. Imprinting genómico generalmente supone un locus cromosómico y, en algunos casos, pueden incluso ampliar overa región cromosómica. Dada la proximidad del sentido de la transcripción de genes antisentido, si un miembro de la pareja es la impresión, es probable que los demás estarían sujetas a la misma reglamentación. Lamentablemente, debido a la ausencia de datos sobre los genes impresa en el arroz, no hemos podido examinar si los genes impresos son también objeto de regulación en el sector del arroz en antisentido.

Se encontró que dos pares de Arabidopsis NAT se conservan en el sector del arroz. Estos conservan NAT pares podría ser utilizado para estudiar el mecanismo de regulación antisentido y el NAT en el origen de las plantas. Habida cuenta de más de 150 millones de años de evolución de la distancia entre Arabidopsis y el arroz, el gen orden de los dos genomas ha divergido considerablemente. Por lo tanto, la conservación de estos dos pares de NAT podría tener importancia funcional. Una comparación más cerca de la Arabidopsis y el arroz NAT pares y la identificación de otras conservadas NAT pares podría ayudar a tratar esta cuestión.

En conjunto, nuestros resultados proporcionan la primera en todo el genoma de identificación y predicción de los NAT en Arabidopsis. Estos resultados facilitarán los estudios funcionales de NAT en este modelo de planta, así como en otras especies de plantas, y ayudar a desentrañar complejas redes reguladoras de genes en eucariotas.

Materiales y métodos
Identificación de sentido-antisentido transcripción pares de cDNA de longitud completa de datos

La Arabidopsis UniGene (Build 45) conjunto de datos (archivo de nombre At.seq.all) fue descargado desde el Centro Nacional de Información Biotecnológica (NCBI) UniGene Recursos [40, 41]. Un total de 20683 de larga duración cDNA secuencias fueron extraídas de la UniGene de datos mediante la selección de las secuencias de marcado como 'Full-length/full-length cDNA ". La Arabidopsis RIKEN cDNA de longitud completa de datos, que contiene secuencias de 13181, fue descargado del Centro RIKEN BioResource (BRC) [42, 43]. El 13181 y 20683 UniGene de larga duración RIKEN ADNc se suman a las secuencias del genoma de Arabidopsis, el Instituto de Investigación Genómica (TIGR) (versión 5) [44] por BLAT. El patrón de empalme de la transcripción derivados de cada cDNA fue confirmado, además, utilizando la secuencia sim4 alineación programa [29, 44, 45]. ADNc con al menos 96% de identidad de secuencia del genoma de la Arabidopsis se han utilizado en el siguiente análisis. Por pares de ADNc codificada por el contrario capítulos de genoma de Arabidopsis y compartir la superposición de genómica loci, tanto si sus correspondientes transcripciones sentido y antisentido no tenían otra genómica y exhiben diferentes lugares de empalme de los patrones, que fueron seleccionados como codificación sentido-antisentido transcripción pares de los que se hace referencia Como a cDNA-NAT pares en el texto.

Predicción de sentido-antisentido transcripción pares utilizando el genoma de Arabidopsis anotación de larga duración y de ADNc

Se utilizó la A. Thaliana genoma anotaciones de TIGR (versión 5), en este estudio [44, 45]. Putativo NAT pares se identificaron sobre la base de la genómica anotado loci de los genes de Arabidopsis. Si se superponen un par de genes se encuentra en frente de los capítulos del genoma de Arabidopsis y al menos un gen no tenía anotado en la UTR superposición fin, codificados sus transcripciones fueron seleccionados como putativo NAT par independientemente de la duración de la superposición codificada transcripciones. De lo contrario, si un par de genes antiparallel superposición de las dos regiones UTR han anotado en la final superposición, la duplicación de la duración de sus codificada transcripciones deben ser de más de 50 nucleótidos para calificar como NAT pares. NAT pares de las dos categorías antes indicadas son a la vez denominado genómica-NAT pares en el texto.

Genómica-cDNA-NAT pares fueron identificados por comparación de los genomas de los loci de larga duración con los de ADNc anotado genes. UniGene y RIKEN ADNc de longitud completa con singular genómica lugares y por lo menos 96% de identidad de secuencia del genoma de la Arabidopsis se utilizaron en este paso. Utilizando los mismos criterios de genómica NAT, si un gen anotado tenido una superposición cDNA partido en la acera de enfrente y de la de la transcripción de genes anotada, y que deriva de la cDNA antisentido tienen diferentes patrones de empalme, el gen y su correspondiente cDNA fueron seleccionados como CDNA genómico-NAT-par.

Empalme patrón de codificación y evaluación de potencial de longitud completa y anotada ADNc genes

Empalme de las pautas de transcripciones codificadas por completo longitud ADNc se obtuvieron a través de la aproximación a las secuencias de cDNA el genoma de Arabidopsis sim4 utilizando el programa [29]. Empalme de las pautas de transcripciones derivados de los genes de Arabidopsis anotado se extrajeron de la anotación del genoma de Arabidopsis TIGR (versión 5) [44]. Para evaluar el potencial de la codificación de longitud completa ADNc, sus correspondientes secuencias genómicas (determinado por BLAT y sim4 resultado) fueron extraídos y examinados por GeneScan [46].

Identificación de MPSS pruebas para NAT pares

Se utilizó el público Arabidopsis MPSS datos en la Universidad de Delaware [31] para evaluar la expresión de NAT pares. MPSS secuencias de 14 diferentes bibliotecas de Arabidopsis Columbia-0 (Col-0) ecotipo fueron descargados de [31]. Cada biblioteca MPSS figura identificado las secuencias de la firma del mismo tejido. La calidad de estas secuencias MPSS se evaluó de acuerdo a la información proporcionada por la base de datos. Sólo MPSS secuencias con 'fiable' (presente en más de una secuencia correr) y "significativo" (TPM ≥ 4) patrón de expresión se considera como "de confianza" y de las firmas utilizadas en este análisis.

El público MPSS base de datos de confianza que figura 87705 firmas que cumplieron con los criterios anteriormente expresión. Estas firmas se suman a las secuencias de los 1340 pares putativo NAT para identificar secuencias MPSS derivados de los mismos. Firmas perfecto con múltiples coincidencias con el genoma de Arabidopsis o de ADNc ha ambigua orígenes y no se consideraron más a fondo. Para un par de NAT, tanto si el sentido y antisentido transcripciones ha asociado MPSS datos y su expresión son a la vez importantes valores en una o más bibliotecas, transcripciones en este NAT par fueron consideradas como coexpressed en el mismo tejido. Por otra parte, si ambos habían MPSS transcripciones de datos, pero no tenía coexpression significativas en ninguna de las bibliotecas de examinarse, a continuación, las transcripciones fueron consideradas como expresó, pero en diferentes bibliotecas.

Homología comparación con informó de arroz NAT

CDNA de longitud completa de las secuencias de 687 pares de arroz NAT fueron descargados de la página web se describen en [27]. Para facilitar la comparación de secuencias de proteínas, el arroz y Arabidopsis ADNc fueron asignadas a sus correspondientes genomas por BLAT [45]. Tanto el A. Thaliana y O. Sativa genomas fueron descargados de TIGR [44]. Los correspondientes secuencias genómicas de cada cDNA se extrajeron de acuerdo a sus coordenadas de la genómica BLAT resultados. Secuencias de la proteína fueron obtenidos por la evaluación de las secuencias genómicas de los ADNc utilizando GENSCAN [46]. Las secuencias de la proteína de arroz NAT estaban alineados con los de Arabidopsis utilizando NAT blastp [47]. Alta similitud con pares E-valor inferior a 10 -30 y la alineación de cobertura de más del 50% de la secuencia de la consulta fueron considerados como secuencias homólogas.

Adicional de los archivos de datos

Los siguientes datos adicionales están disponibles con la versión en línea de este documento. Datos adicionales archivo 1 es un cuadro sinóptico con todas genómica-NAT pares. Adicional archivo de datos 2 es un cuadro sinóptico con todas cDNA-NAT. Adicional archivo de datos 3 es un cuadro sinóptico con todas genómica-cDNA-NAT.

Material suplementario
Archivo Adicional 1
Clases de superposición pautas: 1. Cola a la cola (3 'end superposición); 2. Cabeza a cabeza (5 'finales se superponen), 3. Una transcripción figura totalmente dentro de la otra transcripción; 4.two transcripciones superposición sólo dentro de intrones. Codificación de Mercancías potencial de una transcripción: '+' con potencial de codificación; "-" sin codificación de los posibles
Archivo Adicional 2
Clases de superposición pautas: 1. Cola a la cola (3 'end superposición); 2. Cabeza a cabeza (5 'finales se superponen), 3. Una transcripción figura totalmente dentro de la otra transcripción; 4.two transcripciones superposición sólo dentro de intrones. Codificación de Mercancías potencial de una transcripción: '+' con potencial de codificación; "-" sin codificación de los posibles
Archivo Adicional 3
Clases de superposición pautas: 1. Cola a la cola (3 'end superposición); 2. Cabeza a cabeza (5 'finales se superponen), 3. Una transcripción figura totalmente dentro de la otra transcripción; 4.two transcripciones superposición sólo dentro de intrones. Codificación de Mercancías potencial de una transcripción: '+' con potencial de codificación; "-" sin codificación de los posibles
Agradecimientos

Damos las gracias a Takatoshi Kiba y Siripong Thitamadee de fructíferos debates y Peter Hare y Yupu Liang para leer detenidamente el manuscrito. Esta investigación fue apoyada por NIH GM44640 a NH.C. Y DBI-9984882 a TG