PLoS Computational Biology, 2005; 1(1): (más artículos en esta revista)

MicroRNA Meta Predicciones a través de Drosophila Siete especies de mamíferos y Comparación con objetivos

Dominic Grün, Lu-Yi Wang, David Langenberger, Kristin C Gunsalus, Nikolaus Rajewsky [*]
Resumen

MicroRNAs son pequeños no los genes que regulan la producción de proteínas de los genes por parte complementaria vinculante a los sitios en los mRNAs de determinados genes. Aquí, utilizando nuestro algoritmo PicTar, explotar especies comparaciones intersectoriales para predecir, en promedio, 54 dirigidos por genes microRNA encima del ruido en Drosophila melanogaster. Análisis de la anotación funcional de los genes, además, sugiere objetivo específico las funciones biológicas de muchos microRNAs. También predecir combinatoria objetivos para agruparse microRNAs y encontrar que algunas agrupadas microRNAs pueden regular coordinadamente genes diana. Además, comparamos microRNA regulación entre insectos y vertebrados. Nos encontramos con que la amplia extensión de la regulación de genes por microRNAs es comparable entre las moscas y los mamíferos, sino que ciertos microRNAs pueden funcionar en clado específicos de los modos de regulación de genes. Uno de estos microRNAs (miR-210) se prevé que contribuirá a la regulación de la mosca oogenesis. También lista reglamentarias específicas relaciones que parecen ser conservado entre las moscas y los mamíferos. Nuestros resultados proporcionan la más amplia microRNA objetivo predicciones en Drosophila a la fecha, indican funciones específicas para la mayoría de microRNAs, indican la existencia de coordinar la regulación de genes agrupados ejecutado por microRNAs, y arrojar luz sobre la evolución de microRNA función de la evolución a través de grandes distancias. Todas las predicciones son de acceso gratuito de búsqueda en nuestro sitio Web Http://pictar.bio.nyu.edu .

Introducción

Recientemente, se ha descubierto que los genomas de animales contienen cientos de genes microRNA. Estas pequeñas no suelen ser los genes transcritos por la RNA polimerasa II, transformada en giros, y exportados en el citoplasma, donde se cleaved por la central de la enzima de la vía de RNAi, Dicer, para formar un solo varados microRNAs maduros [1, 2]. En animales, maduras microRNAs se cree que obligar a los sitios de unión en parte complementarias en el objetivo de mRNAs de los genes y, por mecanismos desconocidos, regular su expresión post-transcripcional. En todos los casos conocidos microRNAs reprimir la expresión de proteínas de los genes de codificación de meta, ya sea por la represión de la traducción mientras que no afectan a la concentración del mRNA de la meta, o que puedan inducir directamente por una disminución en las concentraciones de ARNm objetivo [3]. Para entender la función biológica de microRNAs por lo que es importante a fin de determinar sus objetivos. Desde el alto rendimiento de los métodos experimentales microRNA objetivo de identificación no se han publicado todavía, métodos computacionales que tratar de identificar sitios objetivo parcial sobre la base de su complementariedad con microRNAs se han vuelto cada vez más importante [4 - 13]. En las moscas, la sensibilidad de estos métodos era suficiente para predecir aproximadamente ocho objetivos microRNA por encima del ruido, aunque el número real de las metas se ha estimado a ser mucho mayor [14]. Cruz-especies comparaciones, que permiten la identificación de evolutivamente conservados y, por tanto, probable objetivo funcional de los sitios, han demostrado ser muy útiles para impulsar la sensibilidad de detección microRNA objetivo. Recientemente, tres estudios independientes sobre la base de comparaciones intersectoriales de las ocho especies de vertebrados llegó a la conclusión de que en los vertebrados, microRNAs se predice que regular al menos un 20% -30% de todos los genes [8, 13, 15]. Estos resultados son consistentes con los resultados experimentales [3].

También se ha sugerido que microRNAs ampliamente, de manera similar a los factores de transcripción, puede actuar en combinación (o cooperativa) de la unión a la misma ARNm en una forma dependiente de la concentración. La especificidad tisular de la expresión de genes podría ser explicado en parte por un "código de microRNA" [16] de la expresión tejido-específica de las redes transeuropeas, actuando microRNAs. Esta idea es apoyada por los experimentos [17] y por los resultados de los enfoques computacionales que se han utilizado para la búsqueda de sitios objetivo de microRNAs diferentes en el mismo objetivo mRNA [5, 6, 13]. En particular, un gen de mamíferos y se predijo demostrado experimentalmente que se rige por varios coordinadamente co-expresó microRNAs [13].

Utilizamos nuestro microRNA-meta-algoritmo de búsqueda, PicTar [13], y entre las especies de siete comparaciones recientemente secuenciado Drosophila especies para predecir y analizar las metas microRNA en las moscas. Nuestro modelo subyacente sitio de destino para el reconocimiento y la comparación de estos resultados a nuestras predicciones anteriores [9] se presenta en la discusión. También computa predicciones de los objetivos comunes de cluster microRNAs, ya que los últimos experimentos [18, 19] han sugerido que microRNA genes que residen en los grupos que abarcan aproximadamente el 50 kbp de ADN genómico tienden a ser co-expresó. Para arrojar luz sobre la función específica de microRNAs, analizamos la anotación funcional para predecir objetivo conjuntos de genes usando Ontología (GO) [20]. Sin embargo, para llegar a una comprensión más global de microRNA función y por la tarde se pregunta si la medida de la orientación microRNA en las moscas es comparable a la orientación en los vertebrados, si ciertos microRNA-mRNA de reglamentación se conservan las relaciones entre ambos clados, y si los microRNAs podría desempeñar Clado un papel en la regulación de genes específicos.

Resultados
Genome-Wide Cruz-Las comparaciones de los Siete especies de moscas de especies de alto Permitir La especificidad y sensibilidad de Alto microRNA Meta Predicciones

Ha sido ampliamente demostrado que el éxito de la identificación de los microRNA computacional sitios objetivo puede ser incrementado sustancialmente por objetivo la búsqueda de los sitios que son evolutivamente conservados, y por lo tanto susceptibles de ser funcional. Por lo tanto, nos propusimos hacer uso de la muy reciente secuenciación de todo el genoma de varias especies de moscas (figura 1]. La secuencia genómica de ocho de estas especies, que incluyen miembros de la melanogaster, oscura, repleta, y virilis grupos, ya se han reunido (D. melanogaster, D. simulans, D. yakuba, D. erecta, D. ananassae, D . Pseudoobscura, D. virilis, y D. mojavensis). Descartado el D. Simulans asamblea, ya que resultó contener grandes lagunas. El tiempo estimado divergencia de estas especies varía entre unos pocos millones de años a aproximadamente 40 millones de años (Figura 1].

Para identificar conservadas evolutivamente microRNA sitios objetivo en 3 'UTR secuencias, es crítica para identificar mRNAs ortólogos. Se experimentó con dos series producidas en forma independiente en todo el genoma de alineaciones de las ocho especies (ver Materiales y Métodos]. El primer conjunto de alineaciones (denominado serie 1), que no contiene la secuencia de D. Erecta, fue producido por la UCSC Genoma base de datos ( Http://genome.ucsc.edu/ ) Y se basa en pairwise alineaciones que posteriormente se multiplican alineados. La segunda serie (lo que se denomina conjunto 2) vino de verdad en todo el genoma de múltiples alineaciones (C. Dewey, Mercator, Http://hanuman.math.berkeley.edu/ ~ cdewey / mercator / ) [21]. En ambas series, hemos extraído varias alineaciones de D. Melanogaster 3 'UTRs uso de la D. melanogaster FlyBase anotación de 18892 genes transcripciones y obtuvo 3' UTR alineaciones a través de las ocho especies de transcripciones 13465 (serie 1), y transcripciones 13030 (serie 2) (Cuadro 1]. También conjuntos de alineaciones definidas por el más largo de mantenimiento de sólo 3 'UTR transcripción de todas las variantes para el mismo gen, lo que resulta en aproximadamente 9800 alineaciones de cada una (lo que se denomina única alineaciones). La cobertura de los genes es, pues, más o menos comparables entre ambos conjuntos. Además enmascarados que se repite en la única alineaciones usando máscaras de la UCSC para repetir fijó en el 1 y utilizando el Tandem Repeat Remover [22] siguiente Rajewsky et al. [23] para el grupo 2. El espacio de nucleótidos de los diversos conjuntos de la alineación está en la lista en el cuadro 2 y para cada conjunto se compone de un total de 2.2-4.1 Mb por especie para repetir-el único enmascarado alineaciones. Enmascaramiento repite así eliminado cantidades sustanciales de la secuencia (hasta un 22% por especies).

Para identificar conservadas microRNA objetivos, hemos utilizado el algoritmo PicTar [13]. El componente clave de PicTar es la noción de un "núcleo" (o "semillas"), que se define como un tramo de siete bases (a partir de la primera o la segunda posición de los 5 'finales de los microRNA), con perfecto consecutivos Watson - Crick basepairings al sitio de destino. Un reciente estudio experimental y computacional [14] demostraron que la presencia de ese núcleo es necesaria para que una fracción importante de todos los sitios objetivo microRNA en Drosophila. Para el resto de los sitios del núcleo es imperfecto, y contiene desajustes, bulges, o G: U basepairings. Resultados experimentales han sugerido que los sitios con núcleos imperfecta parece ser funcional sólo cuando compensada por unos vinculante de los 3 'finales de los microRNA al sitio de destino [14, 17]. Aportación a PicTar consta de ortólogos, alineados 3 'UTR secuencias y la búsqueda de uno o varios microRNAs. PicTar primero determinado candidato 3 'UTR alineaciones que contengan un número mínimo de conserva perfecto núcleos, denominados sitios de anclaje. El número mínimo y el grado de conservación de los sitios de anclaje son definidos por el usuario. Cada candidato UTR es buscado por separado de los sitios con núcleos perfecto e imperfecto. Posteriormente, imperfecto sitios tienen la obligación de pasar un filtro de la energía libre. Esto está actualmente establecida en el máximo de dos tercios de la energía libre de la perfección basepaired microRNA-duplex mRNA y, por tanto, elimina la gran mayoría de los sitios con núcleos imperfecto. Sitios con un perfecto núcleo tendrán la facultad de ser objeto de una mucho más leve de energía libre de filtrado de paso (dependiendo de la configuración). Por último PicTar calcula una puntuación (véase Materiales y Métodos], que refleja la probabilidad de que un determinado UTR será dirigida por los miembros del conjunto de búsqueda basado en un modelo de Markov ocultas.

Para estimar el grado de orientación microRNA en Drosophila, hemos utilizado PicTar contar conservadas putativo sitios objetivo perfecto con núcleos (anclas). Los microRNAs utilizados para estas búsquedas constaba de todos conocidas en la actualidad microRNAs, que parecía ser conservadas en todas las especies en estudio (ver Materiales y Métodos]. Para evitar el recuento objetivo de los sitios más de una vez, estamos representados todos los microRNA "familias" que comparten idénticos núcleos por un solo miembro de cada familia. El último conjunto figura 46 microRNAs con núcleos singulares conservados en todas las moscas. Al igual que en nuestro estudio anterior [13], reclutados al azar microRNA cohortes de secuencias para estimar el número de falsos positivos (ver Materiales y Métodos]. En concreto, hemos calculado todos los sitios de anclaje (solo se conserva núcleos) para la serie 1 y el grupo 2 con enmascarados y desenmascarado repite para microRNAs real, así como para los cinco juegos de azar cohortes en cada caso (Figura 2]. Una medida de la especificidad es la señal-ruido, que se define como la relación entre el número de sitios de anclaje para el real frente al azar microRNAs. En cada caso, el resultado es un promedio de más de cinco cohortes y calculó el promedio y la desviación estándar de la señal-ruido. Hemos calculado especificidad y sensibilidad, que requieren diferentes grados de conservación evolutiva de los sitios de anclaje con y sin filtro de la energía libre (Figura 2]. En general, se observó que el uso de la energía libre de filtro o la máscara repite tiende a aumentar la especificidad con modestas pérdidas en la sensibilidad. Se obtuvo mayor relación señal-ruido de los coeficientes establecidos con 2, pero una mayor sensibilidad a la serie 1. Asimismo, se encontró que requieren diferentes grados de conservación evolutiva de los sitios de anclaje firmemente afecta a la sensibilidad y especificidad. Más precisamente, la búsqueda de los sitios de anclaje se conserva entre todos los moscas (en distintos valores de los parámetros) dado una señal-ruido de 2.8-3.6 (serie 1) y 3,3-4,0 (serie 2). La sensibilidad fue, en promedio, 25-33 (serie 1) y 15-29 (serie 2) los sitios de anclaje por encima de microRNA ruido. Ancla sitios conservados en la oscura y grupos melanogaster dado señal-ruido ratios de 2.1-2.4 (serie 1) y 2,3-2,7 (serie 2) con una sensibilidad de 47-57 (serie 1) y 29-40 (el grupo 2 ) Por los sitios de anclaje de ruido por encima de microRNA (Figura 2].

Sobre la base de estos resultados que se definen tres configuraciones, denominado S1, S2 y S3 (véase Materiales y Métodos], que nos permite ajustar el balance entre sensibilidad y especificidad, y para generar predicciones de alta sensibilidad, alta especificidad, mediano y especificidad / Sensibilidad, respectivamente. Para cada uno de los ajustes S1-S3, hemos comprobado la especificidad y el número de transcripciones orientados en función de la PicTar puntaje de corte, es decir, descartando todas las predicciones con un puntaje inferior a un determinado umbral (Figura 3]. Se encontró que el alto puntaje transcripciones han tendido a una mejora significativa especificidad. Por ejemplo, al utilizar la configuración S3 señal-ruido se puede mejorar por un factor de 1,7 sin perder un número considerable de las transcripciones predicho por microRNA. La correlación positiva entre la especificidad y PicTar resultado es consistente con nuestra observación de que algunos sitios de anclaje no hacer una contribución a la puntuación. Estos sitios parecen estar "dispersos", es decir, están presentes sólo en algunas especies o no se encuentran en todas las especies en la misma posición en la alineación. Hemos experimentado con relajante nuestro sitio de anclaje definición para incluir casos en los que un perfecto núcleo se encuentra en todas las especies en estudio, pero no necesariamente en la superposición de posiciones en las alineaciones. La señal-ruido disminuyó en todos los entornos S1-S3 (por ejemplo para el S3 de 3,3 a 2,6), sin ninguna ganancia significativa en la sensibilidad. Por lo tanto, llegó a la conclusión de que muchos sitios dispersos podrían ser funcionales, pero debe ser anotado sólo cuando se producen en relación con los sitios de anclaje, tal como se aplican en la PicTar algoritmo.

Previo análisis de la orientación en los vertebrados microRNA [6, 8, 13, 15] y de las moscas [5, 14] sugiere que una fracción importante (10% -30%) de todas las proteínas de los genes de codificación en ambos clados se rigen por microRNAs. Usando la configuración de S3 (o S2), encontramos que el 15% (13%) de todos los anotada aproximadamente 10000 singular melanogaster 3 'UTR transcripciones (correspondientes a unos 10000 genes) tienen al menos un sitio de anclaje que se conserva en las siete especies de moscas en Una señal-ruido de alrededor de tres (cuatro). Por lo tanto, con la configuración de S2 o S3, aproximadamente el 10% de todas las transcripciones se prevé están dirigidos por microRNAs encima del ruido en todas las moscas. Para estimar el número de genes podría ser regulada por más de un microRNA, contamos con todas las transcripciones de por lo menos dos sitios de anclaje. La aplicación de la alta especificidad establecimiento S2, encontramos que la búsqueda de multiplicar orientados transcripciones mejora aún más la especificidad de un grado (Figura 4]. Por ejemplo, hemos encontrado siete veces transcripciones dirigida con al menos dos sitios de anclaje para microRNAs real en comparación con el azar microRNAs. Con la configuración de S2 y S3, que predijo que el 30% de todas las transcripciones se han dirigido más de un sitio de anclaje. Por último, para nuestro gran sensibilidad S1 encontramos que el 27% de todas las transcripciones tienen al menos un sitio de anclaje en un solo sitio señal-ruido de aproximadamente 2,2. De ellos, 40% se encuentran al menos dos sitios de anclaje.

En resumen, sobre la base de nuestra alta sensibilidad, que prevé que al menos el 15% de todos los genes de D. melanogaster con la actualidad anotado 3 'UTR secuencias se rigen por al menos un microRNA conocido, y que al menos una quinta parte de estos Drosophila MicroRNA objetivos podrían ser objeto de coordinar el control de dos o más microRNAs de diferentes familias microRNA (por encima del ruido). Proporcionamos clasificado PicTar objetivo predicciones para todos los microRNAs conservadas, todas FlyBase transcripciones, y la configuración S1-S3 búsquedas en nuestro sitio web ( Http://pictar.bio.nyu.edu ). Los resultados, vinculada a otras bases de datos públicas, pueden ser solicitados por los genes de interés o de interés microRNAs.

El pago de la Experimentalmente Validado microRNA Objetivos en la Drosophila

Anteriormente hemos demostrado que PicTar tiene una excelente tasa de recuperación de validados Caenorhabditis elegans microRNA objetivos [13]. Analizar la recuperación de los objetivos validados experimentalmente en Drosophila, se recogieron los 19 microRNA son objeto de reglamentación de las relaciones de la literatura [4, 12, 24]. La coincidencia con PicTar predicciones a través de la configuración de S1-S3 se resume en la Tabla 3. La apoptosis se escondió gen / arrugada está dirigido por el microRNA bantam [24]. Para todos los entornos S1-S3, se ocultó la parte superior con calificaciones bantam objetivo (PicTar Resultado de 17,3) y cuenta con cinco sitios de anclaje conservadas en todos los moscas. En particular, se escondió el blanco de bantam ha PicTar la segunda puntuación más alta dentro de todos nuestro objetivo predicciones. El único gen con una puntuación más alta (40,5) es nerfin-1, que contiene dos sitios de anclaje para miR-286 (o equivalente miR-279) conservadas en todas las moscas, y muchos otros lugares para el mismo microRNA (ver Discusión].

El gen de señalización Notch peludo fue predicho recientemente [4, 9] y validado como un objetivo de miR-7 con un solo sitio de unión [4]. PicTar encontrado un miR-7 ancla sitio conservadas en todas las moscas de la oscura melanogaster y grupos, mientras que el sitio en el D. Virilis parece ser ligeramente desplazado aguas arriba. Por lo tanto, esta meta es recuperado con el establecimiento de S1, pero no con la configuración de S2 y S3. Hay evidencia experimental de que miR-7 también metas y HLHm3 E (spl) m4, dos genes que se encuentran en el E (spl) complejos [4]. Por HLHm3, PicTar predice un miR-7 en el sitio de destino conserva todas las moscas (con todos los ajustes). El gen E (spl) m4 no contaba con una anotada 3 'UTR, pero se recuperó tras añadir el probable 3' UTR secuencia a nuestra base de datos [4]. Otro gen de la E (spl) compleja, HLHm5, es el objetivo de más alta jerarquía de genes de miR-7 en la búsqueda de objetivos conservadas en todas las moscas (con ajuste S2; rango 2 con el establecimiento de S3). Objetivo predicciones a un nivel reducido de la conservación (ajuste S1) también HLHm5 rendimiento como el alto rango meta miR-7. El gen Notch Barbado se recupera como un objetivo de miR-4 (o miR-79, equivalente). Con el establecimiento de S1 se encontraron tres sitios se conserva en su 3 'UTR. Estas llamadas Barbado cajas se han indicado para mediar en la represión de genes de un reportero con una Barbado 3 'UTR in vivo [25]. Este gen es de nuevo muy alta puntuación (15,6) y ocupa el segundo lugar en la lista de miR-4 meta predicciones (ajuste S1). Esta meta no es recuperado con los otros ajustes, ya que la alineación de este gen no contengan la secuencia de D. Mojavensis y D. Virilis. MicroRNA Lo mismo se cree que reprimir gaita [14], que ocupa el segundo lugar en la lista de miR-4 meta predicciones (S3).

Los genes proapoptóticos reaper, sombría, de hoz y se validan las metas de la familia miR-2 [4]. Por hoz hemos encontrado un sitio en conserva para todos los moscas miR-2, miR-13 y miR-6, que comparten el mismo núcleo. Por reaper, hemos recuperado un sitio para el mismo microRNAs en el grupo melanogaster y oscura con la configuración S1, mientras que el otro no para determinar la configuración de este objetivo debido a la falta de secuencia de este gen en el D. Mojavensis. Sombrío es el único objetivo de este grupo no recuperados por PicTar, ya que sólo tiene una 6mer núcleo para miR-2.

Un reciente algoritmo para la predicción de microRNA objetivos no se basan en la información evolutiva, pero incorporó el 3 'UTR estructura secundaria para calcular putativo microRNA objetivos [12]. Algunas de las predicciones de puntuación alta podría ser apoyado por luciferase reportero construye en líneas celulares. Hemos recuperado cuatro objetivos de esta lista (miR-7/HLHm5, miR-279/SP555, miR-124/Gli, y miR-310/imd), pero no se conservan los núcleos para localizar los otros seis objetivos (véanse los comentarios en el cuadro 3 ). Sorprendentemente, de los nueve objetivos computacionalmente predijo que se ensayadas experimentalmente, pero no mostraron ninguna actividad de la represión (probablemente falsos positivos) [12], que sólo prevé una meta de reglamentación microRNA-relación (miR-286/boss).

En resumen, PicTar recuperado 8 / 9 (89%) de todos los objetivos conocidos con pruebas experimentales in vivo y 4 / 10 (40%) con otros de los objetivos con el establecimiento experimental de apoyo S1, es decir, que requieren la conservación de los sitios de anclaje sólo en las moscas de Melanogaster y la oscura grupos. Sólo tres de todos los objetivos experimentales con el apoyo que requieren cuando se perdieron entre la conservación de todas las especies de moscas y por lo tanto no se recuperaron con la configuración de S2 y S3.

Algunos agrupan microRNAs pueden regular la expresión de genes coordinadamente

Expresión ensayos han demostrado que los microRNA genes que se encuentran en la misma región genómica dentro de los 50 kb de unos a otros son a menudo co-expresadas [18, 19], lo que sugiere la posibilidad de que puedan regular coordinadamente objetivo común de los genes. En D. Melanogaster, hemos identificado siete grupos dentro de los 50 kb-regiones que contenían precursores de por lo menos dos microRNAs conservados de las diferentes familias. Para identificar los objetivos comunes de microRNAs agrupadas en las moscas, hemos utilizado para predecir PicTar coordinar metas para cada uno de estos grupos microRNA (PicTar disponible en el servidor). Cuadro 4 ofrece una visión general de todos los grupos, su ubicación en el genoma de Drosophila, la abundancia de Orientados transcripciones, y, siempre que sea microRNA todos los genes de un grupo determinado se encuentra en un intrón de otro gen, el identificador de este gen. Para evaluar si miRNAs agrupadas dirigidas a los mismos genes con más frecuencia de lo esperado por azar, hemos considerado todos los 1128 pairwise combinaciones de los 48 únicos conservados microRNAs. Aunque pares de microRNAs del mismo grupo representan sólo el 2,1% de estas parejas, 132 genes que figura al menos un sitio de anclaje para cada uno de estos microRNA agrupadas pares (mediante el establecimiento de S1), o el 12% de los 1104 genes que contienen al menos dos Diferentes sitios de anclaje para cualquier combinación de estos 48 microRNAs. Así, algunos pares de agrupaciones de microRNAs pueden regular coordinadamente una proporción significativamente mayor de genes (12%) de lo esperado (2,1%). Además, el número de genes objetivo previsto para pares de microRNAs se agrupan en dos veces el número esperado de conjuntos de extraer al azar de 24 pares entre los 48 conserva microRNAs, que es importante por tres desviaciones estándar (véase Materiales y Métodos]. Estos hallazgos apoyan la hipótesis de coordinar el control ejecutado por agrupadas microRNAs.

Biológicas y moleculares Clasificación de las Metas prevista microRNA

Que permite conocer mejor la función de Drosophila microRNAs, hemos utilizado GeneMerge [26] para analizar la sobre-representación de los términos específicos GO [20] en la anotación funcional de los genes predijo que se orienten los microRNA por un particular frente a un fondo de genes (véase Materiales y Métodos]. Para evitar potencialmente estadística espuria significaciones, optamos por no utilizar todos los genes como fondo, sino que construyó una serie de antecedentes que comprende todos los objetivos para predecir tanto real como microRNAs azar. Desde el "proceso biológico" ontología, un total de 112 excesivamente representados GO términos se identificaron; el 70% de los genes conjuntos dirigidos individualmente por conservadas microRNAs y dos conjuntos de combinatoria objetivo microRNA predicciones para grupos de por lo menos una figura excesivamente representados GO Plazo (Figura 5 A). Para la "función molecular" ontología, un total de 25 excesivamente representados GO categorías se obtuvieron entre el 36% de todos los conjuntos de genes microRNA objetivo y un conjunto de objetivos microRNA grupo (Figura 5 B). De acuerdo con las estimaciones previas [1, 2], nuestros datos indican que los microRNAs regulan una gran variedad de genes diferentes en muchos procesos biológicos. A nivel mundial prominente GO términos se morfogénesis, organogénesis, el desarrollo (incluido el desarrollo embrionario, y anterior / posterior y dorsal / ventral eje especificación), la neurogénesis, la transducción de señales (incluyendo Notch, Torso, Sevenless, Frizzled y señalización), y la regulación transcripcional. Nuestro general de la superposición con otra GO análisis para volar microRNA objetivos en un estudio reciente fue marginal, muy probablemente no sólo debido a las diferencias en los enfoques para la identificación de más de GO-representados, sino también la distinta naturaleza de sitio de destino predicciones hechas por PicTar y la Publicado miRanda algoritmo [5].

Nuestros datos son compatibles con y amplió el resultado de un estudio reciente que utiliza GO análisis funcional para predecir microRNA objetivo genes [4], en la que miR-7 se predijo que se activa en la señalización Notch y miR-277 en valina, leucina, isoleucina y Degradación. Por miR-277, hemos recuperado los nueve predijo objetivos y encontró otros cinco genes (CG3267, CG4389, CG4600, CG6638, y CG8778) en p <10 -7. Metas de miR-7 predicha por PicTar vía Notch incluyen muchos genes, así como las metas de señalización Notch, incluyendo E (spl) m5, Tom, Bob, E (spl) m γ, Barbado, E (spl) m3, y E (spl ) M4, la mayoría de las cuales son de muy alta puntuación (mediante el establecimiento de S1). Además, muchos de los objetivos de señalización Notch también se prevé como objetivos de Barbado-box microRNAs miR-4 y miR-79 (E (spl) m5, Barbado, E (spl) m γ, y Tom) y de la caja de K-microRNAs MiR-2 y miR-11 (E (spl) m5, E (spl) m2, E (spl) δ m, y E (spl) m3), en concordancia con observaciones anteriores [27]. Otros conocidos Notch objetivos se han incluido en las listas PicTar objetivo si sus 3 'UTRs fueron anotados en el actual FlyBase liberación (datos no presentados). Tomamos nota de que la mayoría de los objetivos Notch PicTar predicha por no haberse previsto si estrictas energía libre de filtrado se aplican para predecir microRNA-duplex con destino perfecto núcleos.

Comparación de los microRNA Metas entre moscas y vertebrados

Anteriormente, se aplicó PicTar exhaustiva búsqueda a 3 'UTR alineaciones de los ocho vertebrados (humanos, chimpancé, ratón, rata, perro, pollo, pufferfish, y pez cebra) para microRNA sitios objetivo [13]. Para comparar el grado de orientación en microRNA moscas y vertebrados, primero en comparación longitud, contenido de repetición, y la conservación de los 3 'UTRs entre ambos clados, utilizando nuestros conjuntos de datos derivados de la UCSC base de datos para la coherencia. Nos centramos en la comparación de 3 'UTRs entre D. Melanogaster y humanos desde el 3 'UTRs de estas especies fueron extraídas sobre la base de transcripciones anotada. Se encontró que la duración de distribución de 3 'UTRs y la distribución de las repeticiones dentro de los mismos son muy similares entre todos los mamíferos, y entre todas las moscas, respectivamente, por lo que las comparaciones entre humanos y D. Melanogaster UTRs debe revelar diferencias esenciales entre los dos clados. Se encontró una distribución mucho más amplia de 3 'UTR en longitudes de las moscas que en los mamíferos, con un rendimiento promedio de aproximadamente 900 nucleótidos por 3' UTR para humanos y aproximadamente 400 nucleótidos por 3 'UTR en el D. Melanogaster (Figura 6], en consonancia con los resultados anteriores [28]. El examen de la contribución de la repetición de elementos, encontramos que se repite constituyen el 11% de todos los humanos 3 'UTR secuencias en comparación con 4% en el D. Melanogaster (Tabla 5]. Curiosamente, se repite a corto (hasta alrededor de 50 nucleótidos), la duración en la distribución D. Melanogaster y humanos es similar (Figura 7]. Para más elementos en la distribución de las moscas sigue decaimiento exponencial con la misma pendiente, mientras que el ser humano muestra una distribución amplia cola con otro pico importante centrado alrededor de unos 300 nucleótidos. Analizar 3 'UTR conservación, que contó todos los 7mers que parecía ser perfectamente conservado en cada 3' UTR alineación múltiple y dividido por estas cuenta la longitud de la 3 'UTR secuencia. Encontramos que la probabilidad de que un nucleótido a residir en un conservadas 7mer es comparable entre alineaciones de vertebrados (incluidos los humanos, chimp, ratón, rata, perro, y de pollo) y que cubre todas las alineaciones especie de mosca en nuestra base de datos (0,02 y 0,03, respectivamente) . Del mismo modo, el 3 'UTR de conservación es comparable entre los mamíferos y las moscas en la oscura y grupos melanogaster (0,06 y 0,08, respectivamente). La contribución de la repetición de elementos que conservan 7mers es sustancialmente diferente en los vertebrados y de las moscas (Cuadro 6]. Enmascaramiento repite reducido el número de bases en la 7mers conservadas aproximadamente en el 1% de los vertebrados y cerca del 10% en las moscas. Así, se repite en el 3 'UTRs parecen ser mucho mejor conservada en las moscas que en los vertebrados y, por tanto, pueden ser de importancia funcional de las moscas.

El alcance de la regulación microRNA parece más o menos comparables entre las moscas y los mamíferos en general, con varios interesantes clado diferencias específicas. En los vertebrados, y otros [6, 8] encontraron que aproximadamente el 30% de todos los genes que pueden estar reguladas por microRNAs. Esto es el doble del número que se encuentra en las moscas (15%), pero esto podría explicarse por el menor número de conocidos microRNAs en moscas y otros motivos (ver Discusión]. Más interesante, hemos comprobado si los microRNAs parece objetivo similar o muy diferente número de genes en los mamíferos frente a las moscas, ya que esas diferencias podrían ser indicativos de clado de cambios específicos en función microRNA. Para mantener una razonable sensibilidad en blanco predicciones para este análisis, hemos utilizado humanos, chimp, ratón, rata, perro y predicciones para la meta en los mamíferos y la oscura melanogaster y grupos de predicciones en las moscas. Hemos definido un conjunto de 48 homólogos en mamíferos microRNAs y moscas (véase Materiales y Métodos], y calculado el número medio de microRNA objetivos en ambos clados. Luego se calculó el coeficiente de los objetivos previsto por microRNA a la media por separado para cada clado (Cuadro 7]. Un gráfico de dispersión de estas ratios (Figura 8], demuestra una correlación entre el número de genes dirigidos por microRNAs homólogos en mamíferos y moscas. Sin embargo, ciertos microRNAs parecen tener un número significativamente más elevado de la meta en cualquiera de los dos genes de los seres humanos (miR-10, miR-133, miR-125, y mucho-7, y miR-285) o moscas (miR-184 y miR-210) . Por ejemplo, para dejar-7 encontramos 1,64 como muchos genes diana como se esperaba, en promedio, en los mamíferos, pero sólo alrededor del 50% de la media esperada en el número moscas. Es imposible determinar a partir de este análisis si microRNAs han adquirido más objetivos en un clado o perdido metas en el otro, pero es sorprendente que tanto humanos homólogos de la mosca microRNAs miR-184 y miR-210 se expresan en baja abundancia en muchos Tejidos humanos, mientras que los homólogos de miR-10, miR-133, miR-125, y mucho-7, y miR-285 se expresan en general en niveles mucho más altos [19]. Hacemos hincapié en que los homólogos humanos de miR-10 y miR-133 tienen la media o por debajo de la media el número de objetivos previsto en humanos. Nuestros datos indican que por encima de los siete microRNAs pueden funcionar en clado específicos de los modos de regulación de genes.

Por último, hemos calculado que de reglamentación microRNA-mRNA relaciones parece ser conservado entre las moscas y los mamíferos (véase Materiales y Métodos]. Desde 8136 todos los homólogos humanos-D. Melanogaster pares de genes en nuestra base de datos, 50 pares de genes únicos se prevé que sea blanco de las homóloga microRNAs (que se enumeran en la Tabla S1]. Estos 50 pares comprenden aproximadamente el 60 microRNA-mRNA regulador relaciones. Aunque estas cifras son pequeñas, rigurosas pruebas de permutación indicó que el resultado fue marginalmente significativa (1,7 desviaciones estándar) (véase Materiales y Métodos]. Tal vez no resulte sorprendente, casi la mitad de los 50 D. Melanogaster genes pertenecen a la categoría GO "desarrollo", y "histogénesis" se ha asignado a 13 de esos 24 genes. Ambos resultados son importantes (véase Materiales y Métodos].

Discusión
El Post-Grado de Transcriptional Reglamento de genes en Drosophila mediada por microRNAs

La secuenciación de los genomas de varias especies de Drosophila resultado ser un recurso valiosísimo para el análisis de los objetivos en microRNA moscas. Cruz-especies comparaciones nos permitió llegar a mejorar considerablemente la sensibilidad y especificidad de las predicciones microRNA objetivo, en comparación con los últimos enfoques. Por ejemplo, estudios previos han pronosticado, en promedio, ocho genes por microRNA (ver [14] y las referencias en él), mientras que nuestros datos nos permiten (con alta sensibilidad S1) para predecir 54 genes diana microRNA por encima del ruido en D. Melanogaster. La exigencia de la conservación en todas las moscas, todavía predecir, en promedio, más de 23 y 30 genes diana por microRNA, para la configuración de S2 y S3 respectivamente, en un fuerte aumento de señal-ruido.

Sobre la base de nuestro objetivo de las predicciones, nos encontramos con que actualmente se conoce microRNAs se espera que la regulación de una fracción grande de todos D. Melanogaster genes (15%). Este número es casi seguro que una subestimación, ya que (a) la anotación de 3 'UTRs es incompleta, (b) las secuencias de los genomas de varias especies de moscas todavía contienen grandes lagunas, y (c) se espera que muchos más microRNAs permanecer en la mosca Por descubrir. De hecho, la utilización de un enfoque similar a la de un reciente estudio comparativo de los mamíferos [15], analizamos volar 3 'UTRs a través de las siete especies y encontró fuerte evidencia de la existencia de un número considerable de volar aún sin descubrir genes microRNA (N. Rajewsky , Datos no publicados).

El número de objetivos por microRNA predijo que es coherente con las recientes estimaciones de que el número real de microRNA objetivos por Brennecke et al. [14]. En ese estudio, los autores analizaron la significación estadística de los núcleos y conservadas 8mer conservadas 7mer núcleos y llegó a la conclusión de que la gran mayoría de los sitios objetivo computacionalmente detectables poseían al menos un núcleo 7mer conservadas. Nuestro método es similar a este enfoque, pero se diferencia en el mayor número de especies incluidas en la conservación de nuestro análisis. La exigencia de niveles similares de conservación de los rendimientos de secuencias más o menos comparables número de genes diana por microRNA para ambos métodos. En una serie de casos en nuestra base de datos, brechas en las asambleas artificialmente reducir el número de objetivos previsto. Por otra parte, utilizando las siete especies de Drosophila nos permitió casi el doble de la señal-ruido. En el futuro, además de conclusión de las asambleas de la Drosophila genomas casi seguro que aumentar el número de PicTar predicciones.

Comparación con nuestro anterior algoritmo

Anteriormente, había publicado un algoritmo para microRNA objetivo la identificación y la utilizó para predecir microRNA objetivos dentro de un centro de desarrollo conjunto de genes implicados en el cuerpo del patrón de Drosophila [9]. En nuestro modelo de sitio de destino reconocimiento, que han introducido el concepto del núcleo como un tramo perfecto de Watson-Crick basepairings entre los microRNA y sitio de destino y ha demostrado que el núcleo (a) es típicamente 6-8 bases de largo, ( B) es el componente central de la especificidad de reconocimiento objetivo, y (c) puede servir como un sitio de nucleación para permitir una rápida zip hasta el núcleo de la región de los microRNA-duplex mRNA [9]. Este modelo de sitio de destino reconocimiento explícitamente propone una explicación de la base física de reconocimiento de que el sitio de destino combinado cinética y termodinámica componentes. Una reciente publicación experimental apoya esta idea [29]. Tuvimos también observó que la posición del núcleo en el microRNA se conservan a menudo y en el 5 'finales, lo que indica que el mismo cis-regulador motivo puede utilizarse para coordinar la acción de un microRNA a través de los diferentes genes. Comparamos nuestra había previsto, microRNA-mRNA de reglamentación actual de las relaciones con nuestros PicTar predicciones. Hemos encontrado que de todos los casos en que los genes estaban presentes en ambas bases de datos, 11 de los 30 sitios anteriores se predijo, precisamente, recuperado por PicTar. Varias de las predicciones no son recuperados por PicTar porque nuestro algoritmo anterior no restringir el núcleo a los 5 'finales de los microRNA.

Futuras mejoras PicTar

La mejor puntuación que los genes de todos los microRNA único sitio de destino predicciones se nerfin-1, con dos sitios de anclaje para miR-286 conservado en todas las moscas y muchos otros, no alineados presentes en todos los sitios de las moscas. Los errores o ambigüedades en la alineación a menudo puede explicar la presencia de estos "dispersos" sitios. Además, la compensación podría dar lugar a mutaciones de los países no alineados y, sin embargo, funcionalmente conservado sitios objetivo en un 3 'UTR. En la actualidad, estos resultados PicTar sitios dispersos de la misma manera que se conservan las puntuaciones de los sitios, siempre y cuando ambos se dan en la misma UTR. Las futuras mejoras en el algoritmo debe explorar (a) explícita modelos evolutivos para la evolución de la 3 'UTR y secuencias microRNA sitios objetivo, (b) la mejora de la puntuación probabilística de los sitios con núcleos imperfecta [14], (c) la incorporación de la estructura de la información secundaria [12], (d) la incorporación de los niveles de ARNm de expresión (por ejemplo, experimentos de microarrays), y (e) los niveles de expresión de microRNAs.

Nuestros datos indican que algunos agrupados microRNAs pueden regular coordinadamente genes diana. Además, se ha demostrado que agrupan microRNAs es probable que se co-expresó. El uso de múltiples co-expresó microRNAs coordinadamente para regular objetivo genes podría ser una forma eficaz de aumentar la especificidad de la regulación de genes objetivo, y también puede mejorar la robustez de la expresión de los genes objetivo en contra de las fluctuaciones en los niveles individuales microRNA concentraciones. Tomamos nota de que nuestros datos sugieren que sólo agrupan microRNAs son más propensos a regular coordinadamente por objetivo coordinar genes vinculante a sus 3 'UTRs que los no agrupados microRNAs. Muchos microRNAs que residen en los grupos también parecen meta sin genes adicionales para microRNAs sitios de unión de la misma categoría. Por el contrario, parece que hay muchas posibilidades de los distintos grupos de microRNAs coordinadamente obligar a los mismos genes diana.

La Evolución de la Función microRNA a través de grandes distancias Evolutiva

MicroRNAs ofrecen la excitante posibilidad de estudiar la evolución de trans-genes reguladores que actúan junto con la evolución de sus cis-regulador sitios objetivo utilizando métodos computacionales. En este estudio, sólo hemos abordado este problema comparando el número estimado de genes dirigidos por microRNA en un clado al número previsto de los objetivos para los microRNA homóloga en otro clado, en la que, por nuestra definición de homología, es probable que se unen A los mismos sitios cis-reguladores. Advertimos que nuestra definición de homología también se refieren a microRNAs que pueden haber evolucionado independientemente en uno o ambos clados. Sin embargo, nuestra relación no trivial arrojó una correlación entre el número de genes dirigidos por microRNA en moscas y vertebrados, lo que indica que el número relativo de los objetivos microRNA por microRNA tiende a ser conservadas durante distancias muy grandes evolutivo. Por el contrario, sólo un número relativamente escaso de microRNA-mRNA específicas de regulación de relaciones parece ser conservadas entre ambos clados. Este escenario alude a la conservación global de la "red" características de la regulación génica mediada por microRNAs mientras que implican a microRNAs en una amplia renovación de post-transcripcional de genes en la regulación organismal evolución.

Resulta sorprendente que algunos microRNAs (incluida la de los 7 años) que puedan tener un gran número de genes diana en los vertebrados parecen tener una relación muy reducido número de objetivos en moscas, y viceversa. Hemos señalado tres microRNAs (miR-184, miR-304, y miR-210), con una drástica mayor número relativo de los objetivos en comparación con las moscas vertebrados. Nuestro análisis GO plazo para microRNA objetivos reveló que uno de ellos (miR-210) ha pronosticado más de 70 genes diana, que, como grupo, se enriquecieron significativamente (p <0,03 para múltiples después de la corrección de pruebas) para el 11 de genes con la anotación GO " Gameto femenino generación "(vea la Figura 5 A). Estos 11 predijo miR-210 metas se cortan, egghead, de células germinales menos, los gurken, rombo, par-1, el oncogén Ras en 85D, romboidal-4, ARN-proteína de unión 9, firmado, y slalom. La mayoría de estos genes son Evolutivamente conservados y tienen un papel conocido en Drosophila oogenesis, ya sea en el desarrollo y el patrón de los ovocitos o en la diferenciación de las células somáticas folículo que rodean el desarrollo de huevos de cámara, y siete de los 11 están implicados en el desarrollo crítico de las vías de señalización del receptor tirosina quinasas , Notch, alas, o erizo (véase el Protocolo de S1]. Desarrollo de un ovocito maduro Drosophila involucra una compleja secuencia de acontecimientos que deben ser, precisamente, orquestada en el tiempo. Un sorprendente número de los genes de la lista de arriba juegan un papel importante en los acontecimientos que deben tener lugar dentro de una ventana de tiempo durante oogenesis, muchas de las cuales implican la señalización entre la línea germinal y soma. Por lo tanto, un importante tema de la emergente miARN regulación puede girar en torno a la gran necesidad de un control preciso de los eventos spatiotemporally restringido durante el desarrollo. Además, en Drosophila oogenesis se produce a través de un programa de desarrollo muy diferentes que en los vertebrados. Por lo tanto, es interesante que un solo potencialmente microRNA ha evolucionado para incluir una amplia gama de destinatarios genes que son importantes para este proceso de desarrollo divergentes. Sin embargo, muchos de estos objetivos potenciales no se limitan a oogenesis función, pero también en otros momentos y lugares, incluidos los ojos, el sistema nervioso, y epitelios, y una serie de otros predijo miR-210 también función de los objetivos en estos tejidos (por ejemplo, la flecha , Cacofonía, trío, Sema-1b, makorin, Van Gogh, Syntaxin 17, G-o α47 A, RhoGAP92B, cul-2, Apc, y Scm). Por lo tanto, esta microRNA puede desempeñar funciones más complejas pleiotrópicos en el desarrollo de redes. Llegamos a la conclusión de que algunos microRNAs pueden ser candidatos a los genes que median clado específicos de las diferencias en la expresión de genes, y podrían desempeñar un papel importante en la configuración de la diversidad de la vida.

Materiales y Métodos
Apoyo a la Información
Examen detallado de la predicho
(170 KB DOC).
Los genes homólogos entre moscas y mamíferos, dirigido por Homologous microRNAs
(71 KB XLS).
Pareja microRNAs conservadas en todas las moscas de Nuestra Dataset
(18 KB XLS).
Pareja microRNAs conservadas en el
(20 KB XLS).
Conjunto de Unique, Conservadas Pareja microRNAs utiliza para Compute señal-ruido Ratios
(18 KB XLS).

Reconocemos la Agencourt Bioscience Corporation ( Http://www.agencourt.com/ ) De la Drosophila ananassae, Drosophila erecta, Drosophila mojavensis, Drosophila virilis secuencia de datos, el Centro de Secuenciación del Genoma, WUSTL Facultad de Medicina ( Http://genome.wustl.edu/ ) De la Drosophila yakuba secuencia de datos, y el Centro de Secuenciación del Genoma Humano en el Colegio de Medicina de Baylor ( Http://www.hgsc.bcm.tmc.edu/ ) De la Drosophila pseudoobscura secuencia de datos. Estamos en deuda con Colin Dewey, Nicolas Bray, y Lior Pachter para darnos las siete direcciones múltiples alineación. Damos las gracias a Jim Kent y Angie Hinrichs para ayudar con la UCSC El archivo de base de datos del genoma. También damos las gracias a Thadeous Kacmarczyk excelente para la administración de nuestros ordenadores y Nicholas Socci para ayudar con la representación gráfica de la agrupación de resultados. Damos las gracias a S. Cohen para los debates. Reconoce una Dirección General de Servicio Alemán de Intercambio Académico (DAAD). Esta investigación fue financiada en parte por el Instituto Médico Howard Hughes de subvención a través de la Licenciatura en Ciencias Biológicas del Programa de Educación de la Universidad de Nueva York.