BMC Evolutionary Biology, 2007; 7: 23-23 (más artículos en esta revista)

Evolución molecular de la proteína ependymin familia: una necesaria actualización

BioMed Central
C Edna Suárez-Castillo (edna@hpcf.upr.edu) [1], José E García-Arrarás (jegarcia@hpcf.upr.edu) [1]
[1] Departamento de Biología, Universidad de Puerto Rico, Río Piedras Campus, 00931, Puerto Rico

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Ependymin (EPD), la principal proteína en el líquido cefalorraquídeo de peces teleósteos, fue originalmente asociado con la regeneración y Neuroplasticidad. Ependymin relacionados con las proteínas (Epdrs) se han identificado en otros vertebrados, incluidos los anfibios y mamíferos. Recientemente, se informó de la identificación y caracterización de un Epdr a los equinodermos, lo que demuestra que hay ependymin miembros de la familia en no deuterostomes vertebrados. Ahora hemos explorado múltiples bases de datos para encontrar Epdrs en metazoan diferentes especies. El uso de estas secuencias, hemos realizado la cartografía del genoma, los análisis filogenéticos moleculares utilizando máxima verosimilitud y métodos Bayesianos, y pruebas estadísticas de topologías de árboles, para determinar la relación filogenética entre ependymin proteínas.

Resultados

Nuestros resultados demuestran que ependymin genes también están presentes en protostomes. Además, como resultado de la putativo de pescado específicas del genoma y la duplicación caso de divergencia posterior, la familia ependymin pueden dividirse en cuatro grupos de acuerdo a su composición de aminoácidos y de patrón en el árbol de genes: 1) un cerebro-grupo específico de ependymin secuencias que es exclusiva de peces teleósteos y abarca las inicialmente descritas ependymin, 2) un grupo se expresa en no-tejido cerebral en los peces, 3) un grupo se expresa en varios tejidos que parece ser Deuterostomia específicos, y 4) encontraron un grupo deuterostomes en invertebrados y protostomes, con un amplio patrón de expresión y que probablemente representa el origen evolutivo de la ependymins. Utilizando el codón de sustitución de modelos para evaluar estadísticamente la presiones selectivas que actúan sobre la proteína ependymin familia, hemos encontrado pruebas de episódicas darwiniano de selección positiva y relajada selectiva limitaciones en cada uno de los postduplication ramas de la genética de árboles. Sin embargo, la depuración de selección (con el terreno entre la variabilidad) parece ser la principal influencia sobre la evolución de cada subgrupo dentro de la familia. Funcional divergencia entre los grupos ependymin paralog está bien apoyado y varias posiciones de aminoácidos se predice para ser crítico para esta divergencia.

Conclusión

Ependymin proteínas están presentes en vertebrados, invertebrados deuterostomes, y protostomes. En general, nuestros análisis sugieren que la proteína ependymin familia es un objetivo adecuado a prueba experimentalmente en subfunctionalization copias de genes que se originaron después de genes del genoma o la duplicación.

Fondo

Ependymin (EPD), una glicoproteína que se encuentra en altas concentraciones en el líquido cefalorraquídeo de peces teleósteos fue originalmente asociada con los procesos de aprendizaje en los peces [1]. A pesar de que la secuencia de la proteína original se obtuvo en la década de 1980 por los métodos clásicos de purificación de proteínas, con el advenimiento de la biología molecular la EPD genes de muchas especies de peces se han secuenciado [2 - 6]. EPD secuencias se han decidido a ser un instrumento útil para el estudio la filogenia de los peces teleósteos [6], sobre la base de alto piscine conservación de secuencias en regiones determinadas (es decir, en el total de proteínas de dominio, especialmente cerca de los posibles sitios de glicosilación) y la divergencia de alta a otros (es decir, en el amino y carboxilo extremos) conservando al mismo tiempo suficiente señal filogenética de resolver con confianza la relación entre los taxones alejadas.

Más recientemente ependymin relacionados con las proteínas (Epdrs) se han identificado en otros vertebrados incluidos los anfibios y los mamíferos [7, 8]. Desde EPDS y Epdrs se habían encontrado sólo en especies de vertebrados, esta familia de proteínas se consideró exclusivo de este grupo [9 - 11]. Sin embargo, el descubrimiento de nuestro grupo de un gen en epdr equinodermos puso de manifiesto que la familia se extiende a los no vertebrados y deuterostomes EPDS se preguntó si podría ser una proteína específica Deuterostomia familia [12].

Las diferencias en la secuencia de tejidos y expresión entre los peces y mamíferos, también se hicieron patentes en nuestro anterior trabajo. Considerando que los peces en la conocida EPD son proteínas específicas del cerebro [13 - 15], en los mamíferos la EPD proteína se expresa en diferentes tejidos [7, 8]. Por otra parte, según nuestro análisis filogenéticos inicial, el echinoderm secuencias agrupados con los de los mamíferos y la transcripción EPD mostró un amplio patrón de expresión en tejidos echinoderm [12].

La disponibilidad de nueva secuencia de datos de piscine etiquetas de secuencias expresadas (EST) proyectos, nos ha permitido identificar otras EPD miembros que curiosamente fueron aislados de no-tejido cerebral. Algunos de estos "nuevos" EPD secuencias de vino de los peces como pez cebra, cuyo cerebro-EPD gen específico ha sido bien caracterizado [16]. Pez cebra no cerebro derivados EPD EST mostró diferencias significativas (en la expresión y los niveles de aminoácidos) de la anteriormente conocida cerebro asociadas EPD. Este hecho sugiere que la EPD familia de proteínas fue mayor y más compleja de lo que se pensaba anteriormente, y nos animó a realizar una búsqueda sistemática en múltiples bases de datos para los nuevos miembros de esta familia de proteínas en diferentes metazoos. Nuestro objetivo era doble. En primer lugar, estamos investigando si el cerebro no específicos piscine EPD proteínas son evolutivamente más relacionadas con el anteriormente conocido cerebro-piscine secuencias específicas, o si, como se sugiere en su más amplia expresión patrón, eran más cerca de mamíferos y echinoderm EPDS. En segundo lugar, hemos examinado para detectar la presencia de EPD de dominio que contienen las proteínas en protostomes.

Nueva EPD proteínas fueron identificadas en nuestro estudio de múltiples metazoan tecnologías ecológicamente racionales y bases de datos del genoma. El uso de estas secuencias y todos los anteriormente conocido EPDS, nos reunimos la más completa de datos de EPD hasta la fecha para los análisis filogenéticos y la evaluación de la presión de selección natural. Fue en este contexto que hemos intentado determinar cuál es la relación, en su caso, existe entre la historia evolutiva de esta familia de genes y tejidos específicos de patrones de expresión génica.

Nuestros resultados demuestran claramente que EPD de dominio que contienen las proteínas están presentes en vertebrados, invertebrados deuterostomes, y protostomes. Además, nuestro análisis filogenéticos sugieren que dos peces específicos de las duplicaciones del genoma en forma de la evolución de la EPDS. El resultado de genes duplicados hayan sido objeto de divergencia funcional, ya sea positiva o selección purificadora relajado selección, según lo indicado por un aumento de la tasa de sustitución nonsynonymous. Sobre la base de nuestro análisis evolutivo que EPDS clasificados en cuatro grupos de proteínas. La ausencia en los tetrápodos de dos de estos grupos proporciona más apoyo a la pesca específica de las duplicaciones del genoma [17 - 20] que dio lugar a la aparición de teleosteos específicos de genes duplicados. Nuestros datos sugieren que una combinación de la duplicación de la degeneración de complementación (DDC) modelo [21, 22] y de adaptación a la evolución de codificación de las regiones [23] ha contribuido a la evolución de ambos teleósteo de copias de genes específicos y un Deuterostomia específicos de la proteína grupo EPD . Nuestro análisis identificar varios codón / aminoácidos sitios que parecen dar cuenta de la fuga de pseudogenization de estos genes y su rápida obtención de divergencia funcional [24, 25].

Los resultados presentados aquí proporcionan algunas pistas importantes para el funcionamiento de las diferencias EPDS. Si bien inicialmente se describe el cerebro-específicos EPDS se han asociado con Neuroplasticidad y la regeneración del nervio óptico en los peces [1], los mamíferos EPDS se expresan en una gran variedad de tejidos y específicamente humano e pd han demostrado ser overexpressed en el cáncer de colon [8 ] Y en hematopoyética tallo / células progenitoras justo antes del inicio de la proliferación y diferenciación [7]. Por otra parte, nuestros propios estudios [12] demostraron que la echinoderm EPDS se expresan en diversos tejidos y su sobreexpresión sugirió su participación en la regeneración intestinal. Por lo tanto, parece probable que las diferencias estructurales que se muestran aquí se producen entre EPDS, que sirven para agruparlos en términos evolutivos, también puede utilizarse para identificar a sus funciones específicas en los tejidos, órganos y especies, donde se expresan.

Resultados y Discusión
Identificación de los nuevos miembros de la familia de proteínas ependymin

El InterPro [26] EPD familia de proteínas (IPR001299) se compone de secuencias de proteínas teniendo sólo el dominio EPD. La arquitectura y la definición de la firma de este dominio son muy distintivo [6, 7, 12]. El hecho de que no hay dominios y familias que se sabe están relacionados con [InterPro: IPR001299] significa que una proteína puede ser asignado a EPD la familia si se muestra la secuencia de pautas establecidas para el dominio.

Aprovechando recientemente secuenciado los genomas y EST proyectos en curso, hemos sido capaces de encontrar 39 nuevos miembros de la familia de proteínas EPD [ver ficheros adicionales 1: Table_S1]. La asignación de cada secuencia de esta familia fue corroborada por las búsquedas en los dominios de proteínas conservadas (CDD) de bases de datos [27], la detección de los posibles N-glicosilación sitios [28], la comparación de perfiles de hydropathic [29], la predicción de cysteines que participan en disulfuro bonos formación [30], y la presencia de ciertos aminoácidos en las posiciones conservadas en comparación con el anteriormente conocido EPD proteínas. La mayoría de las secuencias pasado cada una de estas pruebas. Los casos en que los candidatos poseen una EST N-terminal de secuencia también fueron verificadas por el péptido señal de cribado [31]. Todos los recientemente identificados EPD tenía una participación importante en las secuencias de similitud sólo con otras proteínas EPD según lo determinado por la posición específica itera Blast (PSI-BLAST) y el nivel BlastP búsquedas [ver ficheros adicionales 2: Additional_Text para conocer con detalle los métodos].

Curiosamente, cuatro de los nuevos EPD secuencias encontrados durante este estudio fueron de protostomes [ver ficheros adicionales 1: Table_S1]: los moluscos Crassostrea gigas (Oyster_Cgi), Crassostrea virginica (Oyster_Cvi), Aplysia californica (Aplysia), y Biomphalaria glabrata (Biomphala) . El grupo de trabajo nombres utilizados aquí se indica entre paréntesis. El hallazgo de proteínas en EPD moluscos es notable ya que la EPD proteínas una vez se pensó que chordate específicos [9 - 11] y más tarde Deuterostomia específicos [12]. La presencia de moluscos en EPD indica claramente que esta familia es más antiguo que se pensaba anteriormente y su origen puede remontarse al menos al origen de la protostomes. No fue posible encontrar EPD de dominio que contienen las proteínas en otros protostomes para que el genoma EST y se dispone de datos, tales como Drosophila y Caenorhabditis elegans, pero esto no excluye la posibilidad de encontrar nuevos miembros de la familia en otros protostomes una vez más metazoan especies están secuenciados . Además, recientemente se ha propuesto que las especies modelo como Drosophila y C. elegans han sufrido grandes pérdidas de genes durante su historia natural y que esto dificulta su utilidad en gran escala del genoma comparaciones [32]. Una explicación alternativa es que la EPD familia de proteínas se limita a la deuterostomes y lophotrochozoans mientras ausente de la ecdysozoans.

Adicional nuevos miembros de la familia de proteínas EPD se encontraron en los grupos taxonómicos: Echinodermata, Urochordata, Cephalochordata, anfibios, Aves, Elasmobranchii, y los peces [ver ficheros adicionales 1: Table_S1]. En este último grupo, es notable que este gen se conocía anteriormente a ser sólo expresado en el cerebro de los peces teleósteos [13 - 15]. Sin embargo, hemos encontrado varios nuevos miembros de la familia de proteínas se expresa en otros tejidos de peces que parecen ser la duplicación de las descritas previamente los genes del cerebro. Así, además de los genes que se sabe están expresados en el cerebro, se encontraron otros tres genes en EPD pez cebra y fugu, dos copias adicionales en Tetraodon, medaka, y el salmón, y una copia adicional en el bagre Ictalurus punctatus. Todos estos nuevos genes tienen un patrón más amplio de expresión (no restringida a tejido cerebral), como puede deducirse de los tejidos fuente de información depositada por los autores en las correspondientes bases de datos de tecnologías ecológicamente racionales.

Los 39 recién identificado proteínas EPD [ver ficheros adicionales 1: Table_S1] se combinaron con los 35 anteriormente reconocidos miembros [véase el archivo adicional 3: Table_S2] para producir una alineación de 74 miembros de la familia que sirvió de base para nuestro análisis molecular evolutiva .

La secuencia de la proteína logo [33, 34] que representan a la alineación de todos los 74 EPD secuencias (Figura 1] confirma que los aminoácidos (N) y carboxilo (C) termina no están bien conservadas, el aumento de similitud en la región EPD dominio como se señala en estudios previos [6 - 8, 12]. Dentro del dominio, varios aminoácidos siempre una característica de las moléculas de EPD. Los más relevantes fueron cuatro cysteines molécula dentro de la secuencia principal en las posiciones 45, 118, 188 y 232 (numerados de acuerdo con la WebLogo; Figura 1]. Estos residuos también han sido predicho por la Disulfind servidor [30, 35] a participar en la formación de disulfuro de bonos, lo que indica un papel clave en el plegamiento de proteínas y / o dimeric interacciones y, en última instancia a las funciones biológicas de la EPDS [2, 4, 36 ]. Dos proteínas (Ictalur_GS y Danio_Tj) se encontró que falta uno de estos Cys pero esto fue debido probablemente a errores en la secuencia estas tecnologías ecológicamente racionales. Pro residuos son por lo general se encuentra uno a tres residuos de la Cys, en particular junto al primero y cuarto, Cys. Además, todos mostraron una EPDS Asp cerca de 29 residuos por debajo de la inicial Cys (D 74 en la alineación WebLogo; Figura 1]. Un residuo de Tyr (Y 73) se encontró a preceder a la Asp común en todas las especies de equinodermos, salvo que se saldó con una Phe en esta posición. Otros residuos comunes a EPDS incluyen: (i) la Gly (G 146) a cerca de 28 residuos de la segunda Cys, (ii) el Pro (P 134) en una distancia a medio camino entre la segunda y la Cys Gly común, y (iii ) El Trp (W 160), 11-14 residuos después de la Gly común. Sólo 3 especies carecen de este Trp (ostras tienen ya sea un o una Tyr Phe, y el tunicado Diplosoma listerianum tiene una Tyr). También fue notable la alta conservación de los residuos P 44, P 48, G 53, R 81, K 120, L 123, T 184, F 226, y P 229. En vista de su alta posición conservación, y la aún por determinar las estructuras tridimensionales de las proteínas EPD, sólo podemos sugerir que estos aminoácidos son especialmente importantes para la función general de EPD.

La EPD miembros de la familia de proteínas puede mostrar muy divergentes secuencias de aminoácidos, pero todavía mantienen muy similares hydropathy perfiles, lo que sugiere que las propiedades funcionales general de las proteínas se conservan [6]. Hydropathic Estos perfiles se han utilizado para conectar entre sí EPD aminoácidos similitud con sus propiedades como las glicoproteínas secretadas [6 - 8, 12]. Como se muestra en la Figura 2, los perfiles de hydropathic EPD proteínas son muy similares. Así, esta familia de proteínas se debe principalmente hidrófilo sin dominios transmembrana, pero posee un pequeño, muy hidrofóbicas, región que corresponde a la N-terminal del péptido señal típica de las proteínas secretadas.

Virtual cartografía

Cuatro EPD secuencias se encontraron en el genoma pez cebra, todo lo cual asignadas a diferentes grupos de vinculación (LG) en el pez cebra asamblea Zv6. La primera secuencia es el anteriormente conocido pez cebra EPD gen Danio_Bra (mapeado para el LG 5). El otro pez cebra EPD genes analizados fueron: Danio_Tj (LG 7), Dan_LvItEm (LG 21) y Danio_MERP (LG 2) [ver ficheros adicionales 4: Table_S3 para conocer con detalle los resultados de la cartografía]. Dos de las secuencias de proteínas de pez cebra (Danio_Bra y Danio_MERP) tuvieron mayor similitud con otros vertebrados EPD secuencias como el pez de colores y los humanos EPD proteína que a los demás secuencias de pez cebra (Figura 3]. Por ejemplo, la similitud de aminoácidos entre las Danio_Bra y el pez de colores EPD (1Carassius), expresada en el cerebro fue 97,2%, la similitud entre los Danio_MERP y la proteína humana EPD (Epdr1_Homo), expresada en varios tejidos fue 75,9%, mientras que la similitud entre Danio_Bra y Danio_MERP fue sólo del 60,5%.

El uso de tecnologías ecológicamente racionales genoma y la información de Tetraodon, encontramos que tres genes diferentes EPD (Tetraod_Br, Tetraod_Tj, y Tetrao_MEL) asignadas a diferentes lugares del genoma [ver ficheros adicionales 4: Table_S3]. Pairwise comparaciones de las tres secuencias de proteínas Tetraodon dado la similitud de porcentajes que van entre 35% y 43%, mucho menos que la similitud espera si fueran el mismo gen. Desde el Tetraod_Br y Tetraod_Tj genes se predijo de secuencia del genoma y no están bien apoyados por Tetraodon cDNAs (como es el caso del gen Tetrao_MEL), hemos propuesto que se expresan de diferentes tejidos (es decir, el cerebro y no el tejido cerebral) , De acuerdo a su ubicación en el anteproyecto de genes de árboles que nos genera a partir de la recogida de datos.

Hemos encontrado cuatro secuencias fugu EPD (Fugu_Brain, Fugu_HerGi, Fugu_Tj, y Fugu_MERP) localizados a diferentes andamios de la actual asamblea fugu el genoma [ver ficheros adicionales 4: Table_S3]. Aminoácidos pairwise similitud en las comparaciones entre ellos oscilaba entre el 50,7% a 66,1%.

Tres diferentes secuencias medaka EPD (Medaka_LW1, Medaka_LW2, y Medak_MERP) se encontraron y se asigna a diferentes andamios en el proyecto de montaje del medaka (Oryzias latipes) HDRR genoma [ver ficheros adicionales 4: Table_S3]. Medaka_LW1 y Medaka_LW2 EPD proteínas son similares el 80% y sólo el 46,5% idénticos, y cada uno de ellos difiere de Medak_MERP de 41,3% y 43,11%, respectivamente.

Dos Ciona EPD de dominio que contienen genes (Ciona_Tun1, Ciona_Tun2) se predice a partir de la Ciona intestinalis genoma de montaje [ver ficheros adicionales 4: Table_S3]. Aunque los dos Ciona EPDS se encontraban en el mismo cromosoma (12q), fueron asignadas a diferentes regiones y cada una de ellas fue codificado por varios que no se solapan las tecnologías ecológicamente racionales. La identidad entre la Ciona EPDS fue sólo el 33%, con un mayor apoyo por ser diferentes los genes.

Hemos sido capaces de mapa sólo un gen de EPD la rana (Xenopus tropicalis), pollo, humanos, ratón, rata, y los genomas de chimpancé [ver ficheros adicionales 4: Table_S3]. A pesar de que dos diferentes proteínas de ratón EPD estaban disponibles en las bases de datos, nuestro análisis indica que no podrán ser de dos diferentes genes [ver ficheros adicionales 2: Additional_Text para más detalles sobre esta cuestión]. Dudamos que el Epdr1_Mus [GenBank: AY027861 ] Es un gen del ratón, pero hemos incluido esta secuencia, así como la secuencia del ratón fiable Epdr2_Mus [GenBank: AF353717 ] En análisis posteriores, ya que ambos son reconocidos actualmente en GenBank por separado EPD genes del ratón.

Filogenético de distribución y las relaciones de ependymins

Desde publicados anteriormente phylogenies incluyó sólo 25 secuencias expresadas en los peces del cerebro [6], algunas secuencias de mamíferos, uno de una avioneta anfibia [7], y tres de equinodermos [12], nuestros datos de 74 miembros de la familia representa una sustancialmente más amplia muestra EPD de la diversidad. Nuestros resultados utilizando diversos métodos de inferencia filogenética (Bayesiano, máxima verosimilitud, Vecino-Participar, y de máxima parsimonia) demostró esencialmente la misma topología (Figura 4]. La única diferencia es que con la máxima parsimonia, sin resolver varios polytomies se obtuvieron en las ramas más derivados dentro de cada una de las principales clade (datos no presentados). Tomamos nota de que los valores de arranque y posterior probabilidades eran bajas para determinadas ramas. Sin embargo, una hipótesis para el método de arranque es aún la distribución de la señal filogenética en todo el conjunto de datos [37]. En las familias de genes como EPD, con total conservación de algunos sitios y grandes divergencias en otros, a través de la filogenia, esta hipótesis no se cumple. De este modo, los altos valores de arranque no siempre se espera que sean obtenidos por muchos nodos, porque los sitios que avalen la existencia de los principales clados pueden diferir de los sitios que son útiles para resolver las relaciones entre los grupos más derivados [38].

Cuatro grupos clade podría inferirse de nuestro análisis filogenéticos (Figura 4): un primer grupo que hemos llamado "FishBrain" se compone de proteínas EPD específicamente expresado en pez teleósteo cerebro. La EPD secuencias originales se encontraban en este grupo que ha sido el mejor grupo estudiado con más de 30 miembros de secuencias. De hecho, la mayoría de las secuencias disponibles EPD de peces provenían de un amplio estudio [6] que utiliza el tejido cerebral para clonar orthologues de EPD dorados en otros peces teleósteos.

Un segundo grupo que hemos llamado "FishTj" se ha mantenido hasta ahora inadvertido. Este grupo sólo está presente en los peces, pero, a diferencia del grupo FishBrain, su expresión no se limita al cerebro. Este grupo estuvo representado por doce EPD secuencias que nos coloca como una supuesta hermana clado a la FishBrain grupo (Figura 4]. FishTj El grupo estaba integrado por completo de los genes del genoma obtenida de tecnologías ecológicamente racionales y proyectos de secuenciación en que el tejido cerebral no se derivan. De hecho, recientemente la secuencias EST Salmo_Tj de Salmo salar y Medaka_LW2 de la medaka pescado Oryzias latipes mostraron ser upregulated inmunológicamente impugnada en el hígado: en el caso de la secuencia de salmónidos, después de haber sido expuestos a los patógenos Aeromonas salmonicida [39], y en el caso de medaka, después de haber sido expuestos a los hidrocarburos aril agonista de los receptores TCDD [40]. Así, desde que aparece la respuesta de estos animales bajo estrés tóxico, sugerimos que estas FishTj EPDS podrían participar en los talleres de reparación después de lesión hepática.

Todas las especies de peces teleósteos que tienen un gen en EPD FishTj el grupo también tiene una copia disociados EPD FishBrain en el grupo (Figura 4]. La única excepción a esta observación es el medaka que no cerebro-EPD proteínas específicas se encontró, probablemente debido a la secuencia incompleta o montaje. En nuestros resultados, el valor de arranque y posterior probabilidad de que el apoyo FishTj grupo como un clado monofilético son bajos, pero la cohesión entre las proteínas FishTj gráficamente es fuerte. Predecimos que a medida que más piscine EPD secuencias aisladas de distintos tejidos del cerebro están disponibles, con el apoyo de valor para este grupo aumentará de forma espectacular.

Es interesante observar la posición del tiburón EPD secuencia [Shark_Squa] (Figura 4]. Con la información actual, esta secuencia se colocó como la supuesta raíz de un gran clado que contiene secuencias sólo presente en los peces que se dividió en los FishBrain y FishTj paralog grupos. Desde esta parte del árbol se parece a la topología de duplicación descrito por Meyer y colegas [18], podría reflejar la totalidad de su genoma postula a la duplicación se han producido durante la historia natural de los peces teleósteos [41]. Por lo tanto, será importante para determinar si los tiburones posición no ha cambiado después de la adición de un mayor número de secuencias.

La monofilia del tercer grupo que pueden ser reconocidos del árbol (Figura 4] fue muy apoyado. Este grupo estaba compuesto por secuencias de proteínas aisladas de equinodermos, anfibios, aves, mamíferos, un Elasmobranchii [Raja_erina], y cuatro secuencias de peces teleósteos [Danio_MERP, Medak_MERP, Fugu_MERP, y Tetrao_MEL]. Desde el primer miembro reconocido de este grupo era el gen humano epdr1 anteriormente llamado MERP1 [7], hemos llamado este clade "MERPs". Según publicó evidencia experimental [7, 8, 12], y, a la información depositada en las bases de datos, estas secuencias fueron aisladas de una variedad de fuentes de tejidos, incluyendo pero no limitado a cerebro, corazón, músculo esquelético, próstata, riñón, hígado, intestino delgado, colon, bazo y las gónadas en humanos y ratón, y en el intestino, esófago, mesenteries, gónadas, respiratorias árboles, y tentáculos en los equinodermos. Es evidente que el patrón de expresión de las proteínas EPD MERPs en el grupo no es específica de tejido.

Aunque el apoyo estadístico fue deficiente (Figura 4], también postula la existencia de un cuarto EPD grupo que incluye a los más evolutivo basal especies. Este grupo, que hemos llamado "basal", los grupos de genes de EPD protostomes (moluscos) y deuterostomes (tunicados y amphioxus). Dado que todos los basal grupo EPDS son de invertebrados, de lo que esperábamos echinoderm secuencias dentro de este grupo. Por lo tanto, hemos realizado el SH [42], KH y RELL [43] ensayos para comparar la espera de colocación de echinoderm secuencias en el grupo basal en contraposición a su colocación dentro del grupo MERPs observado en el árbol de topología inferirse (Figura 4]. Sin embargo, todas las pruebas que se indican una proporción significativamente mayor apoyo (p <0.0001) para su cesión al MERPs grupo. Una notable extravío en el grupo basal fue la ubicación de la EPD gen de ostras como hermana a la amphioxus EPD gen; en lugar de ser hermana grupo de los demás moluscos: Aplysia californica [Aplysia] y Biomphalaria glabrata [Biomphala]. Este extravío (Figura 4] no se adecue a los datos significativamente mejores que los esperados filogenética colocación de las ostras como hermanas de los otros moluscos (KH p = 0,107, p = 0,112 SH, RELL p = 0,101).

Es interesante señalar que la EPD secuencia aislada de la ostra Crassostrea gigas [Oyster_Cgi], ha sido recientemente demostrado ser regulado hasta en la glándula digestiva de estos animales después de una semana de exposición a la contaminación por hidrocarburos [44]. Dado que la glándula digestiva, similar a la del hígado, se sabe que desempeña importantes funciones en el metabolismo y desintoxicación, esto puede implicar que EPDS en moluscos y vertebrados han conservado funciones.

Nos espera que dentro de cada grupo paralog EPD, las especies de árboles de genes se obtendría después de la reconstrucción filogenética. Esto se logró para el grupo FishBrain donde el patrón de ramificación considerablemente de acuerdo con anteriores estudios se centraron en la relación filogenética de los peces teleósteos [6, 45, 46]. A pesar de la incómoda, pero estadísticamente bien apoyado la posición de la EPD secuencias de equinodermos, el patrón general en el interior del MERPs grupo convino también en forma satisfactoria con la espera de especies de árboles. Sin embargo el sesgo de muestreo metazoan contra los grupos que pueden llevar los genes pertenecientes a cualquiera de los anteriores grupos no identificados EPD (FishTj y basal) parece ser el principal impedimento para obtener una buena estadística de apoyo para su monofilia y resolver las especies relaciones entre las proteínas dentro de cada grupo . Por lo tanto, nuestra reconstrucción de la filogenia EPD está plenamente de acuerdo con la hipótesis 2R [41], proporcionando un buen ejemplo para las dos rondas de duplicaciones del genoma propuso que se han producido en una fase temprana del linaje de vertebrados; todas las excepciones se encuentran en la topología deducirse se destacan por una baja apoyo valores.

Análisis descriptivo de la familia de proteínas ependymin subgrupos

Para analizar las características particulares de cada grupo EPD se seleccionaron sólo completar las secuencias con la metionina inicial y el final codón de parada. Estas incluyeron 13 EPDS de la FishBrain grupo, el 11 de la MERPs, 9 de la FishTj, y 6 desde el basal. El cuadro 1 muestra los principales resultados de estas comparaciones. Si usamos el grupo basal para representar a la molécula original putativo que sirve como punto de comparación sobre la forma en que el otro grupo de moléculas se han ido distanciando. Somos conscientes de que este grupo basal contiene las especies de tres phyla que podría ser muy distantes entre sí. No obstante, si hacemos el mismo análisis usando sólo los dos moluscos completar secuencias, la variabilidad que muestran entre ellos es similar a que si se compara con los otros dos phyla, por lo tanto, esencialmente los mismos resultados se obtienen.

En comparación con el grupo basal, EPDS de los otros tres grupos muestran un aumento de tamaño. Este aumento es particularmente evidente en el MERPs con un aumento promedio de tamaño de 25 residuos (alrededor del 13%) con respecto a la basal grupo. Nuestra comparación de secuencias muestran que es en términos de la composición de aminoácidos que los grupos muestran diferencias altamente significativas. El punto isoeléctrico previsto de la basal del grupo varía de 5 a 6,45. Sin embargo, la FishBrain EPDS muestran un ácido punto isoeléctrico de alrededor de 5,1, mientras que el punto isoeléctrico de MERPs y FishTj EPDS se sitúa en torno al 6,5. Los diferentes puntos isoeléctricos se deben principalmente a un mayor número de residuos ácidos y una disminución de los residuos básicos se encuentran en FishBrain EPDS, con lo que la proporción de ácidos a básicos residuos casi el doble que el de otros EPDS.

Otras diferencias entre los grupos EPD son notables. FishTj EPDS tienen una mayor probabilidad alifáticos Índice de los otros grupos. Sin embargo, al nivel de aminoácidos, es sorprendente que el número de Phe residuos es reducido casi a la mitad en el MERPs en comparación con otros grupos. Del mismo modo, el número de residuos de Trp en las moléculas muestra diferencias significativas entre los grupos. El Basal las especies y la FishBrain moléculas tienen un promedio de 2 Trps en sus secuencias, lo que aumenta a 3,2 en FishTj y al 6,6 en MERPs; este último cambio es sorprendente dado que el Partido Radical Transnacional es el mayor y más raras de aminoácidos. Una tendencia similar se observa con el número de Pro residuos, aunque el número aumenta sólo un 50% entre el grupo basal y la MERPs. Otro análisis comparativo de las previsiones de aminoácidos EPD modificaciones en las proteínas, incluida la N-myristoylation, N-glicosilación y sitios de fosforilación está disponible [ver ficheros adicionales 2: Additional_Text].

Aparte de los residuos de aminoácidos que caracterizan a la familia de proteínas (Figura 1); hay varios aminoácidos características que tipifican cada uno EPD subgrupo. Estos grupos específicos de las firmas fueron reveladas mediante logotipos secuencia generada a partir de sub-alineaciones que contengan sólo los miembros de cada grupo (Figura 5] [ver ficheros adicionales 2: Additional_Text]. Este análisis muestra claramente divergentes un patrón de aminoácidos de uso y conservación entre los subgrupos EPD familia. Este patrón sugiere diferencias en las restricciones selectivas, probablemente derivados de la divergencia en estructurales y aspectos funcionales de las proteínas fenotipo.

Análisis de las presiones selectivas que actúan sobre la proteína ependymin la familia

El hecho de que algunas secuencias grupo basal se encontraron en protostomes (moluscos), nos llevan a pensar que este grupo representa el origen evolutivo de las moléculas de EPD. Alternativamente, puede indicar que la proteína EPD evolucionado de un ancestro de la protostomes y deuterostomes, pero ampliado en una familia de genes sólo dentro de la deuterostomes. En cualquiera de las dos hipótesis, la MERPs, FishBrain y FishTj representan los grupos más derivados miembros de la familia de proteínas EPD.

Diferentes presiones selectivas que actúan sobre cada EPD paralog grupo podría haber sido favorecida por la fijación de secuencias diferentes en cada metazoan genoma. Para investigar la divergencia de EPD grupos, hemos utilizado la tasa de nonsynonymous (d N) y sinónimos (d S) ratio de sustitución de nucleótidos (ω), tal como se aplica en el codón modelos de evolución molecular [47, 48]. En este enfoque estadístico, un ω <1 indica la acción de purificar la selección (es decir, una limitación selectiva contra las mutaciones que afectan negativamente la función de la proteína); ω = 1 es coherente con la evolución neutral, y ω> 1 indica positivo Darwiniano de selección (es decir, favoreciendo la fijación de los beneficiarios de aminoácidos cambios) [49].

Se utilizó la prueba de razón verosimilitud (LRT) estadística para determinar si la presión selectiva es significativamente diferente entre postduplication (PD) y postspeciation (PS) en las ramas EPD filogenia (Figura 4]. Hemos instalado dos PD-PS modelos con nuestros datos (ver Métodos) y contrasta cada PD-PS en contra de un modelo de un modelo de relación (M0) que supone que las sucursales PD, así como PS ramas fueron sometidos a la misma presión selectiva. El LRTs dio apoyo significativamente mayor (p ≤ 0.0003) para todos los probados PD-PS en los modelos modelo M0 [ver ficheros adicionales 5: Table_S4]. Las estimaciones de PD-PS parámetros del modelo sugieren que (i) sólo después de la duplicación, eventos, la fijación de los cambios de aminoácidos en una mayor PD ramas, y (ii) la tasa de aminoácidos evolución PS disminuyó en las ramas, presumiblemente debido a los niveles más estrictos purificador de selección. Por ejemplo, las estimaciones en el marco del modelo MPS 1 fueron los siguientes: ω (PD) = 1,139, ω (PS) = 0,161 y los antecedentes ω b = coeficiente de 0,056. En ambos probado PD-PS modelos d N valores promedio de 0,089 y S d valores promedio de 0,741.

Por otra parte, nuestra rama basado análisis sugieren que cada EPD paralog grupo ha sido sometido a una presión selectiva diferentes durante su historia natural. El paralog modelos (1 Mp, Mp 2, y 3 Mp; ver Métodos) que permiten paralog las diferencias en la presión de selección siempre es significativamente mejor explicación de los datos (p <0.0001, [ver ficheros adicionales 5: Table_S4]) hizo que la proporción de un modelo (M0) suponiendo que no las diferencias en la presión de selección entre EPD paralog grupos.

Dado que cada grupo ha EPD particular aminoácidos características que la diferencian de otras paralogs (Figura 5], también prevé la presión selectiva que varían entre los sitios y entre los grupos paralog EPD. Por lo tanto, hemos aplicado sitio de modelos de evolución codón para evaluar esta hipótesis utilizando cada uno de los grupos EPD (FishBrain, FishTj, MERPs y basal) como los conjuntos de datos separados. Cuando se les aplicó el coeficiente de un modelo de sitio (M0) a cada sub-conjunto de datos, las estimaciones de la proporción ω promediados a lo largo de todos los sitios paralog para cada grupo (es decir, ω MERPs = 0,115, ω FishBrain = 0,182, ω FishTj = 0,195 , Ω basal = 0,051) fueron todos en consonancia con las estimaciones de ω previamente obtenidos en el marco del modelo MP1 Paralog [ver ficheros adicionales 5: Table_S4]. Sin embargo, un contraste LRT estos análisis por separado en virtud de M0 a M3, lo que permite-entre sitio variación en la presión selectiva, puesto de manifiesto una heterogeneidad significativa en la presión selectiva dentro de cada uno de los miembros de la familia EPD (p <0.0001, [ver ficheros adicionales 5: Table_S4 ]). Tomamos nota de que esto no es un resultado inesperado, como genes que codifican proteínas funcionales productos típicamente exhiben una variación significativa de la presión de selección entre los sitios. Además, todos los EPD paralogs había una clase de sitios sometidos a una fuerte purificación y no de selección o van de los 0,003 a 0,014) pero la fracción de esos sitios varía ampliamente entre paralogs (del 10% al 30%, [ver ficheros adicionales 5 : Table_S4]).

Firma de residuos para toda la familia EPD (Figura 1], como los cuatro estrictamente conservadas Cys, se prevé que ser críticos para la función biológica común de todos los genes EPD. En este contexto, se espera que dichos residuos se localizan en el codón sitios sometidos a muy fuerte contra la selección purificadora nonsynonymous cambios. Cuando se les aplicó el codón sitio a los modelos de la serie de datos compuesta de 70 EPD proteínas (ver Métodos), encontramos que un contraste LRT el sitio modelos M0-M3 y fue altamente significativa (p <0.0001, [ver ficheros adicionales 5: Table_S4 ]), Para la prestación de apoyo considerable variabilidad en las presiones selectivas que actúan dentro de los genes miembro de la familia EPD. Cuando el trazado aproximado posterior media de la ratio ω codón en cada sitio de toda la familia de proteínas EPD (Figura 1], los aminoácidos presentes en la mayoría de evolutivamente limitada posiciones con un ω ≤ 0,04 fueron: C 45, P 48, G 53, Y 73, D 74, E 98, 100, F 109, T 115, C 118, K 120, P 134, S 137, G 146, W 160, C 188, M 226, P 229 y C 232. Por todos estos residuos con excepción de E 98, el hallazgo de una fuerte limitación de evolución se ve corroborada por nuestro anterior análisis comparativo de la secuencia de logotipos (Figura 1 y Figura 5]. El sitio E 98 parece ser evolutivamente seleccionado para los residuos de ácido en los derivados más miembros de la familia de proteínas EPD, ya que este sitio es ocupado por un Glu a todos los miembros del grupo MERPs, por un Asp a todos los miembros de la FishBrain FishTj y grupos. Pero en el grupo basal esta posición es ocupada por los aminoácidos alifáticos Leu.

El análisis de la presión selectiva que actúa de media en todos los sitios de todo el conjunto de datos y sub-bases de datos [véase la archivo adicional 5: Table_S4], sugieren que la depuración de selección (con entre la variabilidad de sitio), ha sido la principal influencia sobre la evolución de la toda la familia de proteínas EPD 0 = 0.1553) y sus sub-grupos MERPs = 0,115, ω FishBrain = 0,182, ω FishTj = 0,195, ω basal = 0,051). Por otra parte, ninguno de los específicos de cada sitio, codón modelos (adecuados para detectar la evolución adaptativa) aplicado a las bases de datos, sugirió la acción positiva de la selección cuando proceda LRTs se realizaron (M1a vs M2a, M7 vs M8. Datos no presentados). Sin embargo, estos modelos sitio un promedio de la presión selectiva sobre todos los sitios de toda la filogenia o subgrupos, y tal vez no han podido detectar episodios cortos de selección positiva teniendo lugar a lo largo de unos aminoácidos sitios de la duplicación después de un evento. Por lo tanto, hemos implementado la sucursal de sitio modelos AyB [50 - 52] para detectar si la selección es positivo que impulsan la evolución de algunos sitios específicos a lo largo de las ramas de la filogenia EPD. Estos modelos permiten el ratio ω varían entre los sitios y entre los linajes. Se realizó la Prueba 2 o "sucursal de sitio de prueba de selección positiva" [51, 52] (ver Métodos) contrastando el modelo A en contra de sí mismo con ω 2 a 1 fijo para cada rama DP, tal como se definen en la Figura 4 (FishBrain, FishTj , O MERPs). Encontramos evidencia de evolución episódica de adaptación actuando a lo largo de la rama MERPs (p <0.0001; [ver ficheros adicionales 5: Table_S4]). Cinco sitios (86, 128, 196, 224 y 231-numerados de acuerdo con la WebLogo en la Figura 1] tiene una alta probabilidad posterior (> 0,95) de ser seleccionados considerando positivamente la Bayes empíricos de Bayes (BEB) como método aplicado en el modelo A [51]. El sitio 86 está ocupada en el MERPs grupo de aminoácidos básicos con carga positiva cadenas laterales (Arg, Lys, o HIS). En el grupo FishBrain esta posición es ocupada sólo por aminoácidos polares siendo los más comunes ASN, Asp y Ser. Muy por el contrario se observa para esta posición en el grupo FishTj, en la que este sitio está ocupado sólo por hidrofóbicas aminoácidos. Sin embargo, en el grupo basal de este sitio es muy variable y puede ser ocupado por cualquiera de polar o hidrófobas aminoácidos. La página 128 está ocupada estrictamente por el aminoácidos aromáticos Trp a todos los miembros del grupo MERPs, es preferentemente ocupados por residuos aromáticos (PHE, Tyr o PRT) en el FishTj basal y grupos. Por el contrario, en el grupo FishBrain este sitio es muy variable y generalmente ocupados por Lys y Arg. El mismo análisis se puede hacer para los sitios 196, 224 y 231 que están preferentemente ocupados en el grupo de MERPs la hydroxylic aminoácidos Thr (sitios 196 y 231) y Ser (sitio 224), mientras que estos sitios son muy variables en los demás paralog grupos, están ocupados principalmente por no hydroxylic polar residuos.

A lo largo de la rama FishTj, también obtuvieron importantes pruebas de selección positiva de conformidad con el ensayo 2 (p = 0.0233; [ver ficheros adicionales 5: Table_S4]), pero sólo los aminoácidos sitio 144 se predijo con el método en virtud del BEB Modelo A. En el grupo FishTj, este sitio está ocupado por una aminoácidos alifáticos (Val o Ile). Por el contrario, en la FishBrain un grupo de residuos aromáticos (Tyr o bien PHE) es normalmente presentes, salvo en los Fugu_Brain y la Tetraod_Br secuencias que tienen un Ser. Curiosamente, en la MERPs grupo, todas las secuencias de mamíferos tienen un Ser en la posición 144, pero todos los otros taxa dentro de este grupo (es decir, peces, anfibios, aves y equinodermos) han residuos aromáticos. Posición 144 es muy variable en el grupo basal y no muestra ninguna pauta clara de sustitución de aminoácidos.

En contraste con la MERPs y FishTj grupos, las pruebas de selección positiva que afectan a la FishBrain linaje no era tan claro (p = 0.0747; [ver ficheros adicionales 5: Table_S4]), y puede considerarse sólo a ser marginal apoyo a la selección o adaptación relajado las restricciones selectivas a tres sitios (51, 126 y 186). En el grupo FishBrain, el residuo en la posición 51 está casi siempre ocupado por el hydroxylic aminoácidos Thr, excepto en las secuencias Rhamphicht y 2Carassius que han Ile en este sitio. Esta posición es ocupada por la no-polar amino ácidos en todos los demás grupos, y siempre es Trp MERPs en el grupo. El sitio 126 en el grupo FishBrain pueden ser ocupados por polar (Tyr, Ser o Cys) y no-polar amino ácidos (PHE), pero en el grupo MERPs esta posición es ocupada por sólo polar aminoácidos como la Gln, y especialmente la ácidos aminoácidos Glu y Asp. La composición de aminoácidos de este sitio para la FishTj basal y grupos es muy variable, sin un patrón claro. Posición 186 es uno de los cuatro aminoácidos contiguos conservadas en todos los FishBrain y FishTj grupos (pero no en las secuencias de peces pertenecientes al grupo MERPs), y en las secuencias Sea_cucumb y Ciona_Tun2. Estos aminoácidos parecen ser específicamente inserta en FishBrain y FishTj secuencias y más tarde por la convergencia, las secuencias de equinodermos y uno de los genes Ciona EPD podría haber adquirido. Por otra parte, estos cuatro aminoácidos se podrían haber perdido específicamente en la secuencia ancestral MERP y también en algunos grupos basal, con excepción de los equinodermos y una de las secuencias de Ciona.

Casi todas las secuencias disponibles de la FishBrain grupo tienen una Cys en la posición 186, que es un aminoácido antes del tercer común Cys (C 188). Sólo en Percomorpha y Salmoniformes este es sustituido por Cys Gly. Estos cysteines, que son muy próximos entre sí en el EPD estructura lineal, se predice por el Disulfind servidor [30, 35] para formar disulfuro de bonos. La consecuente aparición de Gly, una pequeña de aminoácidos con una muy alta flexibilidad conformacional, entre la C 186 y C 188 permitiría un puente disulfuro entre ellos, desde Gly no presenta un obstáculo steric. Por otra parte, aunque con una menor confianza de la conectividad, C 186 podrán participar en la formación de revolver reacciones potencialmente una serie de disulfuro de las especies intermedias como consecuencia de su carácter vinculante con otras cysteines [53]. Sólo cuando la estructura cristalográfica de proteínas pertenecientes a los diferentes subgrupos EPD proteína se obtiene cuidado y funcional ensayos se realizan, podremos poner a prueba si las diferentes etapas de transición posible de disulfuro de unión están teniendo un impacto sobre la divergencia funcional entre EPDS paralogs.

Detección de divergencia funcional entre ependymin paralogs

Diferencias detectables en el sitio de la tasa de sustitución de aminoácidos entre EPD paralog grupos nos puede dar una idea del grado de divergencia funcional generado desde la duplicación de genes divergentes, la división de funciones ancestrales o generar otros nuevos, y, por consiguiente, logró evitar pseudogenization. El coeficiente de divergencia evolutiva funcional (θ) obtenidos para cada par EPD paralog comparación fue significativamente mayor que cero (Tabla 2], lo que indica que hay una heterogeneidad significativa en los aminoácidos específicos de cada sitio, la tasa de evolución entre EPD paralogs. Este resultado apoya las estimaciones obtenidas en el codón nivel de la aplicación de modelos y Paralog sitio de modelos para separar los datos de paralogs (ver sección anterior). Es decir, que cada grupo de EPD ha sido objeto de diferentes limitaciones funcionales en determinados sitios de aminoácidos y, por tanto, la divergencia funcional entre ellos se puede inferir.

Los seis posibles comparaciones pairwise EPD paralog entre grupos se realizaron (Tabla 2]. La comparación entre el FishBrain y MERPs grupos que mostraron el mayor valor de θ (0,85 ± 0,12), lo que sugiere que estos dos grupos se han ido distanciando considerablemente más en el plano funcional. Esta estimación está respaldada por el hecho de que el patrón de expresión de estas proteínas es la más disímiles, siendo las proteínas pertenecientes a la FishBrain grupo expresaron exclusivamente en el tejido cerebral [13 - 15], y los de la MERPs grupo se expresa en varios tejidos incluyendo cerebro [7, 12]. Alto θ valores también se encuentran para cada una de las comparaciones pairwise que se puede hacer contra el grupo basal, lo que sugiere que si las proteínas pertenecientes a la basal grupo son, en realidad, la raíz del árbol de genes EPD, de los derivados de los grupos han divergentes funcionalmente de la función de genes ancestrales, patrón de expresión o de ambos. Esta medida de divergencia funcional entre los grupos (FishBrain, FishTj y MERPs) que se contrastaron con el grupo basal no era equidistante: predijo la divergencia funcional entre el grupo FishTj y el grupo basal = 0,81 ± 0,15) es superior al de FishBrain vs basal = 0,63 ± 0,13) o MERPs vs basal = 0,70 ± 0,21). Como cabía esperar de la genética de árboles (Figura 4], el menor valor de θ (no obstante ser también significativamente superior a cero) se obtuvo para la FishBrain vs FishTj comparación = 0,35 ± 0,09). El inferirse árbol filogenético de genes sugiere que la duplicación que dieron origen a la FishBrain y FishTj paralog EPD genes fue posterior a la aparición de la MERPs grupo. De este modo, el FishTj y FishBrain comparte más tiempo juntos y aunque el FishBrain grupo ya tiene un patrón muy restringido de expresión que contrasta con la amplia gama de tejidos a partir de la cual FishTj genes han sido aislados, podríamos suponer que algunos funcionales se superponen pueden permanecer. Por supuesto, será interesante para corroborar esta hipótesis con los datos experimentales que llaman a cabo uno de los genes es compensado (al menos parcialmente) por el otro. Curiosamente, el coeficiente estimado de divergencia funcional entre la FishTj y el grupo MERPs = 0,52 ± 0,09) no es tan alta como se podría suponer desde el gen de árboles, aunque esto podría sugerir diferentes funciones que no puede excluir que algunos de estos superposición de funciones.

Posterior análisis Bayesiano predijo varias posiciones de aminoácidos que puede explicar la divergencia funcional inferirse entre la EPD paralog grupos (Figura 6]. A pesar de que, los sitios con un estimado de probabilidad posterior (PP) <0,8 experimentalmente se han demostrado ser importantes para observar la divergencia funcional entre los dos grandes subfamilias la caspasa [54]; el valor de corte para la selección de residuos es una decisión empírica y se espera dependiendo de las propiedades intrínsecas de la familia de proteínas que se analiza. Así, mientras que en [54] obtuvieron 21 candidatos divergencia funcional relacionada con el uso de sitios de 0,61 como valor de corte, el mismo valor de corte predice 53 sitios para los datos de EPD. Dado que no 3D la estructura de cualquier proteína EPD es aún disponibles, nos falta una forma de verificar que estos sitios se encuentra ni la forma en que la tasa de cambio en estos lugares ha contribuido a estructurales y funcionales de divergencia entre la EPD paralogs. Sin embargo, podemos reducir aún más nuestros criterios de predicción sitio esperando que en el caso de la EPD de datos, sitios de predecir con un PP más estrictos (es decir,> 0,9) en el hecho de ser funcional divergencia relacionada con los sitios que pueden servir como un discreto inicio punto para la futura caracterización funcional de las proteínas EPD. Veintitrés tasa de cambios de aminoácidos sitios (8,8% del total de sitios) se predijo con un PP> 0,9 de ser funcional divergencia relacionada con los sitios para cualquiera de los seis posibles comparaciones entre pairwise EPD paralog grupos (Figura 6]. La tasa de cambios de sitio 161 (los aminoácidos después de que el común de Trp de la EPDS-véase la figura 1], por ejemplo, se predice con un PP = 0,99 para poder distinguir funcionalmente a los miembros de la FishBrain de los miembros de la MERPs grupo, con un PP = 0,93 a distinguir la FishTj de la MERPs grupo, con intermedios y PP para distinguir FishBrain de basal (PP = 0,68), FishTj de basal (PP = 0.79) y de MERPs basal (PP = 0,82), pero este mismo sitio sólo cuenta con un PP = 0,14 a discriminar FishBrain de FishTj proteínas. Cuando este sitio fue localizado en los subgrupos alineaciones (sitio indicado por una flecha en la Figura 5], es evidente que está muy variables, el sitio no es útil para discriminar entre FishBrain y FishTj proteínas. En contraste, los MERPs EPD proteínas tienen un Ser fijo en esta posición que se encuentra dentro de los tramos de aminoácidos de diagnóstico de este grupo (DR QEW S - AR - E-WXGxyT, subrayó en la MERPs WebLogo, Figura 5C]. Además, en el grupo basal sitio 161 está ocupada con casi la misma ocurrencia de Ser, ASN, Su, Tyr, o Arg. En consecuencia, una vez que la estructura 3D de proteínas EPD de las diferencias subgrupos están disponibles, y el lugar de experimentos dirigidos funcional que se puede hacer, esperamos que para poder corroborar que la tasa de cambios de sitio 161 es de alguna manera importante a la función especial de la MERPs EPDS.

Un análisis similar puede realizarse para todos los demás 22 cambios de tasa prevista sitios. Cabe señalar que los sitios 128 y 144, prevé que estará bajo la selección positiva en la MERPs y FishTj linajes, respectivamente, mediante el uso de rama in codon modelos (ver sección anterior), también se prevé que ser funcionales divergencia sitios web relacionados con el uso de este muy diferentes enfoque. Como se ha señalado anteriormente, el sitio 128 es preferentemente ocupados por residuos aromáticos en la FishTj, basal y MERPs grupos, siempre están ocupados por un PRT en esta última, pero en el grupo FishBrain este sitio es muy variable. Esto explica por qué este sitio tiene un PP = 0,90 de estar relacionada con el tipo 1 funcional divergencia entre la MERPs y FishBrain grupos, y ha intermedio PP para las otras posibles comparaciones: FishBrain vs FishTj (PP = 0.72), FishBrain vs basal (PP = 0.77), FishTj vs basal (PP = 0.74), MERPs vs basal (PP = 0.63) y FishTj vs MERPs (PP = 0.43). También cabe destacar que la presencia de aminoácidos aromáticos en este sitio puede distinguir la EPD proteínas que se expresaron exclusivamente en el cerebro, de las proteínas que tienen un patrón más amplio de expresión. Además, la presencia de un Trp en este sitio parece ser importante para la función de la EPDS pertenecientes al grupo MERPs a lo sugerido por el convergente resultados obtenidos mediante el codón modelos y la búsqueda de tipo 1 divergencia funcional sitios relacionados (ver Métodos).

Posición 144 se prevé que estará bajo la selección positiva y, además, estar relacionado con la divergencia funcional. Este sitio cuenta con un PP = 0,92 para discriminar entre los FishBrain y MERPs los grupos y con menos confianza puede distinguir entre otros grupos: FishTj vs basal (PP = 0,78), FishTj vs Brain (PP = 0.77), FishBrain vs basal (PP = 0,64), MERPs vs basal (PP = 0,61) y FishTj vs MERPs (PP = 0.22). Contrariamente a lo que ocurre con el sitio 128, la relación de aminoácidos aromáticos y tejidos específicos de expresión parece ser inversa en sitio 144. De este modo, la aparición preferencial de aminoácidos aromáticos en la FishBrain grupo (en particular, Tyr) parece ser importante para la divergencia funcional de FishBrain grupo en comparación con los demás.

Conclusión

La EPD familia de proteínas no es Deuterostomia específicos como se había pensado anteriormente. Ofrecemos pruebas de que EPDS también están presentes en protostomes. Nuestros resultados sugieren que los peces de genes específicos y / o duplicaciones del genoma desencadenó la diversificación de la EPD familia de proteínas en cuatro grupos. Dos de estos grupos (FishBrain y FishTj) son exclusivos de los peces; una tercera parte parece ser Deuterostomia específicos (MERPs), y el cuarto (basal) se ha encontrado sólo en invertebrados deuterostomes y protostomes. Los análisis estadísticos de presiones selectivas indican que la selección episódica positivo y relajado selectiva limitaciones han conformado la evolución de la EPD proteínas. Sin embargo, la depuración de selección (con el terreno entre la variabilidad) parece ser la principal influencia sobre la evolución de cada subgrupo dentro de la familia. Hemos detectado diferencias funcionales entre los grupos EPD y aminoácidos sitios que dan cuenta de ello. Tomados en su conjunto, nuestros resultados filogenéticos y el tejido-específico de los patrones de expresión de las diferentes proteínas EPD, sugieren que esta familia de proteínas es un objetivo adecuado a prueba experimentalmente en subfunctionalization copias de genes resultantes de la duplicación eventos [55, 56]. Reiteramos que la proteína estructural más información y datos experimentales incluidos funcional a llamar a cabo los ensayos aún no se ha obtenido a partir de miembros representativos de los cuatro grupos de proteínas EPD se describe aquí. Por lo tanto, esperamos que nuestras conclusiones alentar y servir como directrices útiles para profundizar en las investigaciones sobre cómo la evolución en forma de EPD familia de proteínas, su conservada y funciones de genes divergentes.

Métodos
La recopilación de secuencias

Treinta y cinco secuencias previamente utilizados en los análisis filogenéticos de la familia de proteínas EPD [6, 7, 12] han sido utilizados en el presente estudio como material de partida para buscar varias bases de datos adicionales para los miembros de la familia. El grupo taxonómico, trabajando nombres, los nombres de las especies, los números de la adhesión y la información bibliográfica de estas secuencias son siempre [ver ficheros adicionales 3: Table_S2]. [Ver archivo adicional 2: Additional_Text para obtener una descripción detallada de los métodos utilizados para la búsqueda y la identificación de nuevas EPDS, incluyendo las pruebas realizadas para justificar la colocación de cada uno de ellos en la EPD familia de proteínas].

Virtual cartografía

Por genoma búsquedas cruzadas y mapeo de genes EPD hemos utilizado a disposición del público las bases de datos. Esto incluía la liberación Ensembl v40 [57] y el genoma navegadores específicos para cada especie secuenciado del genoma como navegador en el Genoscope [58] para Tetraodon y Genoma del navegador en la Universidad de Tokio [59] para medaka. Para encontrar coincidencias exactas de un cromosoma ubicación, contig o andamio se utilizó la secuencia de búsqueda y alineación de Hashing Algorithm (SSAHA herramienta en Ensembl) [60] para alinear las secuencias de ADN a la actual asamblea dentro de Ensembl. Una vez que dos o más paralog EPD genes de la misma especie fueron encontrados, uno ClustalW se realizó la adaptación, y el porcentaje de similitud entre ellos se determinó.

Secuencia de alineaciones

Todos los EPD secuencias fueron alineadas con el programa ClustalX v.1.81 [61] utilizando la matriz BLOSUM30. GeneDoc v.2.6.002 se utiliza para la mejora manual de la alineación de los ojos. Esto condujo a una alineación de 74 EPD de dominio que contienen proteínas (35 previamente conocidos y 39 nuevas secuencias) con 261 aminoácidos posiciones. Secuencia de logotipos para la proteína alineaciones (todo el conjunto de datos y subconjuntos) se crearon a través de Internet utilizando WebLogo Version 2.8.2 [33, 34]. Todos los alineamientos de secuencias múltiples están disponibles bajo petición.

Análisis filogenético

Hemos llevado a cabo inferencia filogenética en la plena alineación de 74 secuencias. Proteína árboles fueron construidas utilizando máximo de verosimilitud (ML), inferencia bayesiana, Vecino-Participar (NJ), y de máxima parsimonia (MP). El criterio de optimalidad ML tal como se aplica en PHYML v2.4.4 [62] se utilizó la aplicación de las WAG sustitución de aminoácidos matriz, modelo empírico de las proteínas globulares [63], lo que representa el sitio a sitio tasa de variación utilizando una discreta distribución gamma con cuatro tasa categorías e invariable sitios, y la proporción de sitios invariables se estimó a partir de los datos y el apoyo a las ramas individuales se deduce de los análisis de arranque (100 repeticiones). Por inferencia bayesiana hemos utilizado MrBayes v3.0b4 [64] que cinco independientes se ejecuta utilizando la misma configuración: comenzando con un árbol al azar, usando modelos mixtos de sustituciones de aminoácidos, los árboles para la generación de 5 millones de generaciones con la toma de muestras cada 100 generaciones, y con cuatro cadenas (tres con el conjunto de parámetros de calefacción a 0,2). La primera 1250000 generaciones (12500 árboles) fueron descartados de cada plazo y el resto de los árboles se concatenan. El resto de 187500 árboles fueron utilizados para calcular el final (consenso) de árboles, y para determinar las probabilidades posterior a los diferentes nodos. La convergencia de las cinco carreras independientes se calculó y confirmó, tal como se describe en [65]. NJ y MP árboles fueron construidos usando PAUP * v.4.0b10 para Unix [66]. El árbol NJ [67] se construyó sobre la base de diferencias de carácter media (distancia) y el apoyo de arranque valores se determinaron sobre la base de 10000 vecino unirse repeticiones. El árbol de MP [68] se obtuvo utilizando el método de búsqueda heurística. Todos los 261 aminoácidos personajes tienen el mismo peso y 239 de ellos fueron parsimonia-informativo. El MP árbol se construyó por etapas a través de azar Además de las secuencias y los árboles de bisección de reconexión (TBR)-rama algoritmo de intercambio (NR = 10) con 100 repeticiones de arranque.

Las pruebas de topologías de árbol

El gen inferir la topología del árbol fue probado contra la espera especies de árboles [69] para los casos en los que no eran coincidentes. Para que una comparación entre el gen de árboles y la topología alternativa topología derivada de la espera especies relaciones, la Kishino-Hasegawa (KH) [43] y Shimodaira-Hasegawa (SH) [42] se realizaron pruebas en ambos casos utilizando un tiempo - ahorro de aproximación, el método RELL con 10000 réplicas no paramétrico de bootstrapping [43]. Dos árboles se compararon cada vez; el ML árbol en la Figura 4 y un árbol modificado usando el editor del árbol árbol v.1.6.6 [70] a trasladar fuera de lugar taxones de acuerdo con la especie filogenia [71]. Las pruebas se llevaron a cabo tal como se aplica en Codeml (PAML paquete V.3.14b) [72, 73] mediante el uso de unrooted árboles, y suponiendo que el modelo empírico WAG.

Los análisis estadísticos de presión selectiva

Para estudiar la presión selectiva sobre la EPD de dominio que contienen proteínas, excluidos los Paracheiro, Sea_urchin, Chicken_Gg, y Epdr_Chimp secuencias para evitar pequeños sectores de incertidumbre debido a la presencia de Ns dispersos en sus secuencias de nucleótidos. Estas incertidumbres de nucleótidos, sin embargo, no afectan a su traducción de aminoácidos, lo que permite su inclusión en los aminoácidos basada en los análisis descritos anteriormente. Las secuencias de nucleótidos para el restante 70 linajes fueron alineados de acuerdo a su secuencia de proteínas traducida utilizando CodonAlign 2,0. Con la alineación y el codón correspondiente unrooted ML proteína del árbol, hemos implementado varios modelos de Markov codón evolución (que se describe el proceso de sustitución entre el 61 de los 64 codones) a la estimación estadísticamente presiones selectivas que actúan sobre el codón todos los sitios, sectores específicos, y los sitios en ciertas ramas de la familia de proteínas EPD filogenia. En estos análisis, las estimaciones de máxima verosimilitud de la presión selectiva (ω) se obtuvieron como la nonsynonymous (d N) y sinónimos (d S) de nucleótidos proporción de la tasa de sustitución (d n / d S) con el anuncio N / d S (ω) = 1 sentido neutral evolución, ω <1 purificar la selección, y ω> 1 diversificación de selección positiva [49]. La primera y más simple modelo considerado fue el M0 (un modelo de ratio), que asume la misma proporción ω para todas las ramas de la filogenia y codón todos los sitios en la alineación. Subdivisión de modelos para permitir diferentes valores de ω a lo largo de las ramas en el árbol [74, 75]; se les aplicó el análisis de los resultados de la supuesta duplicación de esfuerzos hechos ocurridos durante la historia natural de la familia de proteínas EPD. Se implementó el PD-PS modelo [71] que las estimaciones diferentes coeficientes de ω postduplication (PD) y postspeciation (PS) en las ramas de un árbol y permite poner a prueba si la tasa de sustitución de aminoácidos a lo largo de las ramas PD es significativamente mayor en comparación con las sucursales PS . En concreto, nos interesaba si la fijación de nonsynonymous aminoácidos cambios ha sido favorecido por la selección positiva a raíz de una duplicación caso (PD sucursales), y luego disminuyó una vez una función nueva, ha evolucionado debido a la posición dominante de la depuración de selección (PS sucursales) [76, 77]. Hemos instalado dos PD-PS modelos con nuestros datos (Figura 4]. El primer modelo (MPS 1) asignado un coeficiente de ω para el PD ramas en el árbol MERPs (PD), ω FishBrain (PD), y ω FishTj (PD)], un segundo ω a sus correspondientes ramas PS MERPs (PS), ω FishBrain (PS), y ω FishTj (PS)], y una tercera ω a todas las restantes ramas (fondo ratio ω b). PD El segundo modelo-PS (MPS 2) asignado a un ω el PD ramas inmediatamente posteriores la supuesta duplicación de genes caso D 2 FishBrain (PD) y ω FishTj (PD)], un segundo ω a sus correspondientes ramas PS FishBrain (PS) y ω FishTj (PS)], y una tercera ω b, para todas las demás ramas. Una prueba de razón verosimilitud (LRT) se realizó para comparar el M0 de un modelo de ratio (PD) = ω (PS)] con cada uno de los PD-PS modelos [es decir, ω (PD)ω (PS) en MPS 1 y MPS 2]. La LRT estadística se calculó como el doble de la diferencia entre la probabilidad log resultados de los dos modelos anidados, y se comparó con el chi-cuadrado de distribución con grados de libertad (gl) igual a la diferencia en el número de parámetros libres entre los dos modelos [ ver ficheros adicionales 5: Table_S4].

También Paralog aplicado el modelo [71]; que permite a las pruebas de selección divergentes entre paralogs presiones a raíz de una duplicación de genes. Hipotéticamente, si este subfunctionalization [21] que participan tanto las secuencias reguladoras y la codificación de secuencias de proteínas, puede haber pérdida diferencial de presión de selección en diferentes partes de la proteína detectables con una rama Paralog modelo [71]. Estamos equipados Paralog tres modelos con nuestros datos. El primer modelo (Mp 1) estima un coeficiente de ω para cada uno de los paralog clados derivados de la EPD grupo basal (MERPs ω, ω FishBrain y ω FishTj) y un fondo ω b proporción. El segundo modelo Paralog (Mp 2) supone un ω para cada uno de los paralog piscine clados originarios después de la duplicación D 2 FishBrain y ω FishTj), y otro ω b para todas las demás ramas. El tercer modelo Paralog (Mp3) estima que un ω b proporción de antecedentes, uno de los ω MERPS paralog clade MERPs), y uno no MERPs) para todos los demás. Una comparación de la LRT M0 de un modelo de relación MERPs = ω FishBrain = ω FishTj) con cada uno de los Paralog modelos (por ejemplo, MP1: ω MERPsω FishBrainω FishTj) fue realizado para la prueba de diferencias significativas en el selectivo presión entre EPD paralogs [ver ficheros adicionales 5: Table_S4].

También aplicado sitio basado en modelos de evolución codón que permitió que el ratio ω a variar entre los sitios (entre los codones o aminoácidos en la proteína) [51, 78, 79]. Un modelo (M3) que permite que durante tres clases discretas (k = 3) de ω en el gen se contrastó con un LRT contra un modelo de relación (M0), en la que el ratio ω promediados a lo largo de todos los sitios de genes. Otros LRTs contrasta adicionales sitio-modelos evaluados para la detección de positivos de selección que actúen en promedio durante todos los sitios de la filogenia: M1a (NearlyNeutral) contra M2a (PositiveSelection) y M7 (beta) contra la M8 (beta &amp; ω). Dado que estos modelos de sitio no podría detectar selección positiva que afecta solamente a unos pocos sitios a lo largo de unos linajes después de una duplicación caso, también la rama aplicado in situ los modelos A y B que dejar que el ratio ω varían tanto entre los sitios y entre los linajes [50 -- 52]. Los modelos AyB, tenía cuatro clases ω sitio con tres estimaciones de la proporción ω: sitio de la clase 0 incluido firmemente codón sitios conservadas en todas las ramas (0 0 <1); sitio de clase 1 incluían neutral evolución de los sitios de todas las ramas 1 = 1); sitio y clases 2a y 2b, incluidos los sitios que fueron bien conservadas (0 0 <1) o neutral 1 = 1) en las ramas de fondo pero con una ω 2> 1 a el primer plano de subdivisión de interés (es decir, PD ramas en el árbol de topología EPD). Modelo A estimado ω 0 (0 0 <1) a partir de los datos y fijo ω 1 = 1, mientras que el modelo B, estimó que el ω 0 y ω 1 parámetros a partir de los datos. Sobre la base de estos modelos se pudo llevar a cabo las siguientes LRTs: (i) el modelo B versus un modelo discreto con M3 (K = 2) clases de sitio, (ii) el modelo A versus M1a [Test 1], y (iii) el modelo A con ω 2 como parámetro libre versus el modelo A con ω 2 fijado en 1. Esta prueba [Test 2] se conoce como "la rama de sitio de prueba de selección positiva", ver [51, 52] para obtener una descripción detallada de estas dos últimas pruebas.

Estos análisis de la presión selectiva se realiza mediante el programa de Codeml la PAML paquete V.3.14b [72, 73]. Todas las topologías de árboles fueron unrooted. Para cada modelo, la convergencia de las estimaciones ML siempre fue comprobado mediante la explotación de todos los análisis tres veces con diferentes valores a partir ω. También se utiliza alternativamente el CodonFreq = 2 (F3 × 4) o CodonFreq = 3 (F61) para ejecutar el análisis. LRTs similares resultados se obtuvieron cuando ya sea CodonFreq opción se utilizó. Dado un ω> 1 y la LRT significativo bajo el modelo A, el empírico de Bayes Bayes (BEB) se utiliza para inferir aminoácidos sitios bajo selección positiva [51]. Bayesiano de máxima verosimilitud y análisis se realizaron en el Espresso Linux en el grupo de alto rendimiento Centro de Computación de la Universidad de Puerto Rico (UPR-HPCf).

Prueba de divergencia funcional

Se valoran los divergencia funcional entre los cuatro propuestos paralog grupos (es decir, basal, MERPs, FishBrain, y FishTj). La proteína ML alineación y la topología que muestra la relación entre 70-EPD de dominio que contienen las proteínas se utilizan como insumos para el programa divergen v1.04 para el cálculo del coeficiente de divergencia funcional (θ) entre pares de grupos paralog [80]. El parámetro θ es un estimador de máxima verosimilitud de tipo 1 divergencia funcional entre dos miembros de una familia de proteínas y se basa en la detección de alteración en las tasas de sustituciones de aminoácidos para una posición determinada entre los dos grupos paralog. Es decir, cuando un aminoácido de configuración es muy conservado en uno de los paralogs y es muy variable o en rápida evolución en los otros, implica que este sitio-específico diferencia de tasas se originó porque el paralogs experimentado diferentes limitaciones funcionales a estos residuos [54] . A LRT fue realizado para probar la hipótesis nula θ = 0 contra la hipótesis alternativa de θ> 0. Si la estimación de θ fue significativamente mayor que cero, funcional divergencia entre la pareja paralog fue muy apoyado. Un enfoque bayesiano fue seguido a predecir estadísticamente los sitios que era probable que se encarga de la tipo 1, las diferencias funcionales entre los paralogs [81]. Para nuestro análisis, esos puestos con probabilidades posterior> 0,9 en el sitio-específico para cada perfil pairwise comparación se consideraron los posibles divergencias funcionales relacionados con los sitios de aminoácidos.

Lista de abreviaturas

EPD, Ependymin; Epdr, Ependymin relacionados Proteína; tecnologías ecológicamente racionales, etiquetas de secuencia expresada, SSAHA, Secuencia de búsqueda y alineación de Hashing Algorithm; lucha contra las enfermedades diarreicas, conservadas dominios de proteínas; LG, Relación entre el grupo; NJ, Vecino-Participar; MP, máxima parsimonia; ML, Máxima verosimilitud; LRT, prueba de razón verosimilitud; BEB, Empirical Bayes Bayes; PP, probabilidad posterior.

Autores de las contribuciones

CECA concebido, diseñado y llevado a cabo el estudio, realizado los análisis estadísticos, el manuscrito redactado y elaborado con las cifras. JEGA ayudó a diseñar el estudio, el análisis de los resultados y el proyecto de el manuscrito. Ambos autores leído y aprobado el manuscrito final.

Material complementario
1 de ficheros adicionales
Recientemente identificados ependymin proteínas
En este cuadro, los grupos taxonómicos, trabajando nombres, los nombres de las especies, los números de adhesión, los tejidos de expresión y de información bibliográfica (si está disponible) se proporcionan. Además, la mejor BlastP e-valor de cada nuevo ependymin a una secuencia previamente conocida miembro de esta familia de proteínas se da.
2 ficheros adicionales
Adicional de los métodos y resultados y discusión
Este archivo incluye:
(A)
-- Detallada los métodos seguidos para la búsqueda y la identificación de nuevas ependymins;
(B)
-- La advertencia sobre los genes del ratón ependymin;
(C)
-- Análisis comparativo de las previsiones de aminoácidos ependymin modificaciones en las proteínas;
(D)
-- Aminoácidos firmas que definen cada grupo ependymin proteína, y
(S)
-- Las referencias utilizadas en archivos adicionales.
3 ficheros adicionales
Anteriormente publicado ependymin proteínas
Ependymin secuencias obtenidas a partir de trabajos publicados y utilizados como material de partida para nuestro estudio. En este cuadro se presentan los grupos taxonómicos, trabajando nombres, los nombres de las especies, los números de adhesión, los tejidos de expresión y de información bibliográfica.
4 de ficheros adicionales
Virtual cartografía de ependymins
La vinculación del grupo (LG) o de cromosomas (Cr) la ubicación de cada una transcripción que fue asignada se indica lo contrario. También Ensembl, Genoscope, Genescan o Genewise identificadores para cada secuencia y el único Mejor Recipocal Hits (UBRHs) previsto para cada uno de ellos de Análisis recíproco Blast se proporcionan. En este cuadro de copias de genes al mismo organismo, se agrupan.
5 de ficheros adicionales
Los análisis estadísticos de presión selectiva
Parámetro de estimaciones
ω
ratios, el diario de probabilidad de resultados y estadísticas LRT para el ependymin datos en diferentes sucursales-, sitio web, y la subdivisión de sitio codón modelos de evolución.
Agradecimientos

Este manuscrito es, en parte, producto de la Marina 2004 Biological Laboratory (MBL) Curso práctico sobre evolución molecular. La Aplysia ependymin secuencia fue amablemente proporcionada por Andrea B. Kohn y L. Leonid Moroz de Whitney El Laboratorio de Biociencias Marinas de la Universidad de Florida. Este proyecto hizo uso de recursos computacionales a la Computación de Altas Prestaciones del Servicio de la Universidad de Puerto Rico (UPR-HPCf) apoyado por el NIH Grant Número P20 RR-016470 de la INBRE Programa del Centro Nacional de Recursos para investigación. En particular, nos gustaría dar las gracias a Humberto Ortiz-Zuazaga y Carlos Rodríguez a la HPCf Unix para la asistencia técnica. Los autores se agradecen a los Dres. Joseph P. Bielawski y Pablo Vinuesa inestimable para personal de tutoría durante las primeras etapas de este proyecto y de comentarios críticos sobre el manuscrito. Agradecemos el comentario editorial del Dr Sheila Ward. Este estudio fue apoyado por el DEGI-PBDT (tesis doctoral de becas para CECA), NSF IBN-(0110692), NIH-SAM (S06GM08102), y la Universidad de Puerto Rico. También reconocemos el apoyo parcial de NIH-RCMI (RRO-3641-01).