PLoS Computational Biology, 2006; 2(8): (más artículos en esta revista)

Ampliación de la proteína de dominio se repite

Biblioteca Pública de la Ciencia
Åsa K BJÖRKLUND, Diana Ekman, Arne Elofsson [*]
Resumen

Muchas proteínas, sobre todo en eucariotas, contienen repeticiones en tándem de varios dominios de la misma familia. Estas repeticiones tienen una variedad de propiedades vinculantes y están involucrados en interacciones proteína-proteína interacciones, así como vinculante a otros ligandos, como el ADN y ARN. La rápida expansión de la proteína de dominio se repite se supone que han evolucionado a través de repeticiones en tándem interior. Sin embargo, los mecanismos exactos detrás de estas repeticiones en tándem no son bien entendidos. En este sentido, hemos estudiado la evolución, función, estructura de proteínas, estructura genética, distribución y filogenética de dominio se repite. Con este fin, hemos asignado Pfam-A de dominio a 24 familias proteomas más sensibles con las cesiones de dominio en la repetición de las regiones. Estas cesiones confirma hallazgos anteriores que eucariotas, y en particular los vertebrados, contienen una fracción mucho mayor de proteínas con repeticiones en comparación con prokaryotes. La similitud de secuencia interna en cada una proteína reveló que el dominio se repite a menudo son ampliadas a través de la duplicación de varios dominios a la vez, mientras que la duplicación de un dominio es menos común. Muchas de las repeticiones parecen haber sido duplicadas en el centro de repetir la región. Esto está en fuerte contraste con la evolución de otras proteínas que trabaja principalmente a través de adiciones de dominios único, ya sea en término. Además, hemos encontrado que algunas familias de dominio muestran distintos patrones de duplicación, por ejemplo, nebulin dominios han sido ampliado principalmente con una unidad de siete dominios a la vez, mientras que la duplicación de otras familias de dominio implicar diferentes números de dominios. Por último, ningún mecanismo común para la expansión de todas las repeticiones podrían ser detectados. Encontramos que la duplicación no muestran patrones de dependencia en el tamaño de los dominios. Además, la expansión de repetición en algunas familias, posiblemente, puede ser explicada por revolver de los exones. Sin embargo, el exón revolver no podría haber creado todas las repeticiones.

Introducción

Las proteínas se componen de dominios, periódicos fragmentos de proteínas con distinta estructura, función, y la historia evolutiva. Dominios de proteínas pueden producirse por sí solas, sino que son más frecuentemente encontrados en combinación con otros dominios en proteínas multidominio. Si bien la creación de nuevas arquitecturas multidominio revolver a través de dominios de la proteína se ha estudiado ampliamente en los últimos años [1 - 4], un tipo de recombinación de dominio ha sido a menudo ignorada: la creación del dominio se repite. Dominio repite contienen dos o más dominios desde la misma familia de dominio en tándem. Los grandes se repite con más de diez dominios en tándem son comunes en eucariotas.

Repitiendo dominios son a menudo breves, como los ricos repetir leucina (LRR) familia con una unidad de repetición de 30 residuos. Algunas repetidas dominio familias se encuentran principalmente en repeticiones, por ejemplo, LRR y C2H2 dedos de zinc, mientras que otras familias también se encuentra con frecuencia como una sola unidad. El repite pueden formar estructuras regulares, como antiparallel β-hojas o solenoides, mientras que otros forman filamentos o sólo son estructurados a unirse a sus ligandos [5]. Algunos ejemplos de repeticiones en las estructuras de proteínas se pueden encontrar en la base de datos Propeat ( http://gln.ibms.sinica.edu.tw/product/repeat/ ). Única aminoácidos o péptidos cortos motivos puede repetirse en las proteínas, también. Sin embargo, en este estudio nos hemos centrado en la repetición de unidades más grandes, los dominios. Por lo tanto, repite cuando se mencionan en este texto, se refiere a las repeticiones de dominios de la proteína.

Dominio repite a menudo son implicados en las interacciones con proteínas u otros ligandos, como el ADN o ARN. Incluso si las reiteradas dominios tienen una bien definida y conserva la estructura, la secuencia de conservación suele ser baja, con sólo unos pocos conservan residuos necesarios para la correcta veces. Su variable de secuencias y la variación en el número de dominios proporcionar flexible vinculante a varios socios vinculante. Por lo tanto, se repite se encuentran en las proteínas con funciones muy diversas, como el péptido tetratrico repite (TPR) que están involucrados en la celda del ciclo de regulación, regulación transcripcional, la proteína de transporte, y ayudar a plegamiento de proteínas [6]. Además, las propiedades vinculantes flexible y la variabilidad de secuencias de repeticiones han sido aprovechada para crear una alta afinidad de unión como una alternativa a los anticuerpos [7].

El dominio se repite se encuentran en todos los reinos de la vida, y se repite mucho, que contiene varios dominios al mismo tiempo, se han observado a ser especialmente común en las especies multicelulares [1, 8]. Reitera que se han propuesto para proporcionar los eucariotas con una fuente adicional de variabilidad para compensar las bajas tasas de generación [9]. Un ejemplo es la planta LRRs en los sistemas de defensa que permita a las plantas para adaptarse a los nuevos agentes patógenos [10].

Dominio repite se cree que se plantean a través de repeticiones en tándem dentro de un gen [5], cuando un segmento se duplica y la copia se insertará al lado de su origen. Sin embargo, el mecanismo exacto detrás de este fenómeno no se entienden plenamente. Nonhomologous recombinación intrón en las regiones, es decir, el exón revolver, puede ser responsable de las duplicaciones en el interior se repite, y esta cuestión se ha abordado en este estudio. Otra explicación posible es el deslizamiento de ADN, debido a la formación de horquillas de ADN, que es común en la creación de nucleótidos se repite y repite corto proteína [11]. Sin embargo, Marcotte y compañeros de trabajo han demostrado que la proteína se repite es más probable creado a partir de recombinación de ADN de deslizamiento desde la expansión de repetición muestra la debilidad de la dependencia a repetir longitud [9].

Además de las duplicaciones internas, las frecuentes repeticiones de repetir que contienen los genes se han producido en los genomas de mamíferos [12]. Esto puede, en parte, explicar su abundancia en eucariotas superiores. Además, la variación en el número de repeticiones entre orthologous genes indica que la pérdida / ganancia de dominios en repite es frecuente en evolución [12]. Es interesante señalar que la rápida expansión de repeticiones en eucariotas podría en parte se explica por la duplicación en tándem de unidades que contiene varios dominios repetidos [12 - 15]. En este estudio, nuestro objetivo es investigar cómo frecuentes duplicaciones de varios dominios son. Por otra parte, el número de dominios que se duplica en comparación es entre las diferentes familias de dominio. Los dominios, tal como se define por la Pfam-A base de datos [16] se han detectado utilizando alineaciones-Hmm. La cobertura se incrementó con relajado los criterios para la detección de dominios repetidos en las regiones de las proteínas. Además de la investigación de la duplicación tamaños, las cesiones de dominio se han utilizado para estudiar la distribución de repite y repite las familias de dominio en los tres reinos de la vida, la posición de repetir expansión, y la ubicación de exón se repite en las fronteras.

Resultados y Discusión
Repite son frecuentes en Vertebrados

Se ha demostrado que la proteína de dominio repite particularmente abundantes en los organismos multicelulares [1, 8]. Sin embargo, multicellularity no parece ser el único factor determinante para tener múltiples repeticiones. Uso extendido las cesiones de dominio (Figura 1], las fracciones de los diferentes proteomas que consisten de proteínas con repeticiones fueron comparados. Como se ha demostrado para otros tipos de proteínas repite [17], los organismos más complejos parecen requerir más de dominio se repite. En consecuencia, la fracción de proteínas con repeticiones es mayor para las especies con grandes proteomas, sobre todo cuando se repite de tres o más dominios son considerados (Figura 2, Tabla 1]. Las plantas y los vertebrados, los seres humanos en particular, contienen muchas proteínas con repeticiones de dominio (Figura 2]. Sin embargo, los eucariotas Arabidopsis thaliana y, sobre todo, Caenorhabditis elegans tienen un menor número de repeticiones de lo esperado de su proteoma tamaño. En realidad, el gusano y la levadura dos especies tienen la misma fracción de proteínas con repeticiones, por lo tanto, los organismos multicelulares no siempre se distinguen por más que repite unicelulares. Además, algunos prokaryotes, como Escherichia coli y Pseudomonas aeruginosa, con proteoma tamaño similar como la levadura, contienen muy pocas proteínas con repeticiones. Por lo tanto, tener muchos repite es una característica de eucariotas más que de especies multicelulares.

Como muchos de proteínas con repeticiones de más de dos dominios se encuentran en los vertebrados, que deben facilitar las funciones que se exigen en los organismos complejos. En consonancia, las proteínas con repeticiones principalmente vinculante tienen importantes funciones en proteína-proteína y las interacciones complejas de montaje, como lo demuestra el mayor dominio de las familias en el cuadro 2. Además, las proteínas con repeticiones tienden a interactuar con más socios en proteína-proteína interacción de las redes [18] (Figura S7]. Al aumentar la complejidad de un organismo, la coordinación de todos los genes y productos genéticos debe ser más sofisticado. Muchos de los centros en los eucariotas contienen las redes de interacción a largo dominio repite, posiblemente más avanzadas que permitan los procesos celulares. Esta propiedad del dominio repite puede explicar por qué son más abundantes en los eucariotas con mayor proteomas.

La rápida expansión de los repetidos dominios

Las reiteradas dominios son más abundantes que nonrepeated dominios. De hecho, casi la mitad de los dominios asignados a los vertebrados se encuentran en repeticiones (Tabla 1]. Sin embargo, sólo el 14% de todas las familias Pfam forma se repite. Por otra parte, las diez mayores familias de dominio corresponden al 62% de todos los dominios de repetir y se encuentran en el 48% de las proteínas con repeticiones (Tabla 2]. Por lo tanto, algunas repetidas dominio familias con alto número de copias representan una gran porción de todos los ámbitos (véase la figura S1 para obtener más información, el Protocolo S1]. Esta abundancia puede explicarse en parte por las duplicaciones internas, y, además, las frecuentes repeticiones de la repetición que contienen los genes se han observado [19].

Otra prueba de la frecuente duplicación se repite en orthologs que parecen haber ampliado independiente [12]. Hemos encontrado varios ejemplos de este tipo, uno de ellos sea el huso anormal-como microcefalia asociada a las proteínas en humanos que constará de 71 IQ-calmodulina vinculante motivos. La proteína ha orthologs metazoos en otros con menos dominios repetidos, por ejemplo, un ratón (62 dominios repetidos), ratas (62), el pez cebra (63), pollo (53), y la mosca de la fruta (22). En el gusano, sin embargo, la más larga de repetición de este dominio contiene sólo seis dominios. Por lo tanto, es probable que la repita se ha ampliado en forma independiente la mosca de la fruta y la chordates, o, alternativamente, se ha perdido en C. elegans . Además, nuevas expansiones pueden haber tenido lugar después de las divisiones entre peces, aves y mamíferos, ya que el pollo proteínas contienen un menor número de dominios que repite el pez cebra ortholog.

La expansión de repeticiones a través de la duplicación interior no es exclusivo de eucariotas, ya que algunos prokaryote repite específicos se pueden encontrar, por ejemplo, las bacterias inmunoglobulina (IG)-como de dominio y haemaglutinin repite. Otros procariótico repite puede explicarse por la transferencia horizontal [19]. Por ejemplo, un 19-dominio repetición de ankyrin dominios se encuentra en las bacterias la sífilis Treponema pallidium . Este dominio de la familia se encuentra en otras bacterias, pero nunca con más de cinco dominios, mientras que en metazoa, el dominio familiar se repitió. Por lo tanto, un escenario probable es que esta repetición se ha transferido horizontalmente desde un host eucarióticas, en lugar de ampliarse en las bacterias.

Similitud de secuencia revela la duplicación patrones

La formación de repeticiones no es bien entendida, por tanto, nuestro objetivo es comprender algunos de los mecanismos subyacentes de la expansión de repetir el estudio el número de dominios que se duplica cada vez. Desde repite dominio se supone que son creadas a través de las duplicaciones internas [5], secuencia de similitud puede proporcionar información sobre las últimas duplicaciones. En consecuencia, la secuencia pairwise similitudes entre todos los dominios en la repetición de una proteína se examinaron utilizando Smith-Waterman alineaciones [20]. El principal esquema de nuestra metodología, como se demuestra en la Figura 3, consiste en identificar los patrones de duplicación de las alineaciones. Para evitar el sesgo hacia la duplicación de algunos dominios, sólo proteínas con diez o más dominios repetidos fueron incluidos.

Distintos modelos de repetición a menudo podría ser distinguido, y en muchas proteínas, las unidades que contienen varios dominios se han duplicado en tándem. Por ejemplo, en el dedo de la mano humana zinc proteína que se encuentra en la Figura 4 A, parece ser que una unidad de seis C2H2 zinc finger dominios se ha duplicado hacia el final de la proteína desde dominios a distancia de seis (con cinco dominios entre ellos) tienen el más alto similitud de secuencia. En otro ser humano C2H2 zinc finger repetir, sin embargo, una unidad de dos dominios se ha duplicado varias veces (Figura 4 B). Hemos observado que el tamaño de la unidad duplicada variado enormemente con la duplicación de un único dominio hasta hasta nueve dominios a la vez.

Para muchas proteínas, sin embargo, no fue claro patrón visto desde todos los pares de dominio ha alineación resultados similares. En otras proteínas, se mezclaron dentro de los patrones de la proteína como partes distintas de la proteína se han ampliado con la duplicación de unidades de distintos tamaños. Por lo tanto, los vectores de autocorrelación (ACVs) se utilizaron para obtener una visión general de la frecuencia relativa de la duplicación de unidades de diferentes tamaños en cada proteína. Hemos definido como el ACV alineación puntuación media entre los dominios en cada distancia, es decir, la alineación puntuación de entre vecinos, dominios a distancia dos, tres, etc (Figura 3]. Los picos de tal vector debe corresponder a los tamaños más comunes de la duplicación de unidades en la evolución de la proteína.

La más común la duplicación patrón para un dominio familia pueda ser dilucidado cuando la media para todos los ACV repite que contiene la familia se calcula. A modo de ejemplo, el pollo nebulin proteína (Figura 5] se ha duplicado con siete dominios a la vez, y patrones similares se observaron en la mayoría de nebulin proteínas. Como resultado de ello, el CAV para todos nebulin proteínas muestran un claro aumento en siete (Figura 6], lo que indica que la duplicación de una unidad que contiene siete dominios es dominante en la evolución de nebulin proteínas.

Estas pautas claras no se pudo encontrar para todas las familias de dominio, como puede verse en las figuras 6 y S2. El C2H2 dedos de zinc parece ser, principalmente, ampliado con dos, tres o cuatro campos, mientras que la duplicación de un dominio a la vez es raro. Un patrón similar también se considera para el ankyrin dominios, aun cuando la duplicación de los cuatro campos es más dominante. El IG dominios y el factor de crecimiento epidérmico (EGF) dominios, por otra parte, a menudo presentan el mayor similitud con los vecinos de dominio, y la similitud entonces disminuye con la distancia. Por lo tanto, la duplicación de un dominio a la vez es el escenario más probable para su expansión. Además, la debilidad de los picos en múltiplos de dos puede ser visto por el IG familia, lo que indica que esta familia también podrán experimentar una expansión de las unidades de dos dominios. La fibronectina 3 dominios son en su mayoría ampliado con una unidad de duplicación de cuatro campos, mientras que LRR picos en dos y en cinco cadherina. Por último, cuando un ACV para todas las proteínas con repeticiones se calculó, una unidad de duplicación de dos dominios parece ser más común en caso de reincidencia la expansión en general.

El ACVs muestran que la duplicación de unidades de unos tamaños diferentes son dominantes en cada familia. Sin embargo, las duplicaciones de unidad de diferentes tamaños pueden ocurrir dentro de una familia. Para obtener una vista de las pautas de cómo se distribuyen entre las familias de dominio, la agrupación jerárquica de los ACVs de todas las proteínas se llevó a cabo (Figura 7]. Proteínas con resultados similares alineación entre todos los dominios se agrupan junto a un puñado de grandes grupos. Estos grandes grupos tienen un relativamente "plana" de ACV sin una clara picos en cualquier distancia (figuras 7 y 8 B). La distribución de las familias de dominio en las diferentes categorías se encuentra en la Figura 7 C. Como cabe esperar, la mayoría de los nebulin proteínas se encuentran en el mismo grupo (grupo 12), con un pico en la CAV a las 7. Por otra parte, el C2H2 zinc finger proteínas son distribuidas de manera uniforme en casi todos los grupos excepto el grupo más grande (grupo 7), donde están fuertemente subrepresentadas. En este gran grupo, con reitera que tiene un nivel bajo de similitud de secuencia entre todos los dominios, nos encontramos con representantes de la mayoría de las familias de dominio, y sobre todo colágeno, spectrin, cadherina, y LRR. Estamos por encima especuló que el IG se repite, ya sea ampliado por la duplicación de uno o dos dominios. Esta hipótesis se ve apoyada por la agrupación de IG proteínas en las agrupaciones con la disminución de ACVs o picos en múltiplos de dos (grupos 1, 4, 6 y 11).

En conclusión, el dominio se repite con mayor frecuencia son creados a partir de la duplicación de varios dominios a la vez, mientras que la duplicación de un dominio que parece ser menos común. Por otra parte, el número de dominios que participan en cada caso la duplicación difiere considerablemente en el dominio de las familias. Sin embargo, para algunas familias de dominio, puede haber de selección para la duplicación de un cierto número de dominios debido a algunos funcional o limitación estructural, como es probable en el caso de la nebulin dominio. Además, los más comúnmente repetida dominios, C2H2 los dedos de zinc, muestran las más diversas distribución de los patrones de duplicación.

A menudo se repite Ampliar en el Medio

Para determinar si la duplicación de los extremos de una proteína se prefiere, la más reciente duplicaciones y se identificaron sus posiciones fueron determinadas, lo que revela que una gran proporción de las repeticiones se han ampliado en medio de la proteína. La fracción de las duplicaciones se observa en el medio sea ligeramente, pero significativamente, más alto que el esperado por azar (Tabla 2]. Además, encontramos que los dominios adicionales de otras familias, que no forman parte de la repetición, no tener un efecto en donde el más reciente se encuentran las duplicaciones. Los frecuentes duplicaciones en medio de una proteína se encuentra en fuerte contraste con los resultados de nuestra reciente que otras proteínas multidominio evolucionar principalmente por la adición de un solo dominio, ya sea en termini [3, 4]. Otros tipos de dominio revolver puede ser limitada a las terminales como las adiciones de dominios en el centro pueda perturbar el terciario o cuaternario estructura. Sin embargo, la duplicación en medio de una repetición no necesariamente afectan la estabilidad de la proteína [21]. Para la mayoría de las familias de dominio, una distribución similar de puestos de la duplicación se encontró aun cuando unas pocas familias diferentes. El nebulin dominios, por ejemplo, tuvo un fuerte sesgo para el C-terminal, mientras que el thrombospondin tipo 3 se repite ampliado su mayoría en la N-terminal.

Lo que determina la duplicación Tamaños?

Los reiterados dominio familias son en promedio más corto que nonrepeated dominio familias [3]. Sin embargo, hemos encontrado ninguna correlación entre el tamaño de un dominio y el número de dominios por cada repetición (datos no publicados). En lugar de ello, el número de dominios en una unidad se duplican en comparación con el tamaño de dominio. Se podría esperar que los pequeños dominios son más a menudo duplicada de muchos dominios en tándem, mientras que las grandes dominios se duplican uno a la vez. Sin embargo, no se observó correlación entre el número de dominios duplicado el dominio y tamaño, medido como número de aminoácidos y el número de nucleótidos (Figura S5]. Por lo tanto, el mecanismo que crea dominio se repite no es probable que dependen del tamaño de la duplicación de la región.

Otra posibilidad es que existe una preferencia por la duplicación de determinados tamaños debido a las limitaciones funcionales, donde un número fijo de dominios son necesarios para funcionar. En ese caso, a corto repite con particular longitud que también puede ser común. Esto parece ser cierto en el caso de dominios cadherina, que tienen un pico en la CAV a distancia y cinco son también abundantes en cinco repeticiones de dominio (figuras 6 y S3]. Además, muchas de las familias de dominio con la disminución de ACVs se encuentran comúnmente como único dominios, tales como la RPT, EGF, y la IG. Sin embargo, los ACVs dominio de todas las familias no puede explicarse por un preferido repetir tamaño de la unidad, por ejemplo, el zinc-C2H2 dedos a menudo se encuentran como único dominios, a pesar de la duplicación de un dominio es rara en función de la CAV.

Exon revolver y repetir expansión

Exon revolver, es decir, nonhomologous recombinación en el intrón regiones, puede crear nuevas combinaciones de exón y nuevas proteínas. Como consecuencia de ello, el exón revolver es responsable de muchas nuevas combinaciones de dominio, y se ha demostrado que el exón-dominios limítrofes a menudo se combinan con otros ámbitos [22]. Sin embargo, no está claro si el exón revolver también se encarga de repetir expansión. En muchos casos, las repetidas dominios están dispersos en varios exones, por ejemplo, el colágeno de dominio ha en promedio más de dos exones por dominio.

Para verificar si el exón cruces se enriquecen a repetirse en dominios o enlaces entre los dominios, las simulaciones con la posición aleatoria de los cruces se realizaron. Como resultado de ello, es evidente que el exón más cruces se encuentran en enlaces que se espera al azar (Cuadro 2]. Por otra parte, el enriquecimiento de enlaces es muy significativa para algunas familias de dominio, sobre todo FEAG IG y dominios. Curiosamente, IG y EGF son también el dominio familias que se encuentran más a menudo como único dominios (Tabla 2] y el que más a menudo duplicada con un dominio a la vez (Figura 6]. Esto podría implicar una diferencia mecanicista, donde se repite ampliado por el exón revolver se limitan a la duplicación de un solo dominio, mientras que otros mecanismos de duplicación es más probable que la participación de varios dominios. Sin embargo, estas dos familias no constituyen una muestra lo suficientemente grande como para sacar conclusiones generales.

Nuestros resultados son consistentes con los resultados que los dominios extracelulares, tales como la IG y EGF, son a menudo a través de exón recombinada revolver [23]. Sin embargo, el dominio extracelular cadherina tiene una cantidad significativamente menor de enlaces con el exón cruces de lo esperado. Otra familia en la que el exón cruces están claramente subrepresentadas en el enlazador regiones nebulin es la familia. El nebulin proteína en la Figura 1 se examinó, y la estructura exón reveló el exón mismo patrón para cada bloque de siete dominios. Si esta duplicación de los siete dominios debería ser considerado como el exón revolver, donde cuatro exones se han duplicado varias veces, o como otro tipo de duplicación en tándem, no es evidente, ya que cada duplicación podría haber ocurrido ya sea dentro de un exón o dentro de un dominio.

Curiosamente, el exón estructuras reveló que el 30% de la repite con diez o más dominios se encuentran dentro de una gran exón, con exclusión de la posibilidad de exón revolver como el mecanismo para su expansión. Esto era especialmente evidente para los humanos C2H2 proteínas dedo de cinc, donde el 78% de la larga se repite se encontraron dentro de un exón. El número correspondiente de un exón repite dedo de zinc fue menor en las otras especies, por ejemplo, el 11% en el pez cebra. Además, había muchos LRR se repite en un exón, mientras que otras familias de dominio siempre tienen la propagación repite lo largo de varios exones (Cuadro 2]. No obstante, estas grandes exones puede ser una consecuencia de la pérdida intrón, que sería más probable si los exones son viejos. Hemos encontrado, sin embargo, que la media de puntuación de alineamiento entre dominios en un solo exón dedo de zinc se repite es ligeramente más alto que se repite para que se distribuyen en varios exones (alineación resultados 74 ± 12 y 62 ± 21). Por lo tanto, es más probable que se repite duplicado recientemente. Es posible que la duplicación dentro de un exón es más permisiva, ya que hay menos problemas con la conservación de las señales de empalme. Estas duplicaciones dentro de un exón podría explicar en parte la gran duplicación de los dedos de zinc se repite en los mamíferos. Además, repita la expansión se lleva a cabo en prokaryotes. Dado que no tienen intrones, el exón revolver no puede explicar procariótico repetir las duplicaciones.

En conclusión, el exón revolver puede ser responsable de la expansión de algunas de dominio repite, sobre todo el extracelular los que a menudo se amplió un dominio a la vez. Sin embargo, todas las duplicaciones puede repetir no han sido creadas por el exón revolver.

Debate Final

Una complicación en este análisis es supresiones en proteínas, ya que nuestro método no detecta dominio tachaduras. Sin embargo, la proteína evolución tiende a generar ya las proteínas, y se ha demostrado que las proteínas son a menudo más extendido de que la fusión truncado por la fisión en la evolución de proteínas [24, 25]. Además, es probable que las duplicaciones son más comunes que las supresiones en repetir las regiones desde las repeticiones se han expandido tan rápidamente. Por lo tanto, no creemos que las supresiones afectarán a nuestros datos en gran medida. Otro problema es que algunos dominios se puede perder en el proceso de asignación. A pesar de ampliarse la cesión de dominio se han utilizado, algunos dominios no son detectados, como se demuestra por el pollo nebulin proteína en las figuras 1 y 5. Sin embargo, creemos que es suficiente la cobertura de las repeticiones se ha logrado para sacar conclusiones generales sobre el más común repetir patrones de expansión.

Wright y compañeros de trabajo publicado recientemente un estudio sobre la agregación de proteínas, donde se dieron cuenta de que los dominios vecinos, se repite en IG de dominios y fibronectina, tienen menor secuencia de identidad en comparación con los dominios más lejanos, y sugieren que esto puede impedir la agregación de proteínas [26]. Por IG se repite, sin embargo, se encontró alta similitud de secuencia vecinos dominios que disminuye con la distancia (Figura 6], en contraste con los datos presentados por Wright et al. Estas diferencias son consecuencia de las diferentes definiciones de dominio, bases de datos, y métodos para medir la similitud (que se examinan en el cuadro S2]. Obtenemos más bajos similitudes de vecinos en otros dominios de dominio familias, como los dedos de zinc C2H2 y ankyrins (Figura 6]. Estas pautas pueden ser una consecuencia de la selección contra la agregación. Sin embargo, creemos que la duplicación de varios dominios es el principal contribuyente a esta tendencia ya que la distribución de la duplicación de los patrones es muy amplia. Sin embargo, en contra de la agregación de selección pueden favorecer la duplicación de varios dominios.

Ya sea que repita la expansión es un proceso aleatorio o un mecanismo controlado, donde segmentos específicos son selectivamente duplicado, lo que queda por descubrir. Interior duplicaciones pueden tener lugar en todas las proteínas, pero lo más probable es que esa duplicación se pierden si la proteína no contiene dominios que tienen una repetición de formación de carácter. Por otra parte, un aumento en el número de dominios podría repetirse no alterar la estructura de la proteína de manera drástica, y realmente puede promover la estabilidad de proteínas [21, 27]. La rápida expansión de repeticiones en eucariotas y las duplicaciones de segmentos idénticos varias veces en tándem sugieren que un mecanismo específico para su expansión podría existir. Este mecanismo puede implicar un control sobre el nivel del ADN que da lugar a varias repeticiones de un mismo segmento.

Breve repite proteínas pueden ser creados a partir de ADN y formación de horquilla capítulo, mientras que el deslizamiento de hipermutabilidad loci minisatélite (la repetición de unidades de más de diez nucleótidos) se piensa que es debido a eventos de recombinación [9]. La expansión del dominio repite puede producirse por un mecanismo similar, como la duplicación de loci minisatélite, que han recombinación hotspots que flanquean la duplicación de las regiones [11]. Si la recombinación tales motivos se encuentran en intrones, las duplicaciones se consideraría como el exón revolver. También se encontró que se repiten de expansión puede, hasta cierto punto, trabajo a través de exón revolver. Sin embargo, el exón revolver no explica la evolución de todos los dominios se repite, se repite el mayor número se encuentran dentro de una gran exón. Por lo tanto, si existen tales motivos, se encuentran en los exones para algunas familias de dominio, mientras que en otras familias que se encuentran principalmente en los intrones.

Identificación de puntos calientes tales requeriría la identificación exacta de los segmentos de genes que se han duplicado, lo cual es difícil en la mayoría de los casos. Además, un método que permitiría distinguir excesivamente motivos de ADN a sus flancos se necesita. Por último, la detección de esos motivos sería necesario que los motivos se conservan después de la duplicación, se ha producido. Sin embargo, muchos retos que tenemos por delante antes de que el tándem duplicación de dominios de la proteína puede ser plenamente comprendido.

Conclusiones

En este trabajo se muestran las regiones que se repiten con mayor frecuencia son creados a partir de la duplicación de varios dominios a la vez, mientras que la duplicación de un dominio es menos común. Por otra parte, encontramos que el interior a menudo se producen duplicaciones en el centro de la repite. Por lo tanto, el interior se repite en las duplicaciones evolucionar diferente a otros de dominio recombinations, que involucran principalmente la adición de un solo dominio, ya sea en término. La preferencia por la duplicación de un cierto número de dominios podría ser visto por algunas de las familias de dominio. Sin embargo, la mayoría de las familias de dominio mostrar amplia distribución de los patrones de duplicación y se puede ampliar con distinto número de dominios, aunque algunos tamaños de duplicación son más comunes. El mecanismo exacto detrás de estas duplicaciones no es bien entendido. No se encontró correlación entre el tamaño de cada fragmento duplicado y el dominio tamaños. Para algunas familias de dominio, sin embargo, la selección de unidades funcionales que contienen un cierto número de dominios que pueden favorecer la duplicación de dicha unidad. Además, el exón revolver podría explicar en parte la duplicación de algunas familias de dominio, sobre todo los dominios extracelular. Sin embargo, muchas repeticiones se encuentran dentro de una gran exón, por lo tanto, es muy poco probable que hayan evolucionado a través de exón revolver.

Materiales y Métodos
Apoyo a la Información
Distribución de dominio Familia número de copias de los dominios humanos, donde la repetición de las familias y Nonrepeating familias han sido separadas
La reincidencia de dominio familiar se define como una familia se encuentra en una repetición de al menos tres dominios, y nonrepeated familias se encuentran como nunca repetirse. El número de copias repetidas de dominios se han calculado como el número total de ejemplares (Rep. copias) o contando cada uno de ellos con la proteína repetir sólo una vez (Rep. comprimido).
ACVs para el dominio diferente Familias
El dominio apellido es seguido por el número de proteínas (NP) y el número de dominios (nD) utilizados en el cálculo. La autocorrelación para cada familia se normalizó alrededor de cero, por lo tanto, la línea discontinua a cero es la media entre la puntuación de poco todos los ámbitos de la familia. El
p
- valor para cada datapoint se calculó a partir de azar revolver de dominios, y con picos
p
- valores por debajo de los 10
-5
se indican con un asterisco.
Porcentaje de dominio una vez más (con nueve o menor número de dominios) que ha Repita Duración 1, 2, 3, etc, calculada para cada una de las familias en el dominio
(47 KB EPS)
Determinar la posición de Último Evento
(A) La alineación de resultados entre todos los ámbitos humanos en un dedo de zinc de proteínas con color más oscuro para una puntuación más alta.
Estructura secundaria de la repetida Regiones y de otras regiones de las proteínas
La fracción de las diferentes regiones que contienen desordenada o regiones diferentes estructuras secundarias. La primera barra muestra la distribución en todas las proteínas seguido por repetidos dominios (RepDom), no repetirá los dominios (NRDom), y las regiones sin la cesión de dominio (Unass).
Para cada dominio de la familia, el número de dominios que en la mayoría de unidades duplicadas se compara con la media de dominio tamaños
El tamaño de la mayoría de unidades duplicadas, es decir, el número de dominios que participan en la mayoría de las duplicaciones, se determinó a partir de la cima más alta de los ACVs (
) Para los 34 más grandes repetir dominio familias. Tesis valores se comparan con el tamaño medio de un dominio en (A) los residuos de aminoácidos y en (B) de pares de bases de nucleótidos.
El número medio de la interacción Asociados (Conectividad) en la interacción de proteínas intactas Networks, con el error Bares
La conectividad se muestra con las proteínas para no repetir (repeatlength 1), de dos repeticiones de dominio, etc, se repite hasta la longitud de nueve o más. Las redes para tres especies eucariotas,
D. melanogaster, C. elegans,
y
S. cerevisiae
se muestran, y todos ellos muestran mayor conectividad con el aumento de la longitud de repetición.
Posición prevista de la última duplicación con diferentes puntos de corte para los dos métodos LD y 3P Usando Repite Longitud de 10 o más
(21 KB DOC)
Porcentaje de dominio con los pares de> 30% de identidad de secuencia para adyacentes y Nonadjacent Dominios de IG y Fn3
(28 KB DOC)
Material complementario
(60 KB DOC)

Nos gustaría dar las gracias a Sara Luz y Janusz Bujnicki útil para comentarios. Además, estamos agradecidos por los amplios comentarios formulados por uno de los árbitros, que siempre grandes mejoras en el manuscrito.