PLoS Genetics, 2005; 1(2): (más artículos en esta revista)

Análisis comparativo y de evolución de los sistemas de recombinación homóloga bacteriana

Biblioteca Pública de la Ciencia
Eduardo P. Rocha C [1], Emmanuel [2] Cornet, Bénédicte Michel [3]
[1] Unité Génétique des Génomes Bactériens, Institut Pasteur, París, Francia
[2] Atelier de Bioinformatique, Université Pierre et Marie Curie, Paris, Francia
[3] Laboratoire de Génétique Microbienne, Institut National de la Recherche Agronomique, Jouy en Josas, Francia
Resumen

Recombinación homóloga es un proceso de limpieza que participan en el mantenimiento de la integridad cromosómica y la generación de la variabilidad genética. Aunque detallados estudios bioquímicos han descrito el mecanismo de acción de sus componentes, de organismos modelo, no existe una reciente evaluación amplia de este conocimiento, la utilización de la genómica comparativa y aprovechando la disponibilidad de los datos experimentales, en la recombinación. El uso de la genómica comparativa, se evaluó la diversidad de los procesos de recombinación entre bacterias, y simulaciones sugieren que muy pocos que no cumplimos homólogos. El trabajo incluyó la identificación de orthologs y el análisis de su historia evolutiva y genómica. Algunos genes, como el de las proteínas RecA, la resolvases, y RecR, se encontraron cerca de la ubicuidad, lo que sugiere que la gran mayoría de los genomas de bacterias son capaces de recombinación homóloga. Sin embargo, muchos genomas muestran incompleta conjuntos de los sistemas de presináptica, con RecFOR siendo más frecuentes que RecBCD / AddAB. Hay una importante pauta de co-ocurrencia entre estos sistemas y antirecombinant proteínas como las de reparación y SbcB desajuste, pero no hay asociación significativa con nonhomologous unirse a fin, que parece raro en las bacterias. Sorprendentemente, un gran número de genomas recombinación homóloga en la que se ha informado de la falta muchas de las enzimas que intervienen en los sistemas de la presináptica. La evidente falta de correlación entre la presencia de genes que caracterizan presináptica y los datos experimentales de la frecuencia de recombinación sugiere la existencia de aún desconocidos presináptica mecanismos de bacterias. También indica que, en este momento, la evaluación de la estabilidad intrínseca o de la recombinación de aislamiento de bacterias en la mayoría de los casos no se puede inferir de la identificación de las proteínas conocidas recombinación en los genomas.

Introducción

Recombinación homóloga fue originalmente descrito como el resultado del proceso sexual-en bacterias como en eucariotas-y más tarde fue identificado como un importante proceso de reparación del ADN. Ambos estudios genéticos y bioquímicos puesto de manifiesto el papel crucial de la recombinación homóloga en todos los organismos para la reparación de una gran variedad de daño en el DNA de origen exógeno y endógeno [1, 2]. De hecho, en todos los organismos en los que ha sido probado, la inactivación de RecA provoca un espectacular aumento de la sensibilidad a todos los agentes perjudiciales de ADN utilizados en los laboratorios. Además de su papel en la reparación del hogar, la recombinación es fundamental para la diversificación genética de los genomas bacterianos. En primer lugar, en las bacterias que permite la integración de ADN homólogo extranjero, derivadas de la transformación o conjugación [3, 4]. En segundo lugar, al permitir la recombinación alélica entre otras cepas estrechamente relacionadas [5], es assorts mutaciones de adaptación y purgas mutaciones deletéreas hitchhiking con ellos [6]. En tercer lugar, la recombinación homóloga entre los segmentos en los genomas conduce a la inestabilidad cromosómica [7, 8], y entre las bacterias, la tasa de reordenamientos cromosómicos se correlaciona con el número de secuencias repetidas en los genomas [9]. En cuarto lugar, intracromosomal recombinación homóloga entre las grandes regiones es repetida a menudo adaptable, que permite la generación de la diversidad genotípica, por ejemplo, en los patógenos [10 - 12].

El esquema general de la recombinación homóloga es común a todos los organismos estudiados a la fecha. Se trata de un paso de la línea central de la invasión y el capítulo de intercambio de catalizadas por RecA o un homólogo RecA. RecA es ubicuo y altamente conservadas en secuencia. Strand intercambio es precedida por la acción de enzimas llamadas enzimas presináptica. Estas enzimas actúan sobre el ADN, para que sea accesible a RecA y, en consecuencia, permitir la formación de un filamento de RecA, que es solo varados DNA (ssDNA) recubierto con RecA moléculas. Los pasos que siguen capítulo de cambio y en consecuencia la formación de una molécula recombinante viables que se denomina postsináptica y son principalmente la resolución de la recombinación intermedios realizados por RecA. Todo el proceso y las enzimas que participan inicialmente se han definido y caracterizado ampliamente en Escherichia coli, que se ha convertido en un paradigma para la recombinación homóloga [1, 13, 14]. Por este motivo, la E. Coli genes que se utilizaron en este trabajo a la búsqueda de homólogos en otras bacterias. Los genes de Bacillus subtilis, el segundo modelo de las bacterias, se utilizaron para las enzimas ausente de E. Coli.

El inicio de recombinación homóloga en el E. Coli puede seguir el RecBCD o RecFOR la vía (Figura 1]. Ambas vías de trabajo para proporcionar una molécula ssDNA recubiertos con RecA de permitir la invasión de una molécula homóloga [13, 15]. RecBCD promueve la reparación del ADN varados doble (dsADN) se rompe, mientras que RecFOR participa en la reparación de ssDNA lagunas. En la vía RecBCD, todas las funciones necesarias-helicasa, nucleasa, y RecA de carga-se han reunido en un único holoenzyme [16]. RecBCD se une a dsADN fines, relaja, y el ADN se degrada hasta que se encuentra con una χ sitio. La actividad de RecBCD es modificado en χ, en el que se inicia la producción de ssDNA y RecA de carga [17]. RecF, RecO, y RecR obligar gapped ssDNA y desplazar a los SSB para permitir que las proteínas RecA de revestimiento. Hay evidencia de las interacciones entre RecR y RecF o RecO bien, pero no para la existencia de un complejo tricomponent [18, 19]. El RecJ ssDNA exonuclease actos en concierto con RecFOR para ampliar la ssDNA región cuando sea necesario. Strand intercambio es catalizada por RecA [20], una proteína multifuncional también interviene en la regulación de la respuesta SOS y en la actividad de las polimerasas que facilitan la replicación del ADN a través de las lesiones [21]. En E. Coli, el conjunto formado por moléculas RecA se resuelven ni por la RuvABC complejas o, en un modo desconocido, por la acción de la helicasa RecG. El RuvAB y RuvC proteínas catalizar la rama migratoria y de la resolución de Holliday cruce de recombinación intermedias, respectivamente. Estas tres proteínas se cree que interactúan en un complejo resolvasome, en el que un RuvABC cruce de las vías a lo largo de complejos de ADN, con RuvC capaz de escanear para cleavable como las secuencias de ADN pasa a través de (Figura 1]. Por último, la reproducción está directamente relacionada con el proceso de recombinación durante la doble vertiente romper la reparación, como recombinante es viable sólo si obtiene la recombinación intermedia se utiliza para iniciar la réplica, a través de la acción de la proteína PriA [22, 23]. Por el contrario, la recombinación proteínas participar en la progresión de la reproducción como, por ejemplo, RecFOR y RecA son necesarios para la reanudación de una tasa de replicación normal después del tratamiento con un agente de ADN perjudiciales, y RecBC es necesaria para la viabilidad de la replicación de varios mutantes [2].

Se van acumulando pruebas de que otras bacterias utilizan diferentes proteínas de recombinación para algunos pasos. Por ejemplo, en firmicutes, RecBCD se sustituirá por el complejo AddAB análogo (denominada en RexAB estreptococos y lactococci) [24, 25], y hay pruebas que indican que un sitio funcional χ está presente en estos genomas, aunque variable en el tamaño y la composición [26]. En estos genomas, RecU también sustituye RuvC [27]. La frecuencia de recombinación homóloga se ve disminuida por la acción de otras proteínas. La falta de adecuación general del sistema de reparación (MutS1LH en E. coli) antagonista nonidentical recombinación homóloga entre las secuencias de ADN, mediante el bloqueo de la RecA mediada capítulo desajustes proceso de intercambio si están presentes [28]. Por lo tanto, la falta de adecuación del sistema de reparación evita la recombinación entre secuencias homeologous y tiene un papel importante en la definición de especies bacterianas barreras [29]. La helicasa II, UvrD, también actúa como un antirecombinant, posiblemente por la anulación pares de ADN recombinante intermedias [30], o por el desplazamiento de RecA de ssDNA [31]. Por otra parte, UvrD puede estimular RecA impulsado por la migración y la sucursal podrán participar en el RecFOR vía [32]. Por último, en las células mutantes recBC, RecFOR puede iniciar la recombinación de ADN de doble filamento que termina con un capítulo único de extensión, pero sólo cuando SbcB, un ssDNA específicos 3 '→ 5' exonuclease, se inactiva. Al presente, este nucleasa impide RecFOR acción mediante la eliminación de la 3 'extremidad en la que podría ser cargada RecA; además, el crecimiento de recBC sbcB mutantes requiere la inactivación de las proteínas SbcCD por razones desconocidas [1, 33]. Antirecombinant proteínas debe tenerse en cuenta al evaluar el potencial de la maquinaria de recombinación de bacterias, ya que se puede evaluar de secuencias del genoma.

Una evaluación ampliada de las proteínas implicadas en la reparación del ADN tras la publicación de las primeras secuencias del genoma [34]. Este trabajo pionero demostró que los genes implicados en la recombinación homóloga no están homogéneamente distribuidos entre especies bacterianas. Desafortunadamente, no equivalente amplia labor que se ha hecho recientemente, que se centra precisamente en la recombinación homóloga y se aprovecha de los cerca de 200 genomas completamente secuenciados. Sin embargo, los diferentes conjuntos de genes relacionados con la recombinación se han encontrado entre algunos grupos de bacterias [35 - 38]. De esta manera, hemos tratado de evaluar la distribución de genes por recombinación homóloga en genomas completos, utilizando un amplio conjunto de herramientas de la participación de la secuencia y el análisis filogenético [34, 39], así como la colocalización de datos. Este tipo de análisis presupone que la recombinación proteínas son suficientes para antiguos se han ido distanciando de una o unas pocas proteínas para que, como sabemos, la función de al menos un elemento en la familia. A pesar de la recombinación es probablemente un proceso muy antiguo, nuestros datos sugieren que algunos genes pueden haberse perdido debido a que todavía no se han caracterizado funcionalmente. Otra hipótesis de nuestro análisis es que la similitud de secuencia seguirá siendo lo suficientemente fuerte como para permitir que la búsqueda de estos genes por similitud de secuencias. Tenemos que hacer algunas simulaciones sugieren que algunos genes más probable es que haya perdido la secuencia en caso de divergencia sigue el patrón (pero no necesariamente la tasa), de RecA. El uso de la genómica contexto también deberían reducir este problema. Por último, este análisis también supone que orthologs tienen funciones similares. A pesar de que este es asumido por lo general, proteínas con múltiples funciones pueden haber ganado o perdido parte de ellas durante la evolución. Por ejemplo, el papel de RecA no se utiliza en SOS-posiblemente-perdido en la bacteria que esta falta de respuesta. Después de establecer el repertorio de genes, evaluación de sus co-ocurrencia, la tasa evolutiva, y colocalización, teniendo en cuenta su asociación funcional en vías conocidas. Esto fue luego puesto en relación con la historia evolutiva de los genes y la evaluación de la evidencia experimental para la recombinación.

Resultados y Discusión
Observaciones introductorias

Como se describe en Materiales y Métodos, primero se aplica automáticamente una metodología para encontrar candidatos orthologs de los genes implicados en recombinación homóloga. El análisis partió de los genomas para los que se dispone de evidencia experimental de la función de los genes. Por lo general, esto incluye no sólo E. Coli y B. Subtilis, pero también mucho menos estudiado bacterias como mollicutes (por RuvAB [40]], actinobacteria (por Ku [41]], u otros. Naturalmente, cuando un ortholog se encontró en un grupo filogenético, que se utilizó para buscar más orthologs dentro del grupo. En segundo lugar, hemos realizado un análisis más detallado por la búsqueda de InterPro dominios y hacer búsquedas FASTA, y teniendo en cuenta los análisis filogenéticos y de la información sobre genes colocalización. El uso de estas diversas fuentes de información, hemos sido capaces de la lista de candidatos recombinación homóloga en 117 genes de los genomas (Figura 2]. Algunos genes son altamente conservados en secuencia y casi ubicuo. Por estos genes, los métodos que utilizan son muy fiables y ofrecer resultados coherentes de manera uniforme. Sin embargo, para algunos menos ubicuo, en rápida evolución, caracterizado los genes o mal, encontramos a veces ya sea inconsistente o débil similitud de visitas, por ejemplo, la similitud de menos de 40%, con hits FASTA E ~ 10 -5, con un partidos o con motivo inespecífico Gran variación en la proteína de longitud. En estas condiciones, y cuando no fiable estrecha ortholog está disponible, es peligrosa para predecir con confianza orthology. Por lo tanto, estos genes conservadora respecto como "putativo" orthologs. Para algunas proteínas, por ejemplo, RecO y RecX, la lista de putatives es relativamente grande.

RecA y Resolvases son casi ubicuas genes

No recombinación homóloga gen está presente en todos los genomas bacterianos. Sin embargo, muchos genes son generalizadas entre todos o casi todos los grupos y son muy frecuentes dentro de cada grupo (Figura 2]. RecA está ausente sólo en los genomas de varios Buchnera y Blochmania y presenta cambios en la estructura Cebolla Yellows (OY) phytoplasma. La ubicuidad de RecA cerca de fósforos bien con su papel preeminente en la recombinación homóloga y se ha observado anteriormente [34, 42, 43]. Su ausencia entre bacterias intracelulares también ha sido ampliamente documentado [36, 44 - 46]. No es sorprendente que las bacterias que carecen de RecA tienen muy pocas otras proteínas de recombinación. Varias proteínas son casi tan frecuentes como RecA. Los genes que codifican para el cruce Holliday RuvAB rama migración siempre complejas co-ocurren y están ausentes de los genomas que RecA y falta de sólo dos genomas RecA donde está presente, y Wigglesworthia Gb Aquifex aeolicus (Figuras 2 y 3]. Aunque carecen RuvAB, estos dos genomas contienen una RecG ortholog-otro cruce Holliday rama de migrar helicasa. El gen para RecG también es muy frecuente, no sólo de todos los mollicutes y todos Chlamydiacea así como de Desulfovibrio vulgaris.

Algunas proteínas se cree que son funcionales análogos, si bien aparentemente carecen de una historia evolutiva común (es decir, no son orthologs). RuvAB en E. Coli forma un complejo con la resolvase RuvC. RuvC es menos ubicuo que RuvAB, que se explica por la sustitución funcional de la analógica RecU en firmicutes y mollicutes [27]. Nuestros datos indican que sólo diez genomas falta tanto RuvC y RecU (esto incluye los genomas que falta RecA; Tabla 1]. En estos raros casos, la función resolvase podrán ser prestados por YqgF [47], que sólo está ausente de siete genomas. Sin embargo, nuestros datos sugieren que RuvC / RecU y YqgF no son simples funcionales análogos, ya que co-ocurren en la gran mayoría de los genomas. Además, un resolvase actividad de las proteínas YqgF aún no ha sido demostrada tanto in vitro como in vivo. La función que desempeñan las proteínas de resolución también puede ser llevada a cabo por prophage-proteínas codificadas [48].

PriA es casi ubicua y sólo está ausente en el genoma de algunos intracelular endosimbiontes, Deinococcus radiodurans, A. aeolicus, y de la mayoría de los genomas de mollicutes. Entre actinobacteria, hay un putativo ortholog de PriA que es más pequeño y muy divergentes. Con la excepción de Candidatus Blochmania floridanus (que carece de RecA), con todos los genomas AddAB o RecBCD (presináptica las proteínas que actúan en la doble vertiente extremos) han PriA. En conclusión, RecA, la rama de migración de sistemas, y resolvases, y en menor medida a la par que la recombinación de proteínas y la replicación PriA, están presentes en casi todos los genomas de bacterias (Tabla 1].

El RecBCD y AddAB presináptica las proteínas de recombinación

RecBCD proporciona otro ejemplo de la distribución complementaria de los sistemas similares pero nonorthologous. El AddAB proteínas (y sus orthologs RexAB) sustituir RecBCD en firmicutes y en la mayoría de β-y α-proteobacteria. AddAB es casi omnipresente entre estos grupos, ya que sólo le falta en halodurans Bacillus, Neisseria meningitidis, y Chromobacterium violaceum de estos en lugar de haber RecBCD. Un reciente trabajo analizamos un homólogo de AddA en proteobacteria y confirmó su papel en la reparación de rupturas de doble capítulo [49]. Aunque AddA y AddB estrechamente co-ocurren en la mayoría de los genomas, el gen de AddB B. Subtilis no tiene ninguna similitud significativa con las de proteobacteria (E> 0,01 para FASTA hits, <25% de identidad a nivel mundial de alineación). Porque AddB es ligeramente más conservadas que AddA entre firmicutes (ver siguiente), uno esperaría que la proteína AddB de proteobacteria importante tener similitud con la proteína AddB de firmicutes si compartían una historia evolutiva común. Por lo tanto, la AddB proteínas de los dos clados pueden ser funcionales análogos, pero no othologs. Esto es coherente con los datos recientes que indican que comparte AddA más fuerte semejanza con RecB que AddB hace con RecC, lo que refleja un papel más central para la función de RecB / AddA en el complejo (M. El Karoui, comunicación personal).

Los genes que codifican las proteínas que participan en los complejos suelen sistemáticamente co-ocurren en genomas. Este es el caso de AddAB, RuvAB, RuvAB / RuvC (RecU), SbcCD, y MutS1L (ver siguiente). Una importante excepción a esta tendencia es la frecuente presencia de una proteína RecD cuando RecBC está ausente, en mollicutes, firmicutes, D. Radiodurans, tanto Streptomyces, y Des. Vulgaris. El árbol filogenético de esta proteína (Figura 4] muestra una clara separación entre RecD1 (una proteína sistemáticamente asociado con RecBC) y RecD2 (una proteína presente en los genomas falta RecBC). RecD Dentro de cada grupo, se puede identificar la mayor parte de los principales grupos filogenética de las bacterias. Por ejemplo, entre actinobacteria, el Mycobacterium (con RecBC) y los dos Streptomyces (sin) están en lados opuestos del árbol, y un contraste similar se encuentra en δ-proteobacteria, donde Geobacter sulfurreducens ha RecBC y Des. Vulgaris no. En algunos genomas, como Chlamydiacea, existen varias copias de RecD, por lo general, uno en cada lado del árbol. El análisis de las secuencias de proteínas de los dos grupos de RecD muestra una gran diferencia entre ellos. RecD2 contiene una extensión N-terminal incluido un dominio identificado como RuvA dominio 2-como en InterPro que está ausente de RecD1. Este dominio está también presente en UvrC y es esencial para el 5 'procariótico incisión en el proceso de reparación por escisión de nucleótidos [50]. La proteína de RecD2 D. Radiodurans, el único bioquímicamente estudiado, es una molécula de ADN helicasa con un bajo y una procesividad aún no identificado-papel [51].

Por último, algunas bacterias tienen una funcional nonhomologous final unirse mecanismo (NHEJ), que permite la reparación de dsADN pausas [52]. En contra de recombinación homóloga, NHEJ no requiere sólo de una homología de secuencia complementaria fines. Los factores clave de NHEJ Ku son una proteína que se une a la de termini de doble filamento se rompe y tiene el puente actividad, y un ligase que ligates el termini. Nuestros resultados indican que NHEJ genes están presentes en algunas bacterias (Ku está presente en 24 genomas de los 117), sin ninguna tendencia particular filogenética, ya que se encuentran en firmicutes, actinobacteria, y varios grupos de proteobacteria (véase la figura 2]. Como se ha indicado anteriormente [53, 54], los dos genes que tienden a co-ocurren en genomas contigua, probablemente constituya un operón. En algunas bacterias, se encontraron muchas copias de los Ku / ligase genes. Por ejemplo, Agrobacterium tumefaciens contiene seis copias del gen Ku y ocho copias de los ligase, y Bradyrhizobium japonicum contiene cuatro ejemplares de la Ku y dos copias de genes de la ligase. Así, en estos genomas, Ku tiene probablemente un papel muy importante. A continuación, la prueba de patrones de co-ocurrencia de NHEJ y RecBCD / AddAB para ver si la presencia de uno podría compensar la ausencia de la otra (como acto de reparación de doble filamento se rompe). Encontramos a estos sistemas co-ocurren independiente (p = 0,6, la prueba χ 2). NHEJ es la principal vía para la reparación de ADN de doble filamento se rompe en células de mamífero, que es tan recombinación homóloga en levaduras [55]. Puesto que la mayoría de los genomas bacterianos falta NHEJ, recombinación homóloga también parece ser la principal vía de la reparación de actuar en función de tales lesiones en las bacterias.

El RecFOR presináptica las proteínas

Considerando que la RecB, RecC, y RecD polipéptidos forman un complejo estable activa, en la vía RecFOR, existen interacciones entre algunos de los elementos, pero no estable entre los tres complejos de las proteínas. Curiosamente, la RecBCD / AddAB y RecFOR proteínas, en lugar de mostrar un complemento de patrón de co-ocurrencia, co-tienden a ocurrir con más frecuencia de lo esperado (p <0,001, test χ 2). Esto significa que si RecBCD / AddAB está presente (ausente), entonces RecFOR es más probable que se presente (ausente), que probablemente refleja la especificidad de estos dos sistemas complementarios sobre los tipos de lesiones (véase la figura 1].

Aunque RecF históricamente sirvió de referencia para este itinerario, que se ausente del 29 de genomas y es la menos frecuente en el conjunto de proteínas (véase la figura 2]. En el otro extremo, RecR es la más frecuente, y el abandono de sólo diez genomas, seguido por RecO, en la que, contando putativo orthologs, sólo está ausente del 19 genomas. De acuerdo con RecR estar presente en los dos complejos de RecOR activa y RecFR [18, 19], no hay una sola ocurrencia de RecO o RecF cuando RecR está ausente.

En E. Coli, la RecJ exonuclease brecha durante los actos de reparación para ampliar la ssDNA región para RecFOR vinculante [56]. RecJ está ausente de las especies que carecen de RecA y de la mollicutes y las micobacterias, que podrá utilizar otro exonuclease. RecQ está ausente de 48 genomas, de acuerdo con la observación de que la RecQ helicasa se requiere en E. Coli para RecFOR mediada por recombinación sólo en un recBC sbcB sbcCD mutante [57].

Recombinación sin Presynaptic Recombinación Proteínas?

Nuestro análisis indica que algunos carecen de la mayoría de los genomas bacterianos presináptica recombinación proteínas (véase la figura 2]. Una posibilidad es que estos genomas falta recombinación homóloga en total. Este puede ser el caso de algunas especies que carecen de casi todas las proteínas de recombinación homóloga, como todos Buchnera, o la phytoplasma OY (Tabla 1]. Sin embargo, a los genomas que contienen RecA y resolvases, esto es muy improbable. Por ello, hizo un amplio análisis de la bibliografía seleccionada y que carecen de la mayoría de los genomas presináptica las proteínas, pero en los que hay pruebas de recombinación homóloga (Tabla 2]. Estas pruebas proceden de los estudios experimentales de la recombinación homóloga procesos o estudios experimentales que han utilizado recombinación homóloga a ingeniero / inactivar los genes, y la secuencia de multilocus escribiendo datos que indican que la estructura de la población impulsado por recombinación frecuente. Uno también típicamente asume que la transformación natural se utiliza para la recombinación de genes de reparación o de adquisición, lo que sugiere que las bacterias competentes deberían tener algún tipo de recombinación homóloga [4, 58]. Es muy sorprendente que recombinación genomas, como Helicobacter pylori [59 - 61] o Streptomyces coelicolor [62] carecen de una gran fracción de la presináptica las proteínas. Uno debe tener en cuenta que con la excepción de los dos Streptomyces, también carecen de estos genomas NHEJ, y muchos también el código para antirecombinants, como MutS2. Esto sugiere que, o bien presináptica las proteínas son indispensables para la ejecución eficiente de recombinación homóloga en algunos genomas o de otra, los sistemas de desconocido, existen en estos genomas. La primera hipótesis es apoyada por los datos que indican que algunos E. Coli recA mutaciones (RecA P67W, RecA441, RecA730, y RecA803) pueden desplazar SSB proteínas mucho más eficiente que la de tipo salvaje, y por lo tanto en función de la ausencia de presináptica las proteínas [63]. Sin embargo, si algunos genomas falta presináptica debido a que sus funciones de la proteína RecA es capaz de obligar de manera eficiente SSB cubiertas de ADN, no es a través de uno de los estudiados RecA mutaciones en E. Coli, porque no encontramos ninguna de estas mutaciones en los genomas naturales. Además, queda por entender cómo los organismos que carecen de las funciones de control presináptica RecA actividad para evitar su inadecuada fijación a cualquier ssDNA (por ejemplo, en la plantilla de la reproducción de retraso capítulo). Sin embargo-no identificado presináptica sistemas pueden existir en estos genomas. Recombinación presináptica funciones se cumplen en eucariotas por proteínas que no tienen homología con E. Coli proteínas, a pesar de su capacidad para facilitar la unión a ADN de su homólogo RecA afines [64].

Proteínas que antagonizar recombinación homóloga

Otra forma de aumentar la frecuencia de recombinación homóloga sin realizar cambios en el mecanismo de recombinación es eliminar la función de las proteínas antirecombinant. Hemos probado si existen asociaciones entre las pérdidas de los sistemas de presináptica y las pérdidas de antirecombinant proteínas, como UvrD, MutS1L, MutS2, y SbcB genes. UvrD es casi omnipresente. La presencia de MutS1L se correlaciona con la presencia de RecBCD / AddAB y RecFOR (RecBCD / AddAB: 102 observó, que se espera 69; RecFOR: observó 91, espera 80; ambos p <0,005, prueba exacta de Pearson). Esto sugiere que una menor actividad de RecA en la ausencia de sistemas de presináptica pueden ser compensadas por la pérdida de la falta de adecuación del sistema de reparación. Contrariamente a MutS1, MutS2 no participa en la reparación y el desajuste suprime recombinación homóloga entre las secuencias idénticas, además de homeologous recombinación, en el H. Pylori [60]. Sin embargo, no se encontró relación entre la presencia o ausencia de MutS2 y la de los sistemas de presináptica. Como el H. Pylori es la única enzima MutS2 de que se ha estudiado en detalle hasta el momento, es posible que el antirecombination propiedad MutS2 de esta proteína es específico para esta especie.

SbcB, que en RecBC - fondos impide la reparación de la doble vertiente-breaks por RecFOR, tiene un patrón estadísticamente significativo de la co-ocurrencia y co-con omisión RecBCD / AddAB (observados 63, espera 53, p <0,01, prueba exacta de Pearson ), Pero no con RecFOR (p> 0,1, la misma prueba). De hecho, sólo una de las bacterias que carecen de RecBC / AddAB contiene SbcB. Esto indica que la ausencia (presencia) de RecBCD / AddAB se correlaciona con la ausencia (presencia) de este antirecombinant gen, que puede permitir a RecFOR eficiente de reparación de doble filamento se rompe en RecBCD - / AddAB - orígenes. SbcCD es mucho más frecuente que la SbcB y también co-produce con RecBCD / AddAB (observados 64, espera 52, p <0,01, prueba exacta de Pearson). Sin embargo, el papel de SbcCD en recombinación homóloga no está claro.

Colocalización de Genes

Los genes que participan en un mecanismo común tienden a ser estrechamente coregulated y, por esta razón, agrupados en el genoma [65]. Por lo tanto, hemos buscado la colocalización de estos genes entre nuestros conjunto de los genomas. Con pocas excepciones, se observa que sólo la recombinación de genes que forman parte de complejos estables son sistemáticamente agrupadas. El addAB genes colocalize en 20 de 21 co-ocurrencias entre firmicutes, la excepción de Clostridium tetani. Entre estos genes se proteobacteria juntos en 13 de 13 genomas. Los tres genes para RecBCD se encontraron a colocalize en 28 de sus 31 co-ocurrencias. RuvA y RuvB colocalized en 77 de 111 co-ocurrencias, con las excepciones incluidas todas chlamydiacea, todas las cianobacterias, todos ɛ-proteobacteria, todos los estreptococos, todos los bacteroides, espiroquetas y más, así como algunos filogenéticamente dispersas genomas. RuvA, RuvB, y RuvC colocalized en 45 de 78 co-ocurrencias de los tres genes. En firmicutes y mollicutes, RuvC se sustituirá por RecU, pero este gen sólo colocalizes con RuvAB en dos genomas (Mycoplasma genitalium y M. pneumoniae). Así, RecU y RuvC son muy diferentes a este respecto. YqgF rara vez se encuentran cerca de otros genes de recombinación. Los dos genes clave para NHEJ (Ku y el ligase) se encontraron juntos en 19 de 24 genomas. Naturalmente, como para la co-existencia de los genes en genomas, la cercanía de sus compañeros de ocurrencia se ve influida por la distribución filogenética de los genomas disponibles. Cerrar incidencia de los genes en la muestra altamente clados, por ejemplo, firmicutes o proteobacteria, será más preeminente que en clados con pocas secuencias disponibles.

RecA y RecX están cercanas en muchos genomas y son, en parte, en E. coexpressed Coli [66]. En algunas bacterias, la sobreexpresión de RecA es tóxico en ausencia de RecX, e in vitro, RecX modula la acción de RecA por el bloqueo de la extensión de los filamentos de RecA [67]. Sin embargo, aunque en E. Coli RecX inhibe la acción de RecA [68], en presencia de Neisseria gonorrhoeae su inactivación conduce a una disminución de la recombinación homóloga [66]. Ampliación de observaciones anteriores [69], encontramos que el 35 de los 37 co-ocurrencias de buena fe orthologs de recX colocalize con recA. Las excepciones son N. Meningitidis y Photorhabdus luminescens. En cambio, muy pocos genes entre las más alejadas, putativo recX orthologs están físicamente cerca de los genes recA. En particular, el putativo recX de firmicutes son sistemáticamente la medida en el cromosoma de recA. Las proteínas codificadas por estos genes son más grandes y menos del 40%, similar a la de E. RecX Coli y de actinobacteria. Por lo tanto, es seguro que el que llevan a cabo la misma función. Sin embargo, RecX también muestra grandes variaciones en la longitud relativa entre bien caracterizado orthologs (por ejemplo, entre γ-proteobacteria la E. coli la proteína tiene 166 residuos, mientras que en Yersinia pestis tiene 188, y en Shewanella oneidensis tiene 123). Se ha sugerido que la disociación entre recA y el putativo recX en N. Gonorrhoeae y B. Subtilis podría estar asociado con su competencia natural de la transformación [66]. Sin embargo, esa disociación es una característica de todos los firmicutes, no específicamente de la competencia, y es que no se encuentra en otras bacterias competentes como Haemophilus influenzae o H. Pylori (que carece de RecX).

Aunque recF, recR, y recO no colocalize, tanto recF y recR menudo colocalize con genes que codifican para las proteínas de replicación. Muchos genomas tienen un operón cerca de la replicación de origen que contiene cuatro genes: dnaA (implicados en la replicación de iniciación), dnaN (β-abrazadera de la DNA polimerasa III), recF, y gyrB (DNA-girasa) [70]. Entre los 86 casos de recF, es dnaA en cerca de 54, cerca de dnaN en 58, y cerca de gyrB en 52. Los cuatro genes que están juntos en 40 genomas. Por último, el dnaX gen, que codifica la subunidad γ τ y de E. Coli DNA polimerasa III, está cerca de recR en E. Coli, y los genes están parcialmente cotranscribed [71]. Entre los 97 genomas que contienen dnaX y recR, los genes colocalize en 65. Estos resultados indican que, en lugar de agrupar en conjunto, la recombinación de genes que no son parte de los complejos estables suelen ser colocalized con genes implicados en la replicación. El vínculo entre los genes de estos dos procesos celulares es, sin duda, relacionados con el papel de la recombinación homóloga en la reparación de lesiones del ADN que bloquean la síntesis de ADN [72, 73].

Precios relativos Evolutiva de la Proteínas

La tasa de sustitución de las proteínas es el resultado de la interacción entre la mutación y las limitaciones funcionales. Hence, if one discounts horizontal gene transfer, the differences in substitution rates between proteins should reflect their relative tolerance to change (ie, they should be associated with the fraction of changes that allows maintaining the function). To assess the relative tolerance of each recombination protein to changes, we computed evolutionary distances within the sets of all bona fide orthologs, using Tree-Puzzle [ 74 ]. We then used RecA as the reference protein because of its near ubiquity and slow evolutionary rate [ 42 ]. The regression analyses of the substitution rates of each protein as a function of the substitution rate of RecA showed one single group in which RecA evolves faster—the mollicutes (data not shown). We have thus not used these points in the regressions. All other proteins were then compared to RecA, and we found a considerable diversity among the different proteins in terms of substitution rates ( Figure 5 ). A more developed version of this method has recently been proposed to find horizontal gene transfer between distant taxa [ 75 ]. Using our data, we found very little evidence of such events (data not shown). RuvB has evolved almost as slowly as RecA (16% faster), whereas some proteins have evolved a little faster, such as RecR (+68%) and RecU (+100%). However, most proteins have evolved much faster than RecA. Among these, there is a group of proteins that has evolved between 4.0 and 4.5 times faster than RecA and that includes RecB, RecD, RecX, AddA, AddB, YqgF, and RecO. Because RecD is divided in two groups, these data only include the RecD proteins that are in the group of genomes containing RecBC (ie, RecD1).

The proteins of the RecFOR pathway have a peculiar evolutionary pattern. In addition to being present with very different frequency, with RecF being more frequently absent than RecR or RecO, they also show remarkably different substitution rates, with high conservation for RecR, lower conservation for RecF, and among the lowest conservation for RecO ( Figure 5 ). This may be the result of the double participation of RecR in interactions with RecO and RecF, which would increase the constraints on its evolution. The crystal structure of the D. radiodurans RecR protein reveals the existence of a ring-shaped tetramer, theoretically able to encircle dsDNA [ 76 ]. This particular clamp-like structure may also have contributed to the high level of conservation of the protein.

It's interesting to note that among the fastest-evolving proteins, some are nearly ubiquitous (RecD and YqgF), and some are much rarer (RecB and AddAB). This suggests that few proteins have been missed in the analysis as a result of excessive sequence divergence. We made a set of simulations to assess this problem more precisely. We allowed protein sequences to evolve according to the evolutionary model of RecA, but at a different relative rates (see Materials and Methods ). This analysis showed that only proteins evolving more than four times faster than RecA are expected to be missed in our similarity searches at this evolutionary distance and using our 40% similarity criterion ( Figure 6 ). Even for proteins evolving 5.5 times faster than RecA, in none of our 100 simulations would we miss more than six orthologs. These orthologs were systematically in the fast-evolving mollicutes clade. Naturally, this is an oversimplification of the evolution of proteins, because proteins evolve in a changing context, and this may change their relative rates of evolution. In addition, these analyses do not take into account that insertions and deletions may be more frequent in some proteins than in others. Yet they indicate that few homologous genes are expected to have been lost in the present analysis as a result of excessive sequence divergence.

Conclusion

The presynaptic role of RecBCD and RecFOR and the branch migration activity of RuvAB and RecG suggest functional redundancy, whereas, in contrast, the patterns of co-occurrence of these systems agree with the experimental works indicating complementary, and not redundant, roles for these proteins . Interestingly, this work also indicates that the RecFOR pathway may be more conspicuously important among bacteria than RecBCD, as it is significantly more frequent. RecR is the most conserved of the three proteins, and understanding how recombination is promoted in the organisms that encode a RecR homolog but do not have RecF or RecO would help understand the functioning of these recombination mediator proteins. The associations of recR and recF with genes involved in replication are often conserved, suggesting that the close association between replication and recombination observed in E. coli is common to most bacteria.

A central tenet of current genomic studies is the possibility of associating gene content with phenotype variation. Because the abundance of repeats in genomes correlates well with rearrangement rates and with the capacity of generating genetic variation [ 8 , 9 ], and because repeats are cause and consequence of recombination processes, one could expect an association between the repertoire of recombination genes and the number of repeats. We were unable to observe such a correlation. Indeed, except for genomes lacking RecA and resolvases (which are stable, have few repeats, and possibly lack homologous recombination), bacteria known to recombine frequently may either have a complete repertoire of known recombination genes or lack a substantial part of it. A striking example of the latter is provided by H. pylori [ 77 ], which is highly recombinogenic, although it lacks most presynaptic proteins and has antirecombinants such as UvrD and MutS2. In addition, at the intraspecies level, the differences in the population structure do not correlate with the genome content in recombination proteins. For example, serogroup A of N. meningitidis is mostly clonal, contrary to the majority of the others [ 78 ]. However, we found that both serotypes A [ 79 ] and B [ 80 ] have the same almost complete repertoire of homologous recombination proteins. Hence, associations between stability of a genome and the lack of some recombination proteins, as was proposed for Bifidobacterium longum [ 81 ] and Corynebacterium species [ 38 ], must be viewed with exceptional care before experimental confirmation.

The reasons for this lack of simple association between genotype and phenotype are probably multiple. Orthologs do not necessarily have the same exact functionalities and are likely to have different levels of activity. For example, presynaptic systems may be less necessary if the affinity of RecA for ssDNA is higher. The frequency of recombination events may also depend on the implication of recombination proteins in different cellular processes. For example, the coupling of recombination and replication may depend on the replication machinery and on the frequency of replication arrest. Specific genetic regulatory systems may also lead to different rates of recombination. For example, the onset of competence may be differently related in various organisms with cell growth and with the level of expression of recombination enzymes. Also, equivalent cellular processes may be associated with different enzymatic systems. For example, in neisserial species and E. coli, transformation-associated recombination takes place through the RecBCD pathway, whereas in B. subtilis, chromosomal transformation decreases 2.5-fold in a recO mutant [ 82 ], and in streptococci, AddAB is not involved in chromosome transformation [ 83 ], possibly because in competent firmicutes only ssDNA enters the cell. In contrast, in the competent Helicobacter and Campylobacter species, all these genes but RecR are absent. One could also expect that recombination activity is also constrained by ecological factors. Endosymbionts live in very protected environments, and this, associated with reductive genome evolution, has led to the loss of recombination functions [ 36 , 37 ]. However, apart from this case, we could not find any other obvious association between lifestyle and the presence or absence of recombination proteins, which once again is in agreement with the inherent housekeeping role of homologous recombination.

This housekeeping role of homologous recombination is probably also why we found little evidence of horizontal transfer among these genes. Genes implicated in the generation of genetic variation tend to be frequently horizontally transferred [ 84 , 85 ], but not housekeeping genes involved in managing genetic information [ 86 ]. Interestingly, multilocus sequence data also indicate that RecA rarely recombines among strains of the same species [ 87 , 88 ]. This does not mean that horizontal transfer is altogether absent. Such events are the most parsimonious explanation for the existence of some analogous replacements, such as AddAB among proteobacteria or RuvC in Thermoanaerobacter tengcongensis . They are also probably responsible for the sporadic occurrence of NHEJ in different phylogenetic groups. In addition, given the frequency of prophage sequences in bacterial genomes [ 89 ], and the many phage-encoded recombination systems, recombination genes of known phage origin, which have not been included in this study, may also play a role in the variations of recombination mechanisms.

Our study defines a core of recombination genes coding for proteins nearly ubiquitous in bacterial species. These include the genes that encode RecA (which has a homolog among eukaryotes), RuvAB, RecR, RuvC/RecU, and to a minor extent RecG, RecN, RecJ, and PriA. These genes are present in nearly all bacterial groups and show little horizontal transfer. This justifies the use of such proteins as phylogenetic markers [ 43 ]. Their widespread distribution demonstrates their importance in bacteria and justifies the emphasis on their detailed biochemical and functional study.

Materials and Methods
Data.

We analyzed the genomes of 117 different bacterial species (see Figure 2 ), taken from GenBank Genomes ( ftp://ftp.ncbi.nih.gov/genomes/Bacteria/ ). The list of proteins related to homologous recombination was taken from the literature [ 13 , 24 ] and included RecA, RecB, RecC, RecD, RecF, RecG, RecJ, RecN, RecO, RecQ, RecR, RecU, RecX, RuvA, RuvB, RuvC, AddA (RexA), AddB (RexB), and PriA. Their function is summarized in Figure 1 . Proteins such as RecE, RecT, and RusA were not analyzed because they were found to be very rare in bacterial genomes and are associated with prophages [ 13 ]. In addition, we included the antirecombination proteins SbcB, SbcC, SbcD , MutS1, MutS2, MutL, and UvrD; the putative resolvase YqgF [ 47 ]; and the Ku and ligase genes responsible for nonhomologous end joining in some bacteria [ 52 ].

Assignment of orthology.

One should note that many recombination genes belong to large protein families, such as helicases [ 90 ] or nucleases [ 47 ]. Hence, simple sequence similarity is not an indication of orthology. Assignment of orthology followed an automated step and then manual curation. The automatic method was the following. We started from the protein in E. coli (except for AddAB, MutS2, Ku, and RecU, where we started from B. subtilis ) and searched for orthology in all other genomes. Genes were regarded as potential orthologs if they were bidirectional best hits with at least 40% similarity in sequence and their sequences were less than 30% different in length. The alignments were done using an adapted version of the Neddleman-Wusch algorithm (global alignment), in which the nonaligned edges of the largest sequence are not penalized [ 91 ], using the matrix BLOSUM60 and typical gap penalties. For comparison, we also made FASTA searches, because they allow for the detection of more local similarities [ 92 ]. Then we took the less similar protein hit, respecting the previously cited conditions as a query, and relaunched the analysis on the entire set of genomes with the same parameters. The proteins resulting from the intersection of these lists were temporarily regarded as bona fide orthologs. The other proteins were put together with the ones showing significant FASTA hits ( E &lt; 10 −5 ) on the other genomes, as well as the ones originally annotated as orthologs (but not respecting the above conditions). We then searched for significant motifs in this set of proteins, using the InterPro database ( http://www.ebi.ac.uk/interpro/ ) and visually analyzed and corrected multiple alignments. The proteins showing alignments with more than 40% similarity with bona fide orthologs were kept. When the alignments were within the range of 37%–40% similarity and did not show excessive gaps, and the proteins respected the 30% difference in length criterion or had significant InterPro motifs, the proteins were classed as putative. The bona fide orthologs were then aligned and phylogenetic distances computed as described below. The final list of “bona fide orthologs” took into account not only sequence similarity searches but also the phylogenetic information and colocalization data, as recommended [ 93 ].

Phylogenetic analyses and simulations of protein evolution.

Orthologs were aligned using ClustalW [ 94 ] and checked with Seaview [ 95 ]. Phylogenetic distances between the orthologous proteins were computed using Tree-Puzzle [ 74 ], with the JTT+Γ model with eight classes. For this analysis, and because we wanted to assess evolutionary rates, we removed only the regions with extended gaps from the multiple alignments. Phylogenetic trees were built using the same model with Phyml [ 96 ]. We used Seq-Gen [ 97 ] to generate 1000 proteins with 1000 residues, having the average amino acid composition of the JTT substitution matrix. The sequences were made to evolve along the RecA phylogenetic tree (which is largely congruent with the 16S rDNA tree [ 42 ]), using scaling factors in the range 0.5 to 6 (the fastest protein was found to evolve at less than 4.5 times the rate of RecA), and with the evolutionary model used to build the RecA tree. Each time, we used the evolved sequences to make global alignments and compute the similarity. For each experience, we counted how many genes had more than 40% and more than 37% similarity with the E. coli gene. This allowed the assessment of the number of orthologs that may be missed by the automatic similarity search part of the methods as a result of excessive sequence divergence.

Colocalization analysis.

Two genes were considered to closely co-occur if they were fewer than five genes away in a genome. A third gene is in close co-occurrence with the latter two if it is less than five genes away from at least one of the two genes. One should note that the average operon in E. coli and B. subtilis has fewer than five genes [ 98 ]. We started by analyzing the co-occurrence of the orthologs of the E. coli recombination genes. Then we did the same with the orthologs of B. subtilis genes that have no orthologue in E. coli . Finally, we analyzed particular cases described in the literature: the occurrence of recF in the dnaA region [ 70 ] and the co-occurrence of recR with dnaX [ 71 ], and recX with recA [ 69 ].

Meriem El Karoui, Ivan Matic, Vincent Daubin, and two anonymous reviewers provided important comments and criticisms on this manuscript. Alain Blanchard and Pascal Sirand-Pugnet provided important input and thoughts on recombination in mollicutes.