PLoS ONE, 2006; 1(1): (más artículos en esta revista)

Experimental paisaje accidentado de fitness secuencia de proteínas en el espacio

Biblioteca Pública de la Ciencia
Yuuki Hayashi [1], Takuyo Aita [2], Hitoshi Toyota [4], Yuzuru Husimi [3], Itaru las cepas Urabe [4], Tetsuya Yomo [1]
[1] Departamento de Ingeniería bioinformáticas, Osaka University, Suita, Osaka, Japón
[2] Rational Evolutiva Diseño Avanzado de Biomoléculas (REDS) Grupo / JST, Saitama Pequeña Empresa Corporación de Promoción SKIP City, Kawaguchi, Saitama, Japón
[3] Funcional del Departamento de Ciencia de Materiales, Universidad de Saitama, Saitama, Japón
[4] Departamento de Biotecnología, Osaka University, Suita, Osaka, Japón
[5] Escuela de Estudios Superiores de Biociencias de la Frontera, Osaka University, Suita, Osaka, Japón
[6] Expoloratory de Investigación para la Tecnología Avanzada (ERATO), Japón Organismo de Ciencia y Tecnología (JST), Suita, Osaka, Japón
Resumen

La aptitud del paisaje en el espacio secuencia determina el proceso de evolución biomolecular. Para la parcela de fitness paisaje de la función de las proteínas, llevamos a cabo in vitro evolución molecular a partir de una defectuosa fd fago llevar un control aleatorio del polipéptido de 139 aminoácidos en lugar de la G3P menor capa de proteínas D2 dominio, que es esencial para la infección por fagos. Después de 20 ciclos de sustitución al azar en los sitios 12-130 del polipéptido inicial aleatoria y la selección de infectividad, el seleccionado mostró una fago 1,7 × 10 4 veces más en la infectividad, que se define como el número de células infectadas por ml de suspensión de fagos. Fitness se definió como el logaritmo de la infectividad, y analizamos (1) la dependencia de aparatos fijos de fitness en tamaño de la biblioteca, que aumente de forma gradual, y (2) el curso temporal de los cambios en la aptitud en las fases de transición, basado en un original en relación con la teoría en la dinámica evolutiva del Kauffman n - k paisaje modelo de fitness. En el modelo de paisaje, único mutaciones en los sitios solo sitios entre n afecta a la contribución de k otros lugares de interés de fitness. Basándose en los resultados de estos análisis, k se estimó en 18-24. De acuerdo con la estimación de parámetros, el paisaje se representará gráficamente como una superficie lisa hasta una aptitud relativa del 0,4 de la punta mundial, mientras que el paisaje había una superficie muy accidentada, con muchos locales picos por encima de este valor relativo de fitness. Sobre la base de los paisajes de estas dos superficies diferentes, parece posible adaptación para los paseos con las sustituciones sólo al azar a subir con relativa facilidad hasta la región media de la idoneidad del paisaje primordial de cualquier secuencia o al azar, mientras que una enorme gama de secuencia de la diversidad es necesaria para subir más arriba en la accidentada superficie media por encima de la región.

Introducción

In vitro evolución molecular puede ser considerada como una adaptación a pie en un paisaje de fitness secuencia en el espacio, donde el "fitness" es una medida cuantitativa de un determinado las propiedades fisicoquímicas de un biopolímero, como la termoestabilidad o actividad enzimática [1], [2]. La "adecuación del paisaje" es un mapa de la idoneidad de cada secuencia en el punto correspondiente en la secuencia espacio, y la "adaptación a pie" se compone de cambios evolutivos en las secuencias en la aptitud del paisaje. Las propiedades estadísticas de fitness paisajes se consideran como los "atributos evolutivo" de los biopolímeros, tales como las proteínas. Propiedades tales como el número de picos locales y la superficie relativa de la región montañosa de la región plana en la parte inferior se analice el grado de diversidad entre todas las posibles secuencias que deben ser registrados para comenzar evolución funcional, el ritmo al que una determinada propiedad evoluciona, y en qué medida un proceso evolutivo producto. Estas preguntas son importantes no sólo para el diseño funcional de biopolímeros de ingeniería molecular evolutiva, sino también para la prueba experimentalmente escenarios de evolución biopolímero.

El n - k modelo de paisaje, en las sustituciones que se produzcan en uno de los sitios n afecta a la contribución de los residuos en k otros lugares de interés de fitness, se propuso como un modelo de la aptitud del paisaje [2], [3] (Figura 1]. En este sencillo modelo, los únicos parámetros necesarios para determinar las propiedades de la idoneidad del paisaje, como la robustez y la frecuencia de los picos locales, son el valor de k y la diferencia de altura entre el pico mundial y el pie, que se define como la región en la secuencia aleatoria espacio donde se encuentran las secuencias. Si k = 0, todos los aminoácidos sitios son independientes, y por lo que los efectos de sustituciones en fitness son aditivos. Como fitness cambios gradualmente con las sustituciones, el paisaje es suave con un solo pico, lo que se conoce como un "Mt. Fuji-tipo "perfil. En este caso, su capacidad de adaptación de los paseos de búsqueda con un solo sustituciones alcanzar gradualmente el pico mundial. Por otra parte, los más grandes valores de k se asocian con los paisajes más resistente. Si las sustituciones en un solo aminoácido sitio afectar a los residuos k en otros sitios, los efectos de la doble sustituciones en dos lugares diferentes no puede ser igual a la suma de los efectos de los dos independientes único sustituciones [4] - [7]. Así, el paisaje es accidentado, con varios picos. En un accidentado paisaje, la adaptación a pie pueden llegar a ser atrapados por la aptitud optima local. Para encontrar el pico mundial en el accidentado paisaje, la adaptación a pie requiere enorme diversidad de secuencias. Por lo tanto, k es un elemento esencial determinante de la estructura del paisaje físico. Se han realizado una serie de estudios teóricos de la dinámica evolutiva, tanto en liso y resistente paisajes [2], [3], [8] - [14]. Para obtener información sobre la idoneidad paisajes de las proteínas, Kauffman y Weinberger aplica el n - k modelo para la maduración de afinidad de la inmunoglobulina V región, en función del número de pasos en la adaptación a pie hasta el local optima, el valor de k se estimaba a ser alrededor de 40 en este caso [2], [3].

Aunque mucho se sabe sobre la estructura del paisaje, cerca de la aptitud picos de proteínas nativas [5], [7], [9], [15], poco se sabe acerca de las estructuras cerca de la parte inferior, que contienen información primordial en relación con la evolución de proteínas. Experimental evolución molecular de polipéptidos generados al azar se ha empleado para determinar cómo y en qué medida, una proteína funcional puede evolucionar de acuerdo con los principios de evolución darwiniana [16] - [20]. Uno de los más notables resultados de estos estudios es relativamente pequeño que los grados de diversidad de secuencias, por ejemplo, 10 diferentes secuencia aleatoria de la esterasa actividad, son suficientes para permitir darwiniano de selección al azar de polipéptidos, compuesto de unos 140 residuos de aminoácidos [17]. Anteriormente, nos informó de la evolución de la infectividad fago con sólo siete ciclos de mutación aleatoria y la selección de un único arbitrariamente elegido al azar secuencia [18]. La infección de Escherichia coli por la coliphage fd está mediado por la menor capa de proteínas G3P [21], [22], que consta de tres campos distintos flexible conectado a través de glicina ricos en secuencias enlazador [22]. Uno de los tres dominios, D2, situado entre la N-terminal D 1 y C-terminal D3 dominios, las funciones en la absorción de G3P a la punta del anfitrión F-pilus en la etapa inicial del proceso de infección [21], [ 22]. Hemos elaborado un fago defectuoso ", fd-RP," mediante la sustitución de la D2 dominio de la fd-Tet fago con un polipéptido soluble al azar, "RP3-42", que consta de 139 aminoácidos [23]. Los primeros fagos defectuosos fd-RP mostró poco infectividad, lo que indica que el azar polipéptido RP3-42 contribuye poco a la infecciosidad. Sin embargo, hemos conseguido 240 veces la mejora en fagos infectividad a través de siete ciclos de mutagénesis aleatoria en el sustituirá polipéptido y selección de los fagos clon con la más alta infecciosidad de una biblioteca de sólo unos diez clones de fagos mutantes en cada generación. El evolvability de arbitraria elegido al azar secuencia sugiere que la mayoría de posiciones en la parte inferior de la aptitud del paisaje tienen rutas hacia la mayor aptitud.

A pesar de que ha demostrado ser posible que un solo polipéptido elegido arbitrariamente a evolucionar la infectividad, la evolución se estancó después de la 7 ª generación, que fue probablemente debido al reducido tamaño de la biblioteca mutantes en cada generación. Por lo tanto, hemos ampliado in vitro evolución molecular mediante el aumento de la biblioteca de tamaño gradualmente a partir de 10 2 a 10 6. Mediante la aplicación de los datos experimentales a una original teoría de la adaptación a pie en el n - k fitness paisaje modelo [8], [13], [14], se determinó el valor de k y otros parámetros para trazar una proteína paisaje físico y examinó su implicaciones en relación con el primordial etapas de evolución de proteínas in vitro y la ingeniería molecular evolutiva.

Resultados
Resultados de Evolution in vitro

Para la parcela de fitness paisaje que van desde los pies a una altura correspondiente a alimentos suficientes funciones biológicas, ampliado nuestra in vitro evolución molecular, que anteriormente llevó a cabo hasta la 7 ª generación, con la adición de un proceso de enriquecimiento de los más aptos que fago clon (s) pasa a ser dominante a través de varios ciclos de infección y el crecimiento de E. coli. Como el estancamiento se debe a tamaño pequeña biblioteca en nuestra experimentos anteriores, aumentó gradualmente el tamaño N biblioteca si el tiempo de infectividad alcanzado una meseta (Figura 2A]. Para cada generación, hemos preparado un mutante biblioteca de la población parental enriquecido a la generación anterior y la continuación de la iterativo proceso de enriquecimiento hasta que el aumento de la infectividad parece cesar. Se ha utilizado la población enriquecido como la población parental para la próxima generación, y la idoneidad de los padres de población en cada generación se estima como el logaritmo natural de la infecciosidad (véase Materiales y Métodos para la justificación de adoptar la escala logarítmica como la aptitud). La infectividad de los clones evolucionado se aumentó a 1,7 × 10 4 veces en comparación con la de fd-RP, lo que correspondía a un aumento de la aptitud de 9,7. A medida que el tamaño de la biblioteca, N, fue de aproximadamente 10 hasta la 7 ª generación, el fitness se estancó. Un aumento de N para 10 2 no aumentó significativamente la aptitud para el límite de detección. Sin embargo, la condición física comenzó a aumentar con un aumento de N, de 10 3. Por un nuevo aumento de N, se sobrepuso a algunos estancamientos en las 20 generaciones. Antes de llegar a un nivel comparable a la de tipo silvestre fago, la idoneidad debe aumentar de 7,6, lo que requiere una enorme biblioteca de tamaño si sólo se emplean las sustituciones, tal como se describe a continuación.

No hay convergencia en el medio silvestre de tipo D2 de dominio se detectó. Las secuencias de aminoácidos de los clones recogidos al azar de la población enriquecido no mostró significativa homología en el medio silvestre de tipo secuencia (Figura 2B]. Sobre la base de un análisis detallado de la idoneidad del paisaje se describen a continuación, es probable que la adaptación a pie subió a una montaña diferente en el paisaje de aptitud que, cuando la naturaleza del tipo de secuencia existe (ver Discusión].

Para obtener información sobre la estructura del paisaje de la dinámica evolutiva se ha descrito anteriormente, es esencial para determinar los aminoácidos tasa de sustitución en la biblioteca de mutantes. Se determinó la secuencias de ADN correspondientes a los residuos de aminoácidos 12-130 de la secuencia aleatoria de fd-RP, y esta región fue objeto de mutagénesis aleatoria en cada generación. Todos los clones fueron sometidos a análisis de secuencias antes de la selección hasta la 7 ª generación. A partir de estas secuencias, que calcula la proporción de no-sinónimo frente a las mutaciones como sinónimo 1,8 para nuestros mutagénesis aleatoria con propenso a errores PCR. A partir de la 8 ª a la 20 ª generación, también determina las secuencias de ADN la misma región de 10 a 16 clones elegido arbitrariamente de la población seleccionada en cada generación. El número de mutaciones en sinónimo de selección acumulado después linealmente con el número de generaciones (Figura 2A], y el sinónimo mutación tasa se estimó en 1,36. La invariancia de la pendiente se indica que la tasa de mutación sinónimo fue poco afectado por el aumento de la presión de selección debido al aumento de tamaño de la biblioteca de 10 a 10 6. La no-sinónimo tasa de mutación antes de la selección, d, se estimó en 2,4 multiplicando la tasa de mutación es sinónimo de la relación.

Determinación de la Estructura del Paisaje nk

La determinación de los parámetros de la estructura n - k-O panorama, la aptitud global de la punta; ε, la diferencia de aptitud de los pies a la punta mundial; ν, la diferencia entre aptitud en las secuencias de todos, y k, el número aminoácidos de las contribuciones de los sitios que a la aptitud fueron influenciados por las sustituciones en otros sitios solo-se determinó mediante el análisis de la dinámica evolutiva de la relación entre (1) la aptitud en la fase estacionaria y el tamaño de la biblioteca, y (2) el tiempo de los cambios en la aptitud en la fase de transición hacia la fase estacionaria. El método aplicado aquí se basa en las conclusiones de los estudios teóricos y su aplicabilidad a los datos experimentales y análisis más detallados se describen en otros lugares (Aita et al., En preparación).

Asumimos que la adaptación a pie se muestra en la Figura 2A alcanzado fase estacionaria en la 7 ª-8'th, 12-13, 17-18a, 19a y 20a de generaciones para la biblioteca tamaños, N = 10, 10 3, 10 5, y 10 6, respectivamente. Estos estancamientos puede explicarse por el equilibrio entre mutación, selección y deriva aleatoria debido al limitado tamaño de la biblioteca. En caso de que un mutante clon con mayor aptitud que el padre clon aparece con un limitado tamaño N biblioteca, que tiene una gran oportunidad de aumentar la idoneidad de los padres clon para la próxima generación. Por otro lado, si la mayoría pero no todos los mutantes de N es menor aptitud de los padres clon, uno de estos mutantes se puede seleccionar por casualidad, ya que sólo un número limitado de células son elegidos al azar después de aptitud que dependen de crecimiento. Por lo tanto, la idoneidad de los padres clon para la próxima generación puede disminuir. Por lo tanto, con una biblioteca de tamaño limitado, N, habrá una cierta aptitud valor de la matriz clon en fase estacionaria, habida cuenta de Eqn. (11) (Materiales y Métodos], donde d es la tasa de mutación (2,4 por generación) y n es la longitud de la secuencia de aminoácidos sometido a la mutación (119), lo que corresponde a residuos de aminoácidos 12-130 de RP3-42. Tenga en cuenta que n = 119 implícitamente asume que la región contribuye a fagos infectividad epistatic con poco efecto con otras regiones del genoma de fagos. Utilizando la media de fitness en la fase estacionaria para cada valor de N en la dinámica de evolución se muestra en la Figura 2A, que confirmó que el valor de fitness W * en cada fase estacionaria seguido Eqn. (11) (Figura 3]. Tenga en cuenta que la idoneidad de la inicial defectuoso fd-RP a la generación 0th se traza en N = 1 como la secuencia aleatoria RP3-42 en fd-RP se supone que "seleccionada" entre N = 1 arbitrariamente elegido secuencias. Esta hipótesis fue confirmada por la observación de que la infectividad de fd-RP es comparable a la de la supresión de fagos mutantes que carecen de dominio D2. Acondicionamiento Eqn. (11) sobre el argumento de la W * valores contra los respectivos valores de N (Figura 3], que obtuvo O + ε como 6,0 y 4 ν n / d (1 + k) como 5,8. Hemos aprobado las estimaciones del valor de W * dada más arriba, y Eqn. (13) fue ajustado a la parcela del tiempo de los cambios en la aptitud para el 1 ª-7 ª y 8'th generaciones y para 8 al 13 generaciones, tal como se muestra en la Figura 2A. Esta instalación arrojó valores de d (1 + k) / n = 0,5 para N = 10 y 0,39 para N = 10 3, y con n = 119 y d = 2,4, calcula los valores de k el 24 y 18, respectivamente. Por lo tanto, hemos aprobado un promedio de k = 21 para la adecuación paisajística de fagos infectividad. Al combinar los valores determinados por encima y por Eqns. (4) y (5), con k = 21, calcula los siguientes parámetros: O = 21,5, ε = -15,5, ν = 0,64. Cabe señalar que la aptitud de los salvajes de tipo fd-Tet fago, que no se utilizó para la determinación de los parámetros, fue tan alto como el pico mundial.

Estructura del estado físico del Paisaje

Sobre la base de la nk modelo con los parámetros estimados como se describe más arriba, nos describe la estructura del paisaje físico de la menor G3P capa de proteínas D2 dominio de fagos infecciosidad de la siguiente manera. En primer lugar, la frecuencia de las secuencias que tengan la aptitud valores de W obedece a la distribución gaussiana dada en Eqn. (3) con promedio de O + ε = 6,0 y varianza ν = 0,64 (Figura 1]. La región donde W & gt; O + ε está por encima del pie, mientras que si WO + ε se considera por debajo de la línea de base. En la región por encima del pie, W fitness más grande de las secuencias se asocia con una marcada reducción en la frecuencia de exp (- (W - O - ε) 2 / 2 ν).

Hemos encontrado que no hay local optima entre los pies y la altura media sobre el paisaje, mientras que por encima de la media región el número de locales optima es muy grande. Ahora, indican la altura sobre el paisaje de la aptitud relativa, ; Fitnesses la relativa a los pies y en los planos mundial pico son = 0 y = 1,0, respectivamente. La figura 4 muestra la probabilidad de local optima en el r-ésimo orden como una función de fitness . Un local óptima en el r-ésimo orden que tenga se define como una secuencia en la que todos los concebible único punto mutantes, doble punto mutantes,…, y r veces el punto mutantes en torno a él han estado físico es inferior a pero al menos uno de r +1- veces mutantes punto tiene un valor superior a . El Gaussian-al igual que las curvas representan se muestra en Eqn. (16) (r = 1, 2, 3, 4, 5, 6). El roto las líneas verticales representan los valores de aptitud, la aptitud relativa de W * ( ), Habida cuenta de la sustitución de N con N (d) en todos los Eqn. (11), donde la mutación-selección-deriva aleatoria equilibrio establece cuando todos los d concebible veces el punto de mutantes N (d) todos los (d = 1, 2, 3, 4, 5, 6, 7), habida cuenta de Eqn. (14), se exploran en cada generación. En la gama de A = 0 = 0,40, hay tan pocos locales optima que la superficie sobre el paisaje es suave. Casi todas las secuencias tienen al menos un instalador mutante entre su único punto mutantes, es decir, tienen al menos un camino ascendente. La fracción del local optima en el primer orden (r = 1) se eleva por encima de = 0,40 (A en la Figura 4]. En = 0,47 (B en la Figura 4], alrededor del 40% de las secuencias pertenecen a local optima en el primer orden, mientras que el 60% de las secuencias se encuentran en las pistas conducen a mayor aptitud. Alrededor de la antigua secuencias, una búsqueda con N (1) de todos solo punto todos los mutantes se encuentra sólo menor aptitud, mientras que en torno a las secuencias de este último, la búsqueda se encuentra al menos uno con mayor aptitud. Por lo tanto, la adaptación a pie con N (1) todos de todos los mutantes único punto dará lugar a pequeñas fluctuaciones en torno a = 0,47 (B en la Figura 4]. Es decir, adaptable paseos buscando una pequeña región de una unidad de distancia de Hamming paseo por la desigual ola de pequeñas empresas locales de óptima, lo que sugiere que hay "caminos neutral" [10], [24], [25]. El local optima en el primer orden (r = 1) a alcanzar su máxima frecuencia de 60% a = 0,49 (C en la Figura 4]. En = 0,5 (D en la Figura 4], el local optima en la segunda orden, los de primer orden, y en las secuencias de pistas que conduzcan a mayor aptitud constituyen el 30%, 50% y 20% de todas las secuencias, respectivamente. En esa superficie irregular, su capacidad de adaptación camina con una búsqueda completa de N (2) todos de todos los mutantes doble punto de paseo y fluctúan debido a la mutación-selección-deriva aleatoria equilibrio. Con nuevos aumentos de fitness, los locales optima tienden a tener un mayor tamaño de la cuenca y la frecuencia de secuencias situadas en las laderas disminuye.

Discusión

Hemos ampliado nuestro anterior evolución experimental basada en fagos infectividad, lo que demuestra el estancamiento después de la 7 ª generación. El aumento de tamaño de la biblioteca vencieron a los estancamientos, hasta cierto punto, y dado lugar a un 1,7 × 10 4 veces más en la infectividad en comparación con el original fago llevar un control aleatorio del polipéptido de 139 aminoácidos en lugar del dominio D2 de la G3P menor capa de proteínas. Se aplicaron los datos de fitness clones seleccionados en cada generación a nuestra teoría de adaptación con respecto a caminar sobre el n - k paisaje modelo para estimar varios parámetros del modelo y calcular las frecuencias locales de óptima en función de sus valores de fitness.

El valor estimado de la epistasis parámetro k, lo que representa el número de aminoácidos sitios de las contribuciones de aptitud a que se ven afectados por una única sustitución en un determinado sitio, fue de 21 lo que indica que un residuo arbitraria interactúa con cerca de 21 residuos de aminoácidos a través de sus mutaciones efectos. El valor de k en todo el nivel de aptitud para el nativo de las proteínas se estimó en 40 para la inmunoglobulina [3]. Esto k es de 40 en torno a las proteínas nativas en el paisaje físico y no es necesariamente cerca de nuestro valor de 21, pero puede ser una sobreestimación debido a dos supuestos se hicieron simulaciones en computadora para calcular el valor de k: una parte relativamente pequeña de población fue utilizado, sobre todo al principio, y el clonado inmunoglobulinas se supone que en los planos local picos. Si estas suposiciones no son ciertas, la estimación de k para la proteína nativa será menor y podrá estar más cerca de unos 20. La interacción de los residuos de aminoácidos con aproximadamente 20 otros residuos a través de mutaciones efectos sugiere que un único aminoácido de residuos pueden interactuar con otros 20 residuos a través de participaciones directas o indirectas de contactos. La agrupación de las interacciones de un tamaño de 20 podrán permitir que los grupos de evolucionar como "módulos" [26], [27].

El paisaje físico se describe esquemáticamente, sino semi-cuantitativa sobre la base de la frecuencia óptima de los locales calculada a partir de los datos experimentales (Figura 5]. El paisaje es suave desde la parte inferior de la aptitud relativa A = 0 = 0,4. Por otra parte, el paisaje se convierte en altamente resistente arriba = 0,4. El aumento de la aptitud se asocia con la aparición de locales optima con cuencas más grandes. Las crestas entre los picos locales se componen de secuencias con la más alta aptitud entre todos los posibles mutantes solo punto, habida cuenta de Eqns. (9) y (10) con N (1) todos Por ejemplo, un pico local relativa a la aptitud = 0,5 tiene una secuencia de vecinos = 0,49 separados por una distancia de Hamming en su cresta. Si el local tiene un pico cuenca tamaño de 1, la cresta se une a la cresta de otro local óptimo, si el local tiene un pico de mayor tamaño de la cuenca r, disminuye la cresta a la idoneidad dada por Eqns. (9) y (10) con N (1) recursivamente todos los r veces antes de reunión de las cordilleras otros picos. Todas las cordilleras reunirse con los demás por encima de = 0,47, donde la mutación-selección-deriva aleatoria pone en equilibrio con una biblioteca de tamaño N (1).

Más de una de esas montañas existe en el paisaje físico de la función para la D2 de dominio en fagos infectividad. La secuencia seleccionada finalmente en la 20 ª generación = 0,52, pero no mostró homología en el medio silvestre de tipo D2 de dominio, que se encuentra en torno a la idoneidad del pico mundial. Las dos secuencias se muestran homología significativa en torno a un 52% si se encuentra en la misma montaña. Por lo tanto, parecen haber subido montañas diferentes.

El paisaje estructura tiene una serie de consecuencias para la evolución funcional inicial de proteínas y para la ingeniería molecular evolutiva. En primer lugar, la superficie lisa de la montaña estructura de los pies a por lo menos un familiar de fitness de 0,4 significa que es posible para la mayoría de azar o secuencias primordial para evolucionar con relativa facilidad hasta la región media de la idoneidad de adaptación del paisaje a pie con sólo único sustituciones. De hecho, además de la infectividad, hemos logrado en la evolución de la actividad esterasa de diez arbitrariamente elegido al azar secuencias iniciales [17]. Por lo tanto, primordial la evolución funcional de las proteínas pueden haber procedido de una población con sólo un pequeño grado de diversidad de secuencias.

Aunque cada secuencia al pie tiene el potencial de evolución, adaptables a pie puede cesar por encima de un pariente de fitness del 0,4 debido a la mutación-selección-deriva equilibrio o la captura de local optima. Cabe señalar que la aptitud estacionaria determinada por la mutación-selección-deriva equilibrio con una biblioteca de tamaño N (d) todos es siempre inferior al de fitness en la que optima local con una cuenca de tamaño d llegar a su pico de frecuencias (Figura 4 ). Esto implica que en un determinado tipo de mutación d, la mayoría de adaptación paseos se estancará debido a la mutación-selección-deriva equilibrio, pero el esfuerzo atrapados por las optima. Aunque poca adaptación a nuestro experimento debe haber tropezado con optima local cuenca tamaños de 1, 2, y probablemente 3, la que se observa estancamientos son probablemente sólo debido a la mutación-selección-deriva equilibrio. Por lo tanto, el estancamiento se superó mediante el aumento de tamaño de la biblioteca. En ingeniería molecular evolutiva, la biblioteca más grande el tamaño es generalmente favorable para llegar a un mayor aptitud estacionarias, mientras que la tasa de mutación, d, puede ser ajustada para mantener un mayor grado de diversidad, pero no debería sobrepasar el límite dado por N = N (d) a todos mantener el estado físico lo más alto posible.

En la práctica, el tamaño máximo de biblioteca que puede ser preparado es de aproximadamente 10 13 [28], [29]. Incluso con un tamaño enorme biblioteca, su capacidad de adaptación a pie podría aumentar el fitness, , Hasta sólo 0,55.

La cuestión sigue siendo grande con respecto a cómo una población es necesaria para alcanzar la aptitud de los de tipo salvaje fago. La relativa aptitud de los de tipo salvaje fago, o más bien el nativo de dominio D2, es casi equivalente al pico mundial de la idoneidad del paisaje. Por extrapolación, se estima que requiere de adaptación para caminar una biblioteca de tamaño 10 70 con 35 sustituciones comparable a llegar de fitness. Esa enorme búsqueda es impracticable e implica que la evolución de la naturaleza del tipo de fagos debe tener no sólo al azar sustituciones, sino también otros mecanismos, como la recombinación homóloga. Recombinación entre neutro o entidades podrán sobrevivir a reprimir negativo mutaciones y, por tanto, escapar de mutación-selección-deriva equilibrio. A pesar de la importancia de la recombinación de ADN o revolver ha sugerido [30], no incluyen este tipo de mecanismos en aras de la simplicidad. Sin embargo, obtuvo la estructura del paisaje no se ve afectada por la participación de recombinación mutación a pesar de que puede afectar a la velocidad de la búsqueda en la secuencia espacio.

La exploración de paisajes de fitness y las propiedades estadísticas de los mundiales o locales, los paisajes son muy importantes cuestiones en el ámbito de la in vitro evolución molecular. Los resultados del presente estudio confirma que nuestra estrategia de exploración es eficaz para extraer propiedades características de la idoneidad del paisaje. Además, hemos obtenido un conjunto de polipéptidos intermedio a la evolución funcional de las proteínas en las diferentes etapas de la trayectoria evolutiva, que será útil para realizar nuevos estudios para investigar la secuencia de función de relación a través de la trayectoria evolutiva. En estos momentos estamos analizando los resultados de evolución in vitro desde la perspectiva de la phylogenic árbol que se espera que proporcione información adicional sobre el paisaje.

Materiales y Métodos
Cepas bacterianas y fagos

Las cepas de Escherichia coli se utiliza en este estudio fueron TG1 [Supe HSD Δ Δ 5 thi (lac-proAB) / F 'proAB Trad 36 + lacI q lacZ Δ M 15], JM109 [1 Supe Reca 44 Enda 1 hsdR 17 gyrA 96 relaciones 1 thi Δ (lac-proAB) / F 'proAB Trad 36 + lacI q lacZM 15], y HB2151 [Δ (lac-proAB) ara nal r thi / F' proAB Trad 36 + lacI q lacZ Δ M 15], ( Amersham Biosciences Corp, Piscataway, NJ). El Tet-fd [31] y fd-RP fago genomas fueron preparados previamente [18]. El fd-1, fd-2, fd-3, fd-4, fd-5, FD-6, y fd-7 fago genomas fueron seleccionados en cada generación en un anterior estudio evolutivo [18].

Derivación de los mutantes que constituyen la biblioteca cada generación

Una generación de nuestra evolución estudio consistió en un ciclo de mutación y los procesos de enriquecimiento. Mutaciones al azar se introdujeron en la región del Sfi I fragmento de la fd-7 la codificación del genoma secuencia diana correspondiente al dominio D2 de la G3P menor capa de proteínas de la siguiente manera. El Sfi I fragmentos de genomas de fagos en la biblioteca después de obtenido el proceso de enriquecimiento de la generación anterior fueron amplificados bajo propenso a errores PCR condiciones [18], [32]. Los productos amplificados fueron digeridos con Sfi I, y el Sfi I fragmentos fueron clonados en la región correspondiente de la nueva fd-RP vector digerido con Sfi I. Fresh fd-RP vector es el vector más corto preparado por primera digerir la fd-RP ADN con Bam HI y ligar el vector resultante fragmento, produciendo una construcción con un truncado Sfi I fragmento [18]. El resultado de derivados se introdujeron en E. coli JM109 células de la electroporación [33], y las suspensiones de células fueron chapados a 2 × YT [34] placas de agar que contiene 40 μ g / ml de tetraciclina. Las células en las colonias que aparecen en las placas incubadas a 37 ° C la noche a la mañana se recolectaron mediante el raspado en un pequeño volumen de 2 × YT medio. Un volumen igual de Luria-Bertani medio [34], que contiene 30% de glicerol se añadió a la recogida de células suspensiones, que fueron luego almacenadas a -80 ° C, según los mutantes biblioteca de la nueva generación. Este mutante biblioteca fue sometido a proceso de enriquecimiento se describe a continuación. La evolución se inició a partir de la fd-7 genoma preparado previamente [18]. Después de la 15 ª generación, E. HB2151 coli fue usado en lugar de E. coli JM109.

Preparación de suspensiones de fagos fd-7 y sus derivados

Alícuotas de 10 μ l de la biblioteca de células mutantes suspensión anteriormente descritos han sido dispensadas en 10 ml de 2 × YT medio que contiene 20 μ g / ml de tetraciclina y crecido a 37 ° C durante la noche. Los cultivos fueron centrifugadas a 6000 × g durante 10 minutos para eliminar las células bacterianas, y los sobrenadantes que contienen las partículas de fago se filtra a través de Dismic 0,45 μ m membranas (Toyo Roshi Kaisha, Ltd, Tokio, Japón) para garantizar la eliminación de cualquier resto de células bacterianas. El filtrado que contiene las partículas de fago se guardó a 4 ° C, según los fagos biblioteca de la generación para el proceso de enriquecimiento y la infectividad fago ensayo se describe a continuación.

Proceso de enriquecimiento en cada generación

El proceso de enriquecimiento consiste en varias rondas de fagos preparación y la infección. El fago partículas contenidas en alícuotas de 100 μ l de la suspensión de fagos biblioteca preparado como se ha descrito anteriormente se permitió a infectar recién crecido E. coli JM109 células en OD 600 0.8-0.9 (900 μ l) durante 40 minutos a 37 ° C. La bacteria-fago mezclas fueron repartidas en 2 × YT medio agar que contiene 40 μ g / ml de tetraciclina remolino suavemente las placas. Las células en las colonias cultivados en placas de la noche a la mañana después de una incubación a 37 ° C se recogieron como se ha descrito anteriormente y se almacena en -80 ° C, según la 1 ª ronda-enriquecido la biblioteca de esta generación. El enriquecimiento se repite hasta que la infectividad del fago biblioteca dejó de aumentar. Alícuotas de 10 μ l de la última ronda enriquecido biblioteca fueron dispensadas en 10 ml de 2 × YT medio que contiene 20 μ g / ml de tetraciclina y crecido a 37 ° C durante la noche. Los genomas de fagos en las células recogidas por centrifugación de las culturas se purifica como la forma de replicación para generar el mutante biblioteca en la próxima generación.

Fago infectividad de ensayo

El número de resistentes a tetraciclina colonias que crecieron después de la infección de E. coli con fagos partículas contenidas en la biblioteca se utilizó como una medida de la infecciosidad, como hemos descrito anteriormente [18]. Para determinar la infectividad de cada biblioteca, las partículas de fagos en el fago suspensiones se permitió a infectar recién crecido E. coli JM109 células, tal como se describe anteriormente [18]. The tetracycline-resistant colonies that grew on the plates after overnight incubation at 37°C were counted, and the infectivity of the phage library was expressed as the number of colony forming units per ml of phage suspension (cfu/ml). The infectivity of phage clones and libraries was evaluated in triplicate. Changes in CFU may be due in part to alterations in functions other than infectivity. For example, we found that the release rate of phage clones selected at the 7th generation from E. coli cells was about threefold greater than that of fd-RP phage, although the major change in CFU was attributed to the change in infectivity [18] . Therefore, we refer to this CFU value as “infectivity.”

Estimation of Fitness after Rescaling of Phage Infectivity

Fitness was originally defined as the relative growth rate for predicting population dynamics [35] . The fitness, W , was defined here as ln(CFU) under the assumption that CFU is approximately proportional to exp(− Δ G/kT), where Δ G is the free energy change of phage infection. Thus, W can be handled as an apparent energy as described below in the n - k fitness landscape. Actually, this definition of W satisfied some theoretical predictions on the n - k landscape (Aita et al. , in preparation). Experimentally, it has been shown that the mutational effect on protein properties can be described well by taking the logarithmic scale of the equilibrium constant or rate constant [4] , [5] , [15] . Even for phage infection, it is likely that advantageous mutation increases growth rate exponentially [36] , [37] .

We used three different strains of E. coli for evaluation of infectivity in the selection process: TG1 for generations 0–7, JM109 for generations 8–15, and HB2151 for generations 16–20. For systematic analysis of the lineage through generations 0–20, we used the CFU values for the JM109 strain as the standard measure of infectivity. Then, the infectivity of the best phage clone or clones selected in each of the 0th–20th generations was evaluated simultaneously with the CFU values for JM109. A strong correlation was found between the CFU values for JM109 and those for the other strains, with differences of less than one order of magnitude. The landscape climbed is the infectivity landscape for TG1 strain through generations 0–7 or HB2151 strain through generations 16–20. We converted the time series of the CFU values for TG1 through generations 0–7 or for HB2151 through generations 16–20 to the time series of the CFU values for JM109 as follows: where CFU XXX denotes the CFU value for E. coli strain “XXX.” These converted values were then used in the analysis. The fitness, W , was defined as ln(CFU JM109 ) for all phages.

Brief Introduction to the n - k Fitness Landscape

Let n be the number of amino acid residues in a variable region subjected to random mutagenesis through error-prone PCR. The fitness, W , for a given amino acid sequence, “α 1 α 2 …α n ,” is defined by: is the “site-fitness,” ie , the fitness contribution from a particular amino acid residue, α j , at the j -th site when the k sites { j 1 , j 2 ,…, j k } are occupied by particular residues { α j 1 , α j 2 ,…, α jk }. The k sites { j 1 , j 2 ,…, j k } are chosen randomly from all n -1 sites except the j -th site. The site-fitness of an arbitrary amino acid residue, α ( eg , α = Ala, Cys,…, Tyr), at each site with a given set { α j 1 , α j 2 ,…, α jk } is assigned randomly from the following set of 20 values, but degeneracy of assignment is not allowed:

ε(≤0) is a negative constant equivalent to the mean of the site-fitness over all available amino acid residues. Note that there is no significant effect on the theoretical conclusion when the ε value is different by sites [13] . As the site-fitness distribution is given according to the comb-type function, then the variance of the site-fitness σ 2 is approximately ε 2 /3. As the first term on the right-hand side of Eqn. (1) is ∼0 for the globally optimal sequence (although this is not necessarily guaranteed), the second term O is determined as the fitness for the global peak. The fitness landscape resulting from this model is called the “ n - k landscape.” Note that the original n - k landscape proposed by Kauffman et al. is slightly different from the model defined above [2] .

Figure 1 shows a schematic representation of the n - k landscape. ε (≤0) is defined as the expectation of the first term in Eqn. (1) and represents the difference in fitness from the peak to the foot of the landscape, where the “foot” is the region in which random sequences are located in the sequence space. Then, O + ε is the fitness at the foot of the landscape, and corresponds to the expected fitness of an arbitrarily generated random sequence. ν is the variance of fitness over all possible sequences in the whole sequence space. The probability density of the fitness over all possible sequences in the whole sequence space approximately follows the Gaussian distribution:

Summary of our Theory of Evolutionary Dynamics

Here, we present the essence of the theory regarding evolutionary dynamics on the n - k fitness landscape, with its precise derivation and justification reported elsewhere (Aita et al. , in preparation). We consider the following rule of the adaptive walk: the clone(s) with the highest fitness in the previous generation generate N mutants in the t -th generation, and subsequently the fittest clone(s) among the N clones will become new parental clone(s) in the t +1-th generation. N is the “library size” of mutants to be screened for the next generation. The Hamming distance between a parent and each of its children or mutation rate is d . In the n - k model described above, d -fold point substitutions cause changes in site-fitness at about d ( k +1) sites, because a single mutation causes site-fitness changes on the mutated site and k other sites. Let W t be the fitness of the parent in the t -th generation. In addition, let Δ W be the fitness change from the parent to an arbitrary mutant in the mutant population. The probability density of Δ W with W t fixed is described by: where

The average and variance of the fitness over the generated mutants were roughly consistent with Eqn. (7) and Eqn. (8), respectively. In addition, the validity of Eqn. (9) was confirmed experimentally. The details are reported elsewhere (Aita et al. , in preparation). Using extremal statistics of normal distribution, the expectation of the change in fitness from the parent to a new parent after a single generation is given as follows: where ζ is defined as the expectation of the greatest value among the N random numbers from the standard Gaussian probability density, . ζ is approximately given by transforming N via :

The change in fitness, W t +1 −W t , is designated here as the “evolution rate.” Eqn. (9) indicates that the evolution rate increases with increases in N . Substituting Eqns. (7) and (8) into Eqn. (9), we find that, as the adaptive walker climbs the fitness landscape, the evolution rate decreases gradually and finally becomes zero. By solving Eqn. (9) under E [ W t +1 ]− W t = 0, we obtained the fitness value in the stationary phase, W * , as follows:

This stationary phase is caused by the mutation-selection-random drift balance [11] . The dependence of the evolution rate on library size, N , was confirmed experimentally, as described elsewhere (Aita et al. , in preparation).

Using the stationary fitness value, W * , Eqn. (9) can be rewritten as follows:

Then, the expectation of the fitness in generation t can be obtained approximately by the following function of t : where W 0 is the fitness of the initial sequence.

Next, we refer to the existence of local optima. Let N ( d ) all be the number of all conceivable “ d -fold point mutants,” which are located apart from the parent sequence by the Hamming distance, d . N ( d ) all is given by: where λ = 20 in this case. Let W be the fitness of the parent sequence. From Eqn. (6), the probability that all conceivable d -fold point mutants take fitness values less than W is given by:

Here, we define the local optima as follows. If all conceivable single point mutants, double point mutants,…, r -fold point mutants take fitness values less than W but at least one of the r +1-fold point mutants takes a fitness value greater than W , then the parent sequence is designated the “local optimum in the r -th order.” That is, r represents the basin size for the local optimum. The probability that a parent with fitness W is the local optimum in the r -th order is given by: