Immunome Research, 2006; 2: 2-2 (más artículos en esta revista)

Método mejorado para la predicción lineal de células B epítopos

BioMed Central
Jens Erik Pontoppidan Larsen (jepl@cbs.dtu.dk) [1], Ole Lund (lund@cbs.dtu.dk) [1], Morten Nielsen (mniel@cbs.dtu.dk) [1]
[1] Centro para el Análisis de Secuencias Biológicas, BioCentrum-DTU, Building 208, Universidad Técnica de Dinamarca, DK-2800 Kgs. Lyngby, Dinamarca

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Epítopos de células B son los sitios de las moléculas que son reconocidos por anticuerpos del sistema inmunológico. El conocimiento de epítopos de células B puede ser utilizado en el diseño de vacunas y pruebas de diagnóstico. Por lo tanto, es de interés para desarrollar mejores métodos para la predicción de epítopos de células B. En el presente trabajo se describe un método para la predicción lineal B-cell epitopes.

Resultados

Para ello, tres de los conjuntos de datos lineales de células B epítopo anotado proteínas se construyeron. Un conjunto de datos se obtuvieron de la literatura, otro conjunto de datos se extrae de la base de datos y un AntiJen conjuntos de datos de epítopes en las proteínas del VIH se obtuvieron de la base de datos de Los Alamos VIH. Un imparcial validación de los métodos de ensayo se hizo en los conjuntos de datos de los que no son ni capacitados ni optimizado. Hemos medido el rendimiento en una manera no paramétrica mediante la construcción de curvas ROC.

Conclusión

El mejor método único para predecir lineal epítopos de células B es el modelo de Markov ocultas. La combinación de los modelos ocultos de Markov con uno de los mejores métodos propensión escala, se obtienen el BepiPred método. Cuando experimentados en el conjunto de datos de validación de este método funciona claramente mejor que cualquiera de los otros métodos de prueba. El servidor y los conjuntos de datos están a disposición del público en http://www.cbs.dtu.dk/services/BepiPred.

Antecedentes

Las vacunas han sido principalmente compuesto de muertos o atenuados toda patógenos. Por razones de seguridad, sin embargo, podría ser conveniente utilizar péptido vacunas, que son capaces de generar una respuesta inmune en contra de un determinado patógeno [1]. Tales vacunas podría contener péptidos que representan lineal de células B epítopos de las proteínas del patógeno. Hughes et al. [2] utilizado lineal B-epítopos de células para inducir inmunidad protectora en ratones contra p. Aeruginosa. Al vacunar a los animales, que contiene péptidos sintéticos linear epitopes de células B también se puede utilizar para elevar los anticuerpos contra una proteína específica, que por ejemplo puede ser utilizado en ensayos de detección o como herramientas de diagnóstico [3].

B-cell epitopes son partes de las proteínas u otras moléculas que los anticuerpos (hechas por las células B) se unen. La mayoría de las proteínas se componen de epítopos diferentes partes de la cadena del polipéptido que se señalan en la proximidad espacial por el plegamiento de la proteína. Estos son llamados epítopes discontinuos, pero aproximadamente el 10% de los epítopos, de los correspondientes anticuerpos son de reacción cruzada con un péptido lineal fragmento de la epítopo [4]. Estos epítopos se denotan lineal o continua y se componen principalmente de un único tramo de la cadena del polipéptido.

Aunque lineal de células B epítopos por lo tanto, son de importancia limitada en la comprensión detallada de una respuesta inmune humoral, la identificación de dichos segmentos lineales péptido a menudo será el primer paso en la búsqueda de los determinantes antigénicos de los organismos patógenos. El tradicional enfoque experimental péptido escaneo claramente no sea posible en una escala genómica. Métodos de predicción son muy rentables y fiables para predecir los métodos lineales de células B epítopos tanto, sería un primer paso en la dirección de un genoma amplia búsqueda de antígenos de células B en el organismo patógeno.

La manera clásica de la predicción lineal epítopos de células B es por el uso de métodos propensión escala. Estos métodos propensión asignar un valor a todos los aminoácidos, sobre la base de estudios de sus propiedades físico-químicas. Las fluctuaciones en la secuencia de predicción de los valores se reducen a la aplicación de un promedio móvil ventana. Esta predicción procedimiento fue desarrollado por primera vez por Hopp y Woods [5].

Pellequer et al. [4] comparó varios métodos propensión escala utilizando un conjunto de datos de 14 epítopo anotado proteínas. Ellos encontraron que la aplicación de los baremos por Parker et al. [6] (hydrophilicity), Chou y Fasman [7] y [8] Levitt (estructura secundaria) y por Emini et al. [9] (accesibilidad) dio ligeramente mejores resultados que las otras escalas de la prueba.

Alix [10] desarrolló un programa llamado PERSONAS, que predice la ubicación de los lineales de células B epítopos mediante combinaciones de métodos propensión escala. Odorico [11] han desarrollado un programa, BEPITOPE, en la predicción de la localización de la lineal B-epítopos de células utilizando métodos propensión escala.

Recientemente, Blythe y Flor [12] estudiaron el rendimiento de muchas propensión escala de los métodos y encontró que incluso los mejores métodos de predecir sólo marginalmente mejor que un modelo de azar. Ellos hicieron un estudio a fondo de datos utilizando un conjunto de 50 proteínas epítopo mapeado de la página web AntiJen http://www.jenner.ac.uk/AntiJen [13].

En este estudio, hemos desarrollado un novedoso método de predicción lineal B-cell epitopes, BepiPred, que se encuentra para llevar a cabo ambas significativamente mejor que el azar, así como las predicciones significativamente mejor que una serie de escalas de propensión a prueba.

A pesar de que el método actual es una mejora significativa en anteriores métodos de predicción lineal epítopos de células B, que aún tiene importantes limitaciones. Existe la necesidad de nuevas mejoras en la capacidad de predicción antes de convertirse en tales sistemas generalmente útil para ofrecer predicciones fiables de las células B epítopos.

Resultados
Predicciones por propensión escala de los métodos

En primer lugar, hemos probado una serie de métodos propensión escala en la Pellequer conjunto de datos [14]. Por cada escala y tamaño de la ventana, una curva ROC y el área bajo ella, la A-RdCh valor, se calculó como una medida de la precisión de la predicción. 1000 bootstrap muestras fueron extraídas de las predicciones, a fin de estimar el error estándar de la A-RdCh valor, . La mejor escala resultó ser el uno por Levitt [8] (tamaño de la ventana de 11, A RdCh = 0,658 ± 0,013). Este método se denota con Levitt. La segunda escala es la mejor escala por Parker et al. [6] (tamaño de la ventana 9, A RdCh = 0,654 ± 0,013), denota Parker. Las otras escalas, que se pusieron a prueba, no tuvieron resultados, así como las escalas de Parker et al. [6] y Levitt [8].

Realizando una permutación experimento 1000 veces, que calcula el valor de P de la hipótesis de que un método funciona como un modelo aleatorio, donde la hipótesis alternativa es que se desempeña mejor que un modelo de azar. El P-valores resultantes de Parker y Levitt son a la vez por debajo de 0,1%.

Las predicciones de modelos ocultos de Markov

Los experimentos se realizaron en el que modelos ocultos de Markov (HMMs) fueron utilizados para la predicción de la localización de la lineal B-epítopos de células. Los métodos de construcción fueron positivos ventanas AntiJen extraído de la serie de datos. El HMMs fueron probados en la Pellequer conjunto de datos para encontrar los parámetros óptimos. Diferentes tamaños de las ventanas extrajeron péptido, de diferentes pesos pseudo contar para la estimación de la corrección de aminoácidos diferentes frecuencias y tamaños de la ventana de suavización se probaron. Para el mejor método, el tamaño de las ventanas extraído resultó ser 5, el tamaño de la ventana de suavización fue de 9 y la pseudo-corrección se cuentan 10 7. El rendimiento del método en el conjunto de datos se Pellequer RdCh A = 0,663 ± 0,012. Este método con estos parámetros se denominarán HMM.

La combinación de métodos

Con el fin de hacer más precisas las predicciones, el modelo ocultos de Markov (HMM) se combinó con uno de los dos mejores métodos propensión escala (Parker y Levitt). Las combinaciones se realizaron como ponderado normalizado sumas de los valores de predicción. La suma de los pesos de los dos métodos se mantuvo igual a un peso-y de diferentes pares fueron probados. Pellequer El conjunto de datos fue utilizado para optimizar los valores de los parámetros. La combinación de métodos, con los más altos valores de un RdCh se eligieron para profundizar las comparaciones y se muestran en la Tabla 1. El método combinadas con la más alta RdCh Un valor se denota BepiPred y es el candidato método de predicción lineal epítopos de células B en el presente documento. Es una combinación de HMM y Parker.

Validación de los métodos

Para hacer un planteamiento imparcial validación de los métodos, se realizaron pruebas en un conjunto de datos independiente, el conjunto de datos sobre el VIH. Los resultados se muestran en la Tabla 2. BepiPred es visto de nuevo a ser el mejor método. De las curvas ROC para los métodos seleccionados se muestran en la Figura 1, y haber elegido los valores se dan en la Tabla 3.

T pareadas se realizaron pruebas para el VIH predicciones sobre el conjunto de datos a fin de determinar si uno tiene un método de predicción que fue importante la precisión superior a la de otros. El cuadro 4 muestra que BepiPred se encontró que era significativamente mejor que todos los demás métodos de prueba, y que HMM no fue significativamente mejor que la de Parker.

Discusión

Hemos construido un método de predicción lineal para epítopos de células B utilizando un modelo de Markov ocultas. Modelos ocultos de Markov no se han utilizado para este fin específico antes.

Nuestro método tiene una sensibilidad muy baja. Una forma de aumentar la sensibilidad es inferior a la aplicada umbral, sino que también conducirá a una menor especificidad. Pellequer et al. [14] mostró que una reducción de más de las predicciones que se podría hacer mediante la combinación de curvas de predicción, y el aumento de células B epítopo métodos de predicción se puede obtener utilizando planteamientos similares.

Pellequer et al. [4] han hecho una comparación de varias escalas propensión utilizando uno de los conjuntos de datos en el presente estudio: el conjunto de datos Pellequer. Ellos hicieron un estudio de la aplicación de algunos métodos de escala propensión al conjunto de datos y se utiliza un determinado umbral del 0,7 s, donde s es la desviación estándar de los valores de predicción. Este umbral de las predicciones clasificados como positivos o negativos. Encontraron que las predicciones usando las diferentes escalas fueron mejores que al azar, de conformidad con las conclusiones del presente estudio. Compararon las escalas en un conjunto de datos que consta de nueve de las secuencias y encontró que las escalas de Parker et al. [6], Chou y Fasman [7], [8] Levitt y de Emini et al. [9] dio ligeramente mejores resultados que las otras escalas de la prueba.

En el presente estudio, encontramos que para el mismo conjunto de datos, las escalas que realizó mejor se construyeron por Levitt [8] y Parker et al. [6]. Esto se corresponde plenamente con las conclusiones de Pellequer et al. [4].

Blythe y Flor [12] han detectado que incluso los mejores métodos de realizar escala propensión sólo marginalmente mejor que un modelo de azar. Se utilizó un conjunto de datos de 50 epítopo mapeado proteínas de la página AntiJen http://www.jenner.ac.uk/AntiJen [13] y aplicado muchos métodos escala propensión a los datos.

Nuestras pruebas de permutación mostró que las escalas de Parker et al. [6] y Levitt [8] con su óptimo desempeño de ventanas fueron significativamente mejores que los modelos aleatorios.

Hemos probado varios métodos propensión escala y optimizar sus parámetros con el fin de determinar el mejor método. Pellequer para el conjunto de datos, el mejor método era en la escala de [8] con un tamaño de la ventana de 11. El segundo mejor método propensión escala fue la escala de Parker et al. [6] con un tamaño de la ventana de 7-11. Esta escala fue destinado a ser utilizado con un tamaño de la ventana, de 7 de los autores, que se corresponde plenamente con nuestros hallazgos.

Conclusión

Se presenta un método novedoso para la predicción lineal B-cell epitopes, BepiPred. Se trata de un método de combinación, realizados mediante la combinación de las predicciones de un modelo oculto de Markov y la propensión escala por Parker et al. [6]. Hemos probado diferentes parámetros con el fin de optimizar los modelos ocultos de Markov y la propensión escala método.

Hemos probado el uso de los métodos no paramétricos y curvas ROC-hizo una validación objetiva utilizando un conjunto de datos. Encontramos que BepiPred tuvo el mayor exactitud en la predicción de la serie de datos de prueba, y se pone de manifiesto al realizar significativamente mejor que todos los otros métodos de prueba sobre el conjunto de datos de validación. Comparando BepiPred con los mejores métodos propensión escala en el conjunto de datos de validación, para una especificidad del 80% para la sensibilidad BepiPred, la escala de Parker et al. [6] y por Levitt [8] es 30,9%, 28,8% y 26,8%, respectivamente.

El trabajo futuro podría incluir la utilización de datos procedentes de otras fuentes, tales como el inmunológico Epitope Análisis de la base de datos y de recursos, IEDB [15], o la base de datos Resumen de epítopes antigénicos estructuralmente inferirse en proteínas http://www.rostlab.org/services/epitome.

Conjuntos de datos

Tres conjuntos de datos lineales de las proteínas con células B epítopo anotación se utilizan en estos estudios. Todos los conjuntos de datos se construyeron con la medida de la reactividad cruzada entre la proteína intacta y el péptido fragmento [16].

El conjunto de datos Pellequer

Un conjunto de datos se utilizó para las pruebas y la optimización de los métodos. Desde esta base de datos no estaba disponible en un formato electrónico es recreado por Lund et al. [17]. El epítopo anotaciones fueron tomados de Pellequer et al. [14] y las referencias en este documento. Una excepción fue la secuencia de escorpión neurotoxina, en el que la información fue tomada de [18]. Este conjunto de datos, Pellequer denota el conjunto de datos, contiene 14 secuencias de proteínas y 83 epítopes. El epítopo densidad es 0,34.

El conjunto de datos AntiJen

Un segundo conjunto de datos se utilizó para formar y construir el modelo de Markov ocultas. Este conjunto de datos se extrae de la base de datos AntiJen, anteriormente JenPep [13] http://www.jenner.ac.uk/AntiJen. Este conjunto de datos, AntiJen denota el conjunto de datos, consta de 127 secuencias de la proteína, y el epítopo densidad es 0,08. Las proteínas de este conjunto de datos no son plenamente anotado, y la anotación de que no se extiende epítopo no se conoce.

El VIH conjunto de datos

Un conjunto de datos se hizo un planteamiento imparcial que permite la validación de los métodos. Consta de epítopos encuentran en las proteínas de VIH tomados de la pandemia del VIH Inmunología Molecular de la base de datos de Los Alamos National Laboratory [19] http://www.hiv.lanl.gov. El epítopos en este conjunto de datos se superponen en cierta medida. Por lo tanto, un procedimiento para la determinación más precisa fronteras de la mínima epítopos se aplicó a los epítopos. Si un menor epítopo figura como parte de un concepto más amplio de epítopo, la mayor epítopo se descartó desde el conjunto de datos. Dos de las secuencias de epítopes no tenía asignado y, por lo tanto descartado de la serie de datos. El VIH conjunto de datos consta de 10 secuencias de la proteína y la densidad epítopo es 0,38.

Métodos
Propensión escala de los métodos

La propensión escala propensión métodos de asignar un valor a todos los aminoácidos de la secuencia de la proteína consulta. Las fluctuaciones son reducidas por la aplicación de un funcionamiento significa ventana. En la N-y C-termini hemos utilizado asimétrica ventanas para evitar el descarte de predicción ejemplos. Las escalas utilizadas en este estudio se basan en la antigenicidad [20], hydrophilicity [6], invertida hidrofobicidad [21, 22], [9] la accesibilidad y la estructura secundaria [7, 8].

Modelos ocultos de Markov

Let i = (i 1, i 2, ..., w i) designar una secuencia de aminoácidos, que ha sido extraído de una secuencia de proteínas. Vamos j denotar la posición en la misma ventana, j = 1 ... w. El base de la i, el modelo predice ocultos de Markov si la posición central de la ventana está anotado como parte de un epitopo. En la N-y C-termini, partes de las ventanas se extrajeron superior a los terminales. Para estos residuos, el carácter "X" se utiliza, que no cuenta cuando se oculta el modelo de Markov se usa para las predicciones. La predicción Resultado de una ventana está dada por

Que es el registro de apuestas de los residuos en el centro posición de la ventana está siendo parte de un epitopo (Epitope modelo), en oposición a si es que ocurren por azar (Random modelo).

Para construir el modelo aleatoria, las frecuencias de fondo de la base de datos Swiss-Prot [23], q i, se utiliza. Para el Epitope modelo, p i, j es la probabilidad efectiva de aminoácidos de haber aminoácido en la posición i j según el modelo.

Para calcular los valores de p i, j, todas las ventanas, para que su posición central está anotado como parte de un epitopo, se extraen de atraining conjunto de datos. Una vez más, si una ventana extrajeron N o superior a la terminal C, el carácter "X" se utiliza, que no cuenta en el cálculo de los parámetros.

Estos péptidos extraídos ventanas forma una matriz de péptidos alineados de la anchura w. A partir de esta alineación, p i, j se calcula como el pseudo contar corregida probabilidad de ocurrencia de aminoácidos i en la columna j, que se calcula como en [24]. Para realizar la corrección pseudo contar, contar pseudo frecuencias, g i, j, se calculan. Se ofrecen por

Donde p k, j es la frecuencia observada de aminoácidos k en la columna j de la armonización [25]. La variable b i, k es el Blosum 62 matriz de la frecuencia de sustitución, por ejemplo, la frecuencia de la que se ajusta a i k [26].

Para dar un ejemplo del uso de (2), y menos el tamaño de la ventana, w = 1. El modelo es entonces sólo abarca los residuos, que son anotadas como parte de la lineal B-cell epitopes. Si el observado péptidos consta de las siguientes secuencias de aminoácidos única L y V, con las frecuencias L p, 1 = 0,5 y p V, 1 = 0,5, entonces la pseudo-frecuencia para contar por ejemplo me viene dada por

La eficacia de aminoácidos frecuencias se calcula como un promedio ponderado de la frecuencia observada y la frecuencia pseudo contar,

Aquí, α es el número efectivo de las secuencias en la alineación - 1, y β es el pseudo contar corrección [25], que se llama también la baja de peso en los cargos. Para terminar el ejemplo de cálculo, y mucho β ser muy grande ya que es en esta labor. Luego p I, 1 gI, 1 = 0,14.

Tenga en cuenta que vamos a utilizar el término modelo de Markov ocultas a lo largo de este trabajo para referirse a la matriz de peso generado usando (1). Los parámetros del modelo de Markov ungapped se calculan utilizando una denominada Gibbs sampler, escrito por Nielsen et al. [24].

El resultado de la aplicación (1) es una predicción para cada residuo Resultado de la consulta secuencia. Para reducir las fluctuaciones, una ventana de suavizado se aplica a todas las posiciones. Es asimétrica realizados en la N-y C-termini, a fin de conservar la predicción ejemplos.

Curvas ROC -

El resultado de la aplicación de un método de predicción a un conjunto de datos es un conjunto de ejemplos de predicción, x = (x 1, x 2, ..., x N). N Deje que indican el número de residuos. Cada x n consiste en un valor objetivo y un valor pronosticado. Si el residuo está anotado como parte de un epitopo, el valor objetivo es igual a 1, cero de otro modo. Si asimétrica suavizado de las ventanas se utilizan en la N-y C-termini, la variable N es igual al número de residuos en el conjunto de datos.

Según un umbral variable, la predicción ejemplos se clasifican como positivos o negativos, y de acuerdo a los valores objetivo, las predicciones pueden ser verdaderas o falsas. Las predicciones pueden ser tanto positivos verdaderos (TP), un resultado negativo (TN), falsos positivos (FP) y falsos negativos (FN).

La precisión de la predicción se mide por la construcción de las características operacionales del receptor, ROC, curvas [27]. Por cada valor de los umbrales, la verdadera proporción positiva, TP / (TP + FN), y la proporción de falsos positivos, FP / (FP + TN), se calcula. Una curva ROC-se construye por el trazado de la proporción de falsos positivos en contra de la verdadera proporción positiva para todos los valores de los umbrales. Es, pues, una medida no paramétrica.

La sensibilidad es igual a la verdadera proporción positiva, y la especificidad, dado por TN / (TN + FP), es igual a 1 - la proporción de falsos positivos. De esta manera, una curva ROC-es mostrar la correlación entre la sensibilidad y la especificidad para todos los posibles umbrales. Un buen método tiene una alta proporción verdadero positivo cuando se tiene un bajo porcentaje de falsos positivos. Un modelo de ese tipo tiene una alta sensibilidad y una alta especificidad. El rendimiento del método que se mide como el área bajo la curva, la A-RdCh valor. Por un azar de predicción, la verdadera proporción positiva es igual a la proporción de falsos positivos por cada valor de los umbrales. Luego RdCh A = 0,5. Para un método perfecto, A = 1 RdCh.

Bootstrapping

Bootstrapping se utiliza para estimar el error estándar de la A-RdCh valor, Como una medida de la incertidumbre de la A-RdCh valor [28]. La relación entre el error estándar y la desviación estándar, s, es que se = , En donde r es el número de repeticiones de los experimentos [29].

Bootstrapping es un método para generar pseudo-réplica (bootstrap muestras) de las predicciones, denota x *, que se aparten un poco de x. El arranque de la muestra, x = * , Se define como una muestra aleatoria de tamaño N, preparado con la sustitución de x. Algunos de los ejemplos de predicción de x puede aparecer cero veces, alrededor de una hora, algunas dos veces, etc a sacar muestras de arranque en otras palabras puede ser hecho por la copia escogido de forma aleatoria la predicción ejemplos, x n, de x en x *. De esta manera, alguna variación de x es introducido en x *.

Totalmente B, las muestras se tomen de arranque. Vamos x * b denotar la b-ésima de arranque muestra. La exactitud de la predicción x * b se calcula como .

El resultado de la prueba de arranque es x * 1, x 2 ,..., x * B * y, por tanto, . El error estándar del original RdCh Un valor está dado por

Donde Es el valor esperado de , Dada por [28]. Nota la similitud a la forma en que la desviación estándar es calculado. Se acerca a la original RdCh A-B recibe como valor general.

Pruebas t pareadas

Una prueba "t" pareada se realiza con el fin de determinar si un método es más preciso que otro. H 0-La hipótesis de esta prueba es que los dos medios son iguales, 1 μ = μ 2. En lugar de μ, Un RdCh y, por lo tanto se utiliza. El punto de partida es la medidas de la ejecución de los dos métodos, A RdCh, M1 M1 y una RdCh, M2 M2, donde M1 denota el método 1. Por bootstrapping tenemos los vectores Y . Cada par de arranque Se dibujan idéntica para cada b, que los dos A-RdCh valores pareados.

H 0-La hipótesis es, por tanto, un RdCh, M1 = A RdCh M1, M2, M2 y la hipótesis alternativa A RdCh, M1 M1> Un RdCh, M2 M2. La prueba estadística de t está dado por

La diferencia de los pares de b 'ª muestras de arranque, D b, está dada por

La variable Se calcula como el valor esperado de D b, y Se calcula utilizando (4), pero sustituyendo D con b. El resultado es después de un t-distribución con m = B - 1 grados de libertad, que se aproxima a la distribución normal para m> 30, entonces tz. El P-valor de la prueba es dado entonces por 1 - F (z), donde F (z) es la distribución normal acumulativa. Ver [29] para más información de la prueba "t" pareada.

Pruebas de permutación

Al someter a prueba la hipótesis H 0-que un método aleatorio como una modelo, una permutación experimento se puede hacer. La hipótesis alternativa es que el método es mejor que el desempeño de azar modelo. A partir de las predicciones del método, x, los valores objetivo se permutan para obtener un nuevo conjunto de predicción, perm x, p. Esto se hace para p = 1 ... p máx. Por cada p, la precisión de la predicción se calcula como . El P-valor de la hipótesis H 0-que se calcula como la proporción de veces para que > Un Roc.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

JEPL recogidos AntiJen el VIH y la base de datos, desarrollado, probado y validado los métodos de predicción y redactó el manuscrito. OC Pellequer creado la base de datos. MN aplicado los programas para los métodos de predicción. Todos los autores leído y aprobado el manuscrito final.