Immunome Research, 2005; 1: 6-6 (más artículos en esta revista)

Predicción de la CMH clase II péptidos vinculante sobre la base de un modelo de aprendizaje iterativo

BioMed Central
Naveen Murugan (nmurug1@uic.edu) [1], Dai Yang (yangdai@uic.edu) [1]
[1] Departamento de Bioingeniería (MC063), de la Universidad de Illinois en Chicago, 851 South Morgan Street, Chicago, IL 60607, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Predicción de la capacidad vinculante de antígeno péptidos a complejo principal de histocompatibilidad (MHC) de clase II moléculas es importante en el desarrollo de vacunas. La variable longitud de cada péptido vinculante complica esta predicción. Motivado por un modelo de minería de texto diseñado para la construcción de un clasificador de la etiqueta y etiqueta ejemplos, hemos desarrollado un modelo de aprendizaje supervisado iterativo para la predicción de MHC clase II vinculante péptidos.

Resultados

Una programación lineal (LP) es el modelo empleado para la tarea de aprendizaje en cada iteración, ya que es rápido y puede volver a optimizar el anterior clasificador cuando la formación conjuntos se vean alterados. El desempeño del nuevo modelo se ha evaluado con los datos de referencia. El resultado demuestra que el modelo logra una precisión de la predicción de que es competitivo frente a la avanzada predictores (Gibbs sampler y la TEPITOPE). El promedio de las áreas bajo la curva ROC obtenidos a partir de una variante de nuestro modelo son 0,753 y 0,715 para el original y homología de la reducción de conjuntos de referencia, respectivamente. Los correspondientes valores son, respectivamente, 0,744 y 0,673 para el muestreador de Gibbs y 0,702 y 0,667 para TEPITOPE.

Conclusión

El procedimiento iterativo de aprendizaje parece ser eficaz en la predicción de MHC clase II aglutinantes. Ofrece un enfoque alternativo a este importante predictionproblem.

Antecedentes

Se regulan las respuestas inmunes e iniciado por el complejo principal de histocompatibilidad (MHC), moléculas, que se unen a corto péptidos de antígenos y lo muestra en la superficie de la célula para el reconocimiento por receptores de las células T. La especificidad de esta unión se puede predecir a partir de la secuencia de aminoácidos de un péptido. Esas predicciones se puede utilizar para seleccionar epítopos para su uso racional en el diseño de vacunas y aumentar la comprensión de las funciones del sistema inmune en las enfermedades infecciosas, las enfermedades autoinmunes y el cáncer.

Existen dos tipos de moléculas MHC de clase I y clase II, y ambos son altamente polimórficos. El núcleo vinculante posterior de ambos MHC Iy II es de aproximadamente 9 aminoácidos de longitud. Sin embargo, las moléculas de MHC I rara vez se unen péptidos mucho más tiempo que 9 aminoácidos, mientras que las moléculas de MHC II ya puede acomodar péptidos de 10-30 residuos [1 - 3]. La presencia del núcleo vinculante con una longitud uniforme de las moléculas MHC I hace de la predicción de la péptido-MHC vinculante relativamente más fácil. Muchos métodos diferentes se han desarrollado para la predicción de péptido-MHC vinculantes, incluidos los simples motivos vinculante, cuantitativos matrices, modelos ocultos de Markov, y las redes neuronales artificiales [4 - 8]. Estos métodos pueden ser fácilmente aplicada a moléculas MHC I, ya que el motivo es vinculante bien caracterizado y la mayoría de los péptidos naturales que unen a las moléculas MHC I son de cerca de igual longitud.

La predicción del CMH clase II vinculante péptidos es un problema de difícil clasificación. Moléculas MHC de clase II péptidos que se unen a los aminoácidos 10-30 de largo, con una región central, de 13 aminoácidos que contiene una enseñanza primaria y secundaria de anclaje residuos [2, 9, 6, 11]. Análisis de los motivos vinculante ha sugerido que un núcleo de sólo el 9 aminoácidos en un péptido es esencial para péptido-MHC vinculante. Informó vinculante péptidos suelen tener longitudes variables y una región indeterminada básico para cada péptido. Por lo tanto, la búsqueda de la región central vinculante pueden eludir el problema de la longitud variable.

Los esfuerzos se han centrado en la forma de alinear los péptidos de tal manera que un bloque de los péptidos se pueden identificar como núcleos de la unión. La alineación de los péptidos se busca sobre la base de algoritmos evolutivos [12], el método de muestreo Gibbs [13], y un reciente método motivada por la estrategia de búsqueda colonia de hormigas [14]. El primero busca una posición de la matriz con la puntuación más alta puntuación de aptitud (poder predictivo) a través del operador de mutación genética. Los dos últimos métodos de intento de encontrar un óptimo local por medio de la alineación de Monte Carlo Metropolis muestreo en el espacio o de la alineación de la estrategia de búsqueda colectiva de los sistemas de colonia de hormigas, respectivamente. La unión con núcleos misma longitud se identifican a partir de la alineación, y una matriz de puntuación utilizado para la predicción es vinculante establecida de estos núcleos. En la labor de Brusic et al. [12], la armonización de los péptidos es tratado como un procedimiento de tratamiento previo. Tras la determinación de los núcleos de carácter vinculante, es un binario clasificador luego se enteró con redes neuronales artificiales utilizando secuencias de aminoácidos que se presentan en el núcleo vinculante como un conjunto positivo de formación y otros no vinculantes como péptidos negativo de formación establecidos. En Nielsen et al. [13] y Karpenko et al. [14], una posición de la matriz de puntuación se obtiene de la mejor alineación y utilizarse para péptidos de puntuación. La mayoría de estos predictores basados en la adaptación han logrado razonablemente buenas actuaciones. Sin embargo, una complicación común que participan en estos métodos es la correcta elección de los parámetros asociados. El ajuste de los parámetros se podría complicar. Un trabajo similar es por Bhasin et al. Que se utilizó un procedimiento de tratamiento previo llamado MOTs para filtrar la putativo vinculante núcleo vinculante para las secuencias de péptidos y posteriormente entrenado el clasificador basado en la máquina de vectores soporte (SVM) [15] con las secuencias básicas vinculantes y secuencias aleatorias [16]. Otro método utilizando un enfoque iterativo se ha desarrollado sobre la base de un modelo de análisis discriminante por pasos [17, 18]. Más recientemente, un modelo basado en redes neuronales Bayesiano se ha desarrollado [19].

Este trabajo está motivada por una máquina modelo de aprendizaje diseñado para una tarea de capacitación con sólo ejemplos positivos y sin etiqueta en la minería de texto. Este tipo de formación establecido está en pruebas en diversas aplicaciones en las que la identificación de un positivo ejemplo de ello es la capacitación intensivas en trabajo y tiempo. La idea básica para esta tarea de aprendizaje es el uso de un clasificador binario para filtrar los ejemplos positivos de la etiqueta de conjunto e incluirlos en la serie positiva a través de un procedimiento iterativo [20, 21]. Un clasificador es capacitado en cada iteración simplemente por la asignación de los ejemplos positivos de la etiqueta 1 y etiqueta ejemplos de la etiqueta -1 forma normal binario de formación conjuntos. Un clasificador puede ser adquirida por el uso de diferentes métodos de clasificación binaria como el Bayesiano Naïve o máquinas de vectores soporte.

La etiqueta y etiqueta ejemplos en la predicción de péptido-MHC vinculante, naturalmente, se pueden introducir a través del mecanismo de codificación. Un sistema de deslizamiento ventana con una ventana longitud de 9 se aplica a los péptidos vinculante. Este procedimiento rompe un péptido en un conjunto de nonamers de igual longitud. La unión básico, que es desconocido, es uno de los nonamers. El nonamers vinculante de todos los péptidos servir como ejemplos en los que la etiqueta de los ejemplos positivos, es decir, nonamers vinculante de núcleos, están incluidos. Del mismo modo, todos los nonamers obtenidos de la no vinculante péptidos sirven como ejemplos negativos. Se toma nota de que la situación en esta solicitud es opuesta a la de la minería de texto. Aquí, una serie negativa y un conjunto sin etiqueta que contenga posibles ejemplos positivos se presentan. Sin embargo, la misma estrategia descrita anteriormente para la minería de texto se puede aplicar. El enfoque aquí es para filtrar las no vinculantes nonamers sin etiqueta en el conjunto iterativamente. Este modelo de aprendizaje iterativo permite el uso de la información no aglutinante para la identificación de los núcleos y vinculante para generar el predictor simultáneamente. Esto es diferente de los tres métodos basados en la alineación se mencionó anteriormente en la que la identificación de los núcleos de carácter vinculante se basó sólo en péptidos vinculante.

La programación lineal (LP) modelo propuesto por Bennett y Mangasarian [22] se utiliza como modelo para el aprendizaje de la clasificación binaria en cada iteración. Este modelo tiene varias ventajas respecto a otros métodos de aprendizaje, tales como las máquinas de vectores soporte, Naïve Bayesiano, y redes neuronales artificiales. En primer lugar, sólo hay unos pocos parámetros y que son muy fáciles de ajustar. En segundo lugar, un programa lineal se pueden resolver muy rápido y encarna propiedades favorables que permiten el análisis de sensibilidad. Por lo tanto, si la posterior programación lineal es diferente sólo para un pequeño número de limitaciones, entonces la correspondiente solución óptima se puede encontrar a través de un nuevo procedimiento de optimización que utiliza la información de la actual solución óptima. Esto es particularmente importante para el proceso iterativo de aprendizaje, ya que sólo un pequeño número de nonamers se elimina de la positiva formación establecidos en cada iteración.

Este modelo se evaluó con los conjuntos de datos de referencia MHCBench frente a otras importantes los métodos existentes. El estudio demuestra computacional global que este método puede lograr comparables o un rendimiento superior en comparación con los competidores predictores, como el muestreador de Gibbs [13] y TEPITOPE [10]. La media de las zonas bajo el ROC (Receptor Características de funcionamiento) la curva [23] obtenidos a partir de una variante de nuestro modelo son 0,753 y 0,715 para el original y homología de la reducción de conjuntos de referencia, respectivamente. Los correspondientes valores son 0,744 y 0,673 para el muestreador de Gibbs y 0,702 y 0,667 para TEPITOPE.

Métodos
LP modelo para la clasificación

Considere la posibilidad de un conjunto de ejemplos positivos x i, i = 1 ,..., m + y un conjunto de ejemplos negativos x i, i = 1 ,..., m -, cada uno de los cuales es un punto en una n-dimensional Espacio. El LP modelo para un problema en la clasificación binaria (Bennett et al., 1992) es el siguiente.

Y donde i = 1 o -1 es la etiqueta asignada a cada ejemplo positivo o negativo, respectivamente.

Este modelo genera una separación de hyperplane con la menor cantidad de errores de clasificación de error. Se ha demostrado que este programa lineal siempre devuelve un no-trivial de la solución w, que permite a una función de clasificación lineal, ni siquiera en forma no lineal separable caso [22]. La función de la decisión, denotado por f (x) = w T x + b x + b x + b, asigna una etiqueta a un x por ejemplo el signo de f (x).

LP modelo de MHC clase II problema

Un conjunto de nonamers puede obtenerse por una ventana deslizante de longitud a lo largo de cada 9 MHC clase II péptido vinculante, tal como se describe anteriormente. Un péptido de longitud s tendrán s - 8 nonamers (véase el panel superior, figura 1]. Estos nonamers se redujo a un conjunto de putativo nonamers basa en el conocimiento de que el residuo en la primera posición de la nonamer tiene que ser hidrofóbicas a fin de que pueda obligar a un HLA-DR II molécula MHC. Este conjunto de putativo nonamers se considera como un conjunto sin etiqueta. Cada nonamer establecido en la etiqueta se le asigna la etiqueta 1 temporalmente.

El conjunto de nonamers negativos se puede obtener de manera similar a partir de la no vinculante péptidos. Cada nonamer en este conjunto se le asigna la etiqueta -1. Todos nonamers redundante en ambos conjuntos se retiran. El resto de nonamers son objeto de otras medidas de preprocesamiento, que se describe más adelante.

Un aminoácido en cada posición de la nonamer pueden ser codificados por un 20-dimensional vector. Cada coordinar el vector es de 1 ó 0, que representa la presencia o la ausencia de un determinado aminoácido. En consecuencia, cada nonamer puede ser representada como un vector de 180 dimensiones (véase el panel inferior, Figura 1].

Supongamos que existen m y m + vinculante - no vinculante péptidos. Cada vector de codificación de un nonamer para un péptido i se denota por . Supongamos que cada carpeta permisos i i k putativo nonamers. Al utilizar el modelo LP dado antes, nuestro problema puede formularse como la siguiente programación lineal:

Donde C 1 y C 2 son coeficientes que se determinarán a través de la validación cruzada en el conjunto de capacitación. Tenga en cuenta que hemos ampliado el modelo LP (1) al permitir el cambio de los coeficientes C 1 y C 2 asociado con el error en términos de la función objetivo en LP (1). Esta ampliación tiene como objetivo el control de los pesos en términos de error a fin de que algunos no básicos nonamers positivo en el conjunto están deliberadamente mal clasificados. Esta es una característica principal de nuestro modelo de aprendizaje.

Procedimiento iterativo

El proceso iterativo de formación consta de los siguientes pasos principales. En primer lugar, un vector de peso w y el valor b se obtienen por la solución de los LP (2) fijo para C 1 y C 2. Esta solución se utiliza para cada nonamer Resultado positivo en el conjunto de capacitación sobre la base de la función f (x) = w T x + b x + b x + b. Nonamers con negativos resultados positivos de la serie se trasladó a la negativa conjunto. Posteriormente, el LP es resuelto por la alteración de formación conjuntos. Este proceso se repite para un número de iteraciones, que se determinará a través de la validación cruzada (CV). La función f (x) se define con la solución final LP w, y b se utiliza para la predicción de péptidos en el conjunto de pruebas. Un péptido que tiene por lo menos un positivamente anotó nonamer es considerada como una carpeta, y de otro, se considera no aglutinante. Si varios nonamers de un péptido tiene una puntuación positiva, entonces la nonamer con la puntuación más alta es considerada como el núcleo vinculante para ese péptido. Tenga en cuenta que puede no haber identificado vinculante básico obligatorio para ciertos péptidos en la final positivo de formación establecidos.

Además del modelo de aprendizaje descritos anteriormente, otras dos variantes se consideraron. En la primera variación, el nonamers positivo en el conjunto evaluado con una puntuación negativa fueron descartados en vez de ser adjunta a la negativa fijado en cada iteración, ya que estas nonamers puede no ser necesariamente cierto no aglutinantes. En la segunda variación, como máximo, dos nonamers con las más altas puntuaciones positivas de cada péptido fueron autorizados a permanecer en el conjunto positivo y el resto fue descartado. El enfoque en esta variante de la LP está motivada por la observación de que el núcleo vinculante es probable que se produzca entre la alta puntuación nonamers para cada péptido. (De nuestro estudio preliminar sobre la formación de péptidos conjunto con conocidos vinculante básico regiones, se observó que no hubo mejoría significativa en el rendimiento del uso de los tres o cuatro nonamers largo de las dos primeras nonamers.)

Estas variantes del método LP se denominan LP_append, LP_discard, y LP_top2 en los debates siguientes. Por LP_append, LP_discard, el número de iteraciones para que el proceso se repite LP y de los coeficientes C 1 y C 2 se determinará por un pliegue de 5 CV en el conjunto de capacitación. Por LP_top2, la CV procedimiento sólo determina los coeficientes C 1 y C 2, desde LP_top2 termina después de la segunda iteración. El área bajo la curva ROC fue el criterio para la evaluación de los factores predictivos. El final predictor para cada método se obtuvo mediante la formación de todo el conjunto con la formación óptima de los parámetros determinados a partir de la 5-fold CV. El paquete de programación lineal GLPK [24] fue utilizado para resolver el LP dado (2).

Conjuntos de datos
La formación de conjuntos de datos de HLA-DR4 (B1 * 0401) alelo

Las secuencias de péptidos de unión a la molécula MHC de clase II HLA-DR4 (B1 * 0401) de la SYFPEITHI [6] y MHCPEP [12] bases de datos fueron extraídos. Desde la base de datos ha SYFPEITHI péptidos más ahora que en 1999, las secuencias de péptidos añadido a la base de datos después del año 1999, se han eliminado para que sea comparable a la utilizada en el conjunto de datos de Nielsen et al. [13]. Este conjunto consta de 462 secuencias de péptido único vinculante. No aglutinantes para la molécula MHC de clase II HLA-DR4 (B1 * 0401) se obtuvo de la base de datos MHCBN [25]. Este conjunto consta de 177 única no vinculante secuencias de péptidos.

La unión péptidos que no poseen un residuo hidrofóbico (I, L, M, M, W, Y, V) en la primera posición en putativo vinculante núcleos fueron retirados [12]. Es decir, se eliminó un péptido hidrofóbico de los residuos en caso de que no se presente en los primeros n - s +1 posiciones, donde n es la longitud y el péptido s es la longitud de la ventana deslizante. El filtro hidrofóbico eliminado 27 péptidos. Además, el conjunto se redujo mediante la eliminación de las secuencias de péptidos no naturales con una extrema contenido de aminoácidos de más del 75% de alanina. Por lo tanto, el procedimiento de tratamiento previo da 462 únicos vinculantes y 177 péptidos única no vinculante péptidos. La duración de distribución en el conjunto de capacitación oscila entre el 9 y el 30 de los residuos, con la mayoría de los péptidos con una longitud de 13 aminoácidos. Estas secuencias de péptidos fueron utilizados para obtener nonamers ventana deslizante con el régimen descrito anteriormente. Todos redundante nonamers y nonamers que no tienen un residuo hidrofóbico en la posición 1 se eliminaron. El último número de nonamers obtenidos de la vinculantes y no vinculantes péptidos son 796 y 903, respectivamente.

Exámenes conjuntos de datos de HLA-DR4 (B1 * 0401) alelo

Diez conjuntos de datos de referencia utilizados en Nielsen [13] fueron considerados en nuestro estudio. Estos 10 conjuntos de datos constará de los 8 conjuntos de datos descritos en el MHCBench [26] y 2 conjuntos de datos descritos por Southwood [27] y Geluk [28]. El mismo procedimiento se presenta en Nielsen et al para la determinación de los aglutinantes y no aglutinantes fue seguido en nuestro estudio. Más concretamente, para el 8 MHCBench bases de datos, péptidos asociados con un valor vinculante de cero se considera ser no aglutinantes, y todos los demás péptidos son aglutinantes. Para los conjuntos de datos de Southwood y Geluk, una afinidad de 1000 nM fue tomado como umbral para péptido vinculante [27]. Con el fin de reducir la posibilidad de un exceso de predicción, la evaluación comparativa También se realizó sobre la homología de la reducción de conjuntos de datos. La homología de reducción se llevó a cabo de manera que no péptido en la evaluación establece había una coincidencia en conjunto con la formación de identidad de secuencia> 90% a lo largo de una alineación longitud de al menos nueve aminoácidos. El cuadro 1 muestra un resumen de la original y la homología de referencia de la reducción de bases de datos, respectivamente. Tenga en cuenta que existe una pequeña discrepancia en el número de algunos de los conjuntos reducidos en comparación con las que se informó en Nielsen [13] (A partir de la comunicación por correo electrónico con el Dr Nielsen, se ha producido un error en el número de informes en el cuadro de su papel; Sin embargo, los resultados presentados en la predicción se basa en el número indicado en el cuadro 1].

Los conjuntos de datos de HLA-DRB1 * 0101 y HLA-DRB1 * 0301 para los ensayos de validación cruzada

Otros dos conjuntos de datos para las moléculas MHC de clase II HLA-DRB1 * 0101 y HLA-DRB1 * 0301 se obtuvieron de la base de datos MHCBN [25]. El conjunto de datos de HLA-DRB1 * 0101 consta de 475 aglutinante y 105 no aglutinante péptidos. El conjunto de datos de HLA-DRB1 * 0301 consta de 219 aglutinante y 150 no aglutinante péptidos. El mismo tratamiento previo procedimiento descrito anteriormente se aplicó a estos dos grupos.

Resultados
Exámenes de datos de referencia para el HLA-DR4 (B1 * 0401)

Los resultados de los tres métodos en el punto de referencia de datos se comparan con los obtenidos a partir de la técnica de muestreo de Gibbs [13] y TEPITOPE [10]. Los resultados de la toma de muestras de Gibbs se calcularon con la matriz de puntuación proporcionada por el doctor Nielsen, y los resultados de TEPITOPE se obtuvieron con el uso de la matriz de puntuación de ProPred [29], que se basa en el de TEPITOPE. El desempeño, evaluado por el área bajo la curva ROC (Aroc), de cada método en los 10 conjuntos de datos de referencia se presenta en la figura 2 y figura 3. Tabla 2 muestra la ejecución de los métodos de media sobre los 10 conjuntos de datos de referencia. Se observa que entre los tres métodos propuestos, LP_top2 tiene un promedio ligeramente superior Aroc valor que aquellos obtenidos de las otras dos variantes. También se observó que todas las tres variantes LP han Aroc valores más altos en comparación con el muestreador de Gibbs y TEPITOPE.

Una observación notable es que el desempeño de las Gibbs sampler parece deteriorarse para establecer 5A (0.588) y el conjunto 5B (0.600), mientras que el LP métodos para mantener el rendimiento de estos dos conjuntos de datos, por ejemplo, LP_top2 ha Aroc valores de 0,725 y 0,760 para El original de referencia establece 5a y 5b, respectivamente. Estos dos conjuntos de datos tienen mayor contenido de cisteína en comparación con el conjunto de capacitación. Sin embargo, como el uso de ambos métodos LP aglutinantes y no aglutinantes para entrenar el clasificador (a diferencia de la mayoría de los otros métodos en los que sólo se utilizan aglutinantes para la formación), el LP son los métodos más sólido en el rendimiento. Además, una vez el método de ensayo mediante la sustitución de todas las apariciones de cisteína en todos los conjuntos de alanina [13], se observó que el método LP_top2 obtenido Aroc valores de 0,815 y 0,859 para el primer punto de referencia establece 5a y 5b, respectivamente, mientras que el Gibbs sampler Aroc obtuvieron valores de 0,621 y 0,661, respectivamente. Los detalles de los resultados se presentan en los cuadros S1, S2, S3 y S4, en el documento complementario (véase Más archivos add1.doc - add4.doc). TEPITOPE también tuvo un mal desempeño para el conjunto de datos Southwood (Aroc valores de 0,703 y 0,630 para el original y homología de bases de datos) debido a la composición de aminoácidos sesgada en la posición P1 y que si una matriz TEPITOPE modificados en la posición P1 se utilizó, TEPITOPE podría aumentar Aroc valores de 0,786 y 0,794 para el original y la reducción de homología Southwood bases de datos, respectivamente [13]. Para los otros conjuntos de datos de referencia, el rendimiento de la TEPITOPE modificado es similar a la original TEPITOPE matriz.

Con el fin de investigar la significación estadística de los resultados, se generaron 1000 conjuntos de datos mediante muestreo aleatorio N puntos de datos con reemplazo para cada conjunto de datos. En este caso, N es el número de puntos de datos en el conjunto de datos original. El desempeño de los diferentes métodos se evaluó para cada uno de los originales y la homología de la reducción de conjuntos de datos. Se observó que, entre las variantes LP, LP_top2 tenido un rendimiento mejorado ligeramente en comparación con LP_append y LP_discard métodos. Sin embargo, no hubo diferencia significativa observada en su desempeño. El promedio general de rendimiento de los métodos para el muestreo de datos tampoco fue muy diferente a la original y de la homología de la reducción de conjuntos de datos. Los detalles se proporcionan en los cuadros S1 y S2 en el documento complementario (véase Más archivos add5.doc - add6.doc)

Para la comparación con el muestreador de Gibbs, el p-valor de la hipótesis de que el método de Gibbs desempeña mejor que el método LP se estima como la fracción de los experimentos donde el muestreador Gibbs tiene un mejor rendimiento. LP_top2 fue seleccionado en esta comparación. Se observó que, para el punto de referencia original de bases de datos, para el 7 de los 10 conjuntos de datos (series 1, 2, 3a, 3b, 4a, 5a y 5b), LP_top2 obtenido mejores resultados que el método de muestreo Gibbs (p <0,05). Para el resto de 3 bases de datos, no hubo diferencias significativas en el rendimiento (0,05 <p <0,95). En caso de la reducción de la homología de bases de datos, para el 8 de los 10 conjuntos de datos (series 1, 2, 3a, 3b, 4a, 4b, 5a y 5b), LP_top2 obtenido mejores resultados que el método de muestreo Gibbs (p <0,05). Para el resto de conjuntos de datos 2 no hubo diferencias significativas en el rendimiento (0,05 <p <0,95). La misma comparación se hizo entre LP_top2 y TEPITOPE. Se observó que, a los conjuntos de datos de referencia original, de 2 de los 10 conjuntos de datos (conjuntos de Southwood y 5b), LP_top2 obtenido mejores resultados que el método de muestreo TEPITOPE (p <0,05). A los 8 restantes bases de datos, no hubo diferencias significativas en el rendimiento (0,05 <p <0,95). En caso de la reducción de la homología de bases de datos, para el 7 de los 10 conjuntos de datos (series 1, 2, 3a, 3b, 4a, 5a y Southwood), LP_top2 obtenido mejores resultados que TEPITOPE (p <0,05). A los 3 restantes conjuntos de datos, no hubo diferencia significativa en el rendimiento (0,05 <p <0,95). Los detalles figuran en el cuadro S3 en el documento complementario (véase Más archivos add7.doc).

Resultados de la validación cruzada

El método LP (LP_top2) se evaluó utilizando un 5 veces cruzar a la validación de los datos de HLA-DRB1 * 0101 y HLA-DRB1 * 0301. Los resultados se compararon contra los obtenidos de TEPITOPE (véase el cuadro 3]. La matriz TEPITOPE fue descargado de ProPred [29], y se utilizó en el ensayo pliegues. El método LP producido Aroc valores 0,779 para HLA-DRB1 * 0101 y el conjunto de datos de 0,721 para HLA-DRB1 * 0301 de datos. Los correspondientes valores generados por TEPITOPE son 0,842 y 0,585, respectivamente. El LP método parece ser más consistente en la ejecución, entre las diferentes alelos.

Predicción de las vinculante básico

La capacidad predictiva del método LP (LP_append) para la identificación de los núcleos de carácter vinculante en vinculante péptidos se evaluó para el HLA-DR4 (B1 * 0401) alelo. El péptido de 68 secuencias que se han determinado experimentalmente información sobre núcleos vinculante, que figura en la base de datos SYFPEITHI fueron utilizados para la verificación. Nonamers inicial en el conjunto de núcleos putativo vinculante para el HLA-DR4 (B1 * 0401) alelo que son idénticos a cualquier vinculantes en los 68 núcleos vinculante péptidos fueron retirados. El resultado fue la formación de un nuevo conjunto de 755 vinculante nonamers. El mismo negativo nonamer fijados para el HLA-DR4 (B1 * 0401) alelo se utilizó. El clasificador se formó con el uso del procedimiento descrito anteriormente. Entre los 68 péptidos vinculante, quincuagésimo aglutinantes que producen una zona de unión distinta núcleos fueron seleccionados de las 68 carpetas. Sin embargo, el 6 de los que había núcleos con una longitud inferior a 9 aminoácidos. Después de la eliminación de estas excepciones, el 45 péptidos se dejaron para el ensayo.

El núcleo vinculante previsto que se considera el nonamer con la puntuación más alta. El número de núcleos identificados vinculante que se encontraban dentro de dos posiciones exactas de la central vinculante por el método LP, TEPITOPE, y el muestreador de Gibbs son, respectivamente, 41, 43, y 42. Es decir, cada núcleo vinculante identificado al menos 7 acciones consecutivas con los residuos informó núcleos. La razón de la verificación de la predicción central con un cambio de algunas posiciones de los principales vinculante informó que se debe a que la afinidad no está completamente determinado por la unión y el núcleo de acompañamiento aminoácidos en ambos lados de la real básicos pueden contribuir a la unión Afinidad y la estabilidad [19, 30, 31]. Cabe señalar que la matriz de Nielsen utilizado se obtuvo de la formación original de la serie, que incluye los 68 carpetas. Parece que los tres métodos realizan casi el mismo. El núcleo de alineación, de 11 péptidos de las 45 pruebas de péptidos obtenidos de la LP y el método básico de alineación original de la base de datos SYFPEITHI se presentan en la Figura 4.

Discusión

Es importante señalar que el Gibbs sampler supone una serie de parámetros que necesitan ser optimizados mediante un procedimiento complicado antes de la capacitación, mientras que el método LP es muy sencilla y la única parámetros que deben determinarse son los coeficientes de los errores de clasificación errónea Y el número de iteraciones. Ambos parámetros son fácilmente y rápidamente determinó a través de la validación cruzada. Este proceso no implica modificación cuando se aplica a las secuencias de péptidos respecto a los alelos de MHC.

Un enfoque similar iterativo para predecir alelos HLA DR1 gradual utilizando un análisis discriminante (SDA) ha informado [17, 18]. Este enfoque capacita a una función discriminante en cada iteración y lo utiliza para evaluar nonamers obtenidos de la encuadernación original de las secuencias peptídicas. Esas nonamers superado el umbral de predicción de las formas positivas de formación establecidos en la siguiente iteración. Por lo tanto, el conjunto es positivo formación cambios dinámicos y más de iteración a iteración. La negativa de capacitación conjunto sigue siendo la misma. En este sentido, Mallios' método es similar a la nuestra LP_discard o LP_top2. El discriminativa características se seleccionan sobre la base de la F-estadística de un sentido único análisis de la varianza. El Mallios es esencialmente un modelo de regresión lineal múltiple, que reduce al mínimo la suma de errores cuadrados, mientras que nuestro modelo minimiza la suma ponderada de los errores.

En un trabajo reciente, una red neuronal Bayesiano [19] fue utilizado para la predicción de la clase II MHC péptido vinculante. Llegaron a la conclusión de que su método supera el modelo de redes neuronales [12] y el modelo de SVM [16]. Desde sus bases de datos no estaban disponibles, una comparación directa no pudo realizarse.

Conclusión

Un modelo de aprendizaje iterativo supervisado ha sido desarrollado para la predicción de péptidos vinculante a las moléculas MHC de clase II. Este enfoque fue motivada por un modelo para la construcción de un clasificador con la positiva y sin etiqueta de formación conjuntos en la minería de texto. La principal característica de este método es su iterativo de extracción de núcleo nonamers vinculante. El proceso iterativo de formación funciona como un "lazo de adaptación ', de nuevo la alimentación de información útil por la formación contra la validación de los datos. Los resultados indican que el rendimiento de este nuevo método para HLA-DR4 (B1 * 0401) alelo es competitivo con otros métodos. Además, el método puede incorporar nuevos péptidos en la formación de datos fácilmente. Esta característica hace que el método mucho más adaptable. Se espera que la exactitud de predicción se mejorará, si la información sobre otros puestos clave de anclaje se incorpora [13] y un vector de apoyo máquina modelo de aprendizaje se adapta.

Material suplementario
Archivo Adicional 1
Este archivo incluye el cuadro S1 - El promedio de Aroc valores y desviación estándar para la toma de muestras aleatoria de datos de 1000 sobre la original de los conjuntos de datos de referencia.
Archivo Adicional 2
Este archivo incluye el cuadro S2 - El valor promedio de Aroc y las desviaciones estándar para la toma de muestras aleatoria de datos de 1000 sobre la reducción de la homología de los conjuntos de datos de referencia.
Archivo Adicional 3
Este archivo incluye el cuadro S3 - P valores de las pruebas estadísticas.
Archivo Adicional 4
Este archivo incluye el cuadro S4 - El Aroc valores de referencia para los conjuntos de datos originales.
Archivo Adicional 5
Este archivo incluye el cuadro S5 - El Aroc valores de referencia para la reducción de bases de datos.
Archivo Adicional 6
Este archivo incluye el cuadro S6 - El Aroc valores de la referencia de datos original (Cisteína sustituido).
Archivo Adicional 7
Este archivo incluye el cuadro S7 - El Aroc valores de referencia para la reducción de bases de datos (Cisteína sustituido).
Agradecimientos

Los autores agradecen a Lei Huang útil para la discusión y Deepa Vijayaraghavan por la asistencia con el entorno informático. Los autores también gracias doctor Morten Nielsen para compartir de la homología de la reducción de datos y una matriz de puntuación. Esta investigación es financiada en parte por la Fundación Nacional de Ciencias (EIA-022-0301) y Laboratorio de Investigaciones Navales (N00173-03-1-G016).