Immunome Research, 2007; 3: 5-5 (más artículos en esta revista)

La fuerza de los números: lograr una mayor precisión en el MHC-I vinculante de predicción mediante la combinación de los resultados de múltiples herramientas de predicción

BioMed Central
Brett Trost (brett.trost @ usask.ca) [1], Mik Bickis (bickis@math.usask.ca) [1], Anthony Kusalik (kusalik@cs.usask.ca) [1]
[1] Departamentos de Informática y Matemáticas y Estadísticas, Universidad de Saskatchewan, Saskatchewan, Canadá

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Los péptidos derivados de antígenos endógenos pueden obligar a MHC de clase I moléculas. Los que se unen con gran afinidad puede invocar una CD8 + respuesta inmune, lo que resulta en la destrucción de las células infectadas. Gran parte del trabajo en immunoinformatics ha supuesto la algorítmica predicción de péptidos afinidad a diversas MHC-I alelos. Una serie de herramientas para el MHC-I vinculante predicción se han desarrollado, muchas de las cuales están disponibles en la web.

Resultados

Se postula que los péptidos predicho por una serie de herramientas tienen más probabilidades de obligar a que las predichas por un solo instrumento, y que la probabilidad de que un particular péptido ser un aglutinante es relacionado con el número de herramientas que predecir, así como la exactitud de esas herramientas. Con este fin, hemos construido y ensayado una heurística basada en el método de toma de MHC vinculante predicciones mediante la combinación de los resultados de múltiples herramientas. La predicción de rendimiento de cada instrumento por primera vez comprobada. Estos datos de rendimiento son utilizados para obtener los pesos de tal forma que las predicciones de herramientas con mejor precisión se da una mayor credibilidad. La combinación de herramienta se evaluó usando diez veces validación cruzada y se encontró a signicantly superan a los distintos instrumentos cuando una alta especificidad umbral se utiliza. Se realiza así comparable a los que ofrezcan mejores resultados individuales herramientas especificidad inferior a los umbrales. Por último, también supera a la combinación de los instrumentos resultantes de análisis discriminante lineal.

Conclusión

Un heurístico basado en el método de combinar los resultados de los distintos instrumentos de mejor facilita el escaneado de gran potencial para proteomas epítopos, dando más real de alta afinidad de unión al tiempo que se informa muy pocos falsos positivos.

Fondo

El complejo mayor de histocompatibilidad (MHC) es un conjunto de genes cuyos productos juegan un papel crucial en la respuesta inmune. Los péptidos derivados de la degradación proteasomal de proteínas intracelulares son presentados por MHC de clase I moléculas a los linfocitos T citotóxicos (CTL) [1 - 3], y el reconocimiento de un territorio no autónomo por un péptido CTL puede resultar en la destrucción de una célula infectada. Péptidos que pueden completar este itinerario se llaman células T epítopos.

Sólo el 0,5% de péptidos se estima que se unen a un determinado MHC-I molécula, haciendo de esta la etapa más selectiva en el reconocimiento de antígenos intracelulares [4, 5]. Dado el gran tamaño de muchas virales y bacterianas proteomas, es prohibitivo en términos de tiempo y dinero para poner a prueba todo lo posible para péptido inmunogenicidad, por lo que las herramientas computacionales para la predicción de péptidos que pueden obligar a un determinado MHC-I son alelo inestimable para facilitar la identificación de epítopes de células T.

Muchas herramientas para realizar esas predicciones, de diversa calidad, están disponibles. Se postula que el mayor exactitud predictiva puede lograrse mediante la combinación de las predicciones de algunas de estas herramientas en lugar de utilizar sólo una herramienta. Además, las contribuciones de los distintos instrumentos deben guardar relación con su exactitud. Para probar esta hipótesis, hemos construido una herramienta de predicción que asigna una "puntuación combinada" para cada péptido en una determinada proteína, teniendo en cuenta la predicción de rendimiento de cada herramienta, y la puntuación dada por ese mismo instrumento a un determinado péptido. También comparamos nuestra técnica combinada con las predicciones hechas usando análisis discriminante lineal, un método estadístico estándar para la combinación de variables que distinguir dos grupos (en este caso, "carpeta" y "no de carpetas"). En este trabajo, la sigla "HBM" se refieren a nuestra heurística basada en el método y "LDA" se referirán a las predictor lineal construido usando análisis discriminante.

Resultados y discusión
La ejecución de cada uno de los instrumentos

El cuadro 1 muestra la capacidad de cada herramienta para discrimine entre los aglutinantes y nonbinders para HLA-A * 0201 derivados de la comunidad base de datos de carácter vinculante [6]. Como estamos interesados en una buena sensibilidad a alta especificidad, la sensibilidad de cada una de las herramientas a 0,99 y 0,95 especificidad especificidad se muestran. El ROC un valor para cada una de las herramientas también se da y estos valores son muy similares, pero no completamente idénticas, a las previstas por los autores de la comunidad vinculante de recursos; las pequeñas diferencias son probablemente debidas al uso de diferentes métodos de cálculo de la zona bajo la curva ROC. Individual herramienta de los datos de rendimiento de la HLA-B * 3501 y H-2Kd péptidos de la comunidad base de datos de carácter vinculante, así como para el HLA-A * 0201 péptidos obtenidos de la literatura, se muestran en los cuadros 2, 3 y 4, respectivamente .

La ejecución de los métodos combinados

El HBM LDA y se evaluaron utilizando diez veces validación cruzada en las mismas cuatro bases de datos (el HLA-A * 0201, HLA-B * 3501, y H-2Kd de datos de la comunidad vinculante de recursos, y los HLA-A * 0201 conjunto de datos de la literatura) como herramientas de la persona.

El HBM requiere que una persona herramienta especificidad parámetro se elige de modo tal que las herramientas "a las sensibilidades que la especificidad se puede utilizar como los pesos en la ecuación 1. El desempeño de la HBM se determinó usando la herramienta especificidades individuales de 0,99, 0,95, 0,90 y 0,80. En general, se encontró que el uso de cada herramienta 0,99 especificidad como resultado el mejor rendimiento, mientras que el uso de herramientas individuales más bajos parámetros de especificidad dado lugar a algo más débil rendimiento. De este modo, todos los datos de rendimiento HBM se describe a continuación se obtuvieron utilizando 0,99 individuales herramienta especificidad. La tabla 5 muestra los resultados de la HBM en cada uno de los cuatro conjuntos de datos.

Para dos de los tres alelos, el HBM mostraron un marcado mejoramiento en la sensibilidad a una alta especificidad en comparación con los mejores resultados individuales herramientas. La sensibilidad de la HBM a 0,99 especificidad para HLA-A * 0201 fue de 0,40, un gran incremento con respecto NetMHC ANN, cuya sensibilidad de 0,29 fue el mejor entre los distintos instrumentos. Para HLA-B * 3501, la sensibilidad fue del HBM 0,31 a una especificidad de 0,99, mientras que la más alta sensibilidad obtenida por una persona herramienta fue de 0,24. El HBM mostró igualmente buenos resultados cuando se analizaron utilizando la literatura derivada de HLA-A * 0201 datos, logrando una sensibilidad de 0,27, comparado con 0,19 para el mejor desempeño individual herramienta. Para H-2Kd, sin embargo, el HBM se superó en 0,99 especificidad de la matriz ARB herramienta, que tiene una sensibilidad de 0,50 frente a 0,47 para la MCS. Sin embargo, observamos que ARB Matrix fue entrenado usando las carpetas de la comunidad base de datos de carácter vinculante, por lo que su desempeño en la comunidad de datos es probable inflados [7]

En los umbrales de menor especificidad, la ventaja de la HBM fue sólo marginal. Por ejemplo, la sensibilidad de la HBM a 0,95 especificidad para el HLA-A * 0201 comunidad de datos era casi idéntica a la de la mejor herramienta individual; para HLA-B * 3501, la sensibilidad de la especificidad HBM a 0,95 fue ligeramente peor que la persona con la herramienta de mayor sensibilidad en esa especificidad. Curiosamente, sin embargo, la realidad supera a HBM los distintos instrumentos a la especificidad de 0,95 H-2Kd.

El discriminante lineal resultados muestran distribuciones aproximadamente normal, con moderada separación entre los aglutinantes y no aglutinantes. Las distribuciones son más estrechos a la normalidad para HLA-A * 0201 de datos de la literatura y la H-2Kd datset, con más sistemática las desviaciones de los otros dos conjuntos de datos. Mientras que el nominal de sensibilidad y especificidad de la LDA razonablemente bien de acuerdo con el real y transversal validado los valores, hemos utilizado la cruz-validado valores a efectos de comparación (Cuadro 6]. La distinción entre nominal y real especificidad se ilustra en la Figura 1.

LDA muestra una mejora con respecto al individuo herramientas para el HLA-A * 0201 comunidad de datos, alcanzando una sensibilidad de 0,33 a 0,99 especificidad - más alto que el de todas las herramientas individuales, pero más bajo que el de la HBM. El desempeño de la LDA en los demás conjuntos de datos es menos importante. Su sensibilidad por el HLA-A * 3501 communtiy datos a 0,99 especificidad fue del 0,21, frente al 0,24 por ARB matriz y 0,31 para la MCS. Sin embargo, observamos una vez más que el ARB matriz de sensibilidad es probablemente exagerada, sobre todo teniendo en cuenta que la sensibilidad para la segunda mejor herramienta a 0,99 especificidad (NetMHC 2,0 Matrix) fue 0,14. El desempeño de LDA en el H-2Kd de datos fue bastante fuerte, pero aún inferior a la de Matrix, tanto ARB y el HBM. Por último, el desempeño de LDA en la literatura derivada de HLA-A * 0201 de datos era bastante débil, tanto en especificidad 0,99 y 0,95 especificidad.

Únicamente en términos de la ROC Un valor, sin embargo, LDA supera a la persona herramientas a los cuatro conjuntos de datos. Esto sugiere que, si bien LDA prevé fuerte "global" de rendimiento en toda la gama de características específicas, menos que logre la mejora en la región de la curva ROC que es de interés en este estudio - es decir, las regiones de muy alta especificidad.

Discusión

En este trabajo, los resultados se dan sólo para los tres alelos HLA-A * 0201, HLA-B * 3501, y H-2Kd. El enfoque puede ser fácilmente extendido a cualquier arbitraria MHC-I alelo, a condición de que un número suficiente de herramientas para hacer predicciones que alelo, y que existe un número suficiente de conocimiento de carácter vinculante y no vinculante péptidos que pueden ser utilizados para probar los distintos herramientas en que alelo. Los efectos de estas últimas condiciones son nacidos fuera en nuestros resultados de H-2Kd versus HLA-A * 0201.

Hemos utilizado nuestra HBM herramienta para la predicción de aglutinantes de banco de experimentos de laboratorio, con resultados positivos. Por ejemplo, en la predicción de aglutinantes para el virus de la gripe en ratones, los dos mejores 9-dores predicho por HBM convertido en el más fuerte generar respuestas a los inmunoensayos [8].

Algunos estudios comparativos de obligar a utilizar herramientas de predicción generados aleatoriamente nonbinders. En este estudio se utiliza sólo conocido nonbinders. Nos sostienen que el uso de la conocida nonbinders contribuye a una mayor práctica en materia de evaluación de cada una de las herramientas de utilidad. Tal nonbinders que podría haber sido seleccionados por un experimentador por la unión de afinidad pruebas debido a la presencia de residuos de buen anclaje. Aleatoriamente generados nonbinders tienden a tener residuos de anclaje mal que coincidan con los motivos establecidos, y por lo tanto son muy fáciles de clasificar, en cambio, nonbinders reportado en la literatura con frecuencia han ancla residuos que se ajusten a hacer una motivo, haciéndolas más difíciles de clasificar . Por una herramienta para ser verdaderamente útil, debe ser capaz de diferenciar entre todos los péptidos que tienen buenas ancla residuos, pero cuyo no ancla residuos confieren diferentes grados de afinidad.

Disponibilidad

Los autores han optado por no hacer el HBM disponibles en línea, por dos razones: en primer lugar, los frecuentes cortes de servidor y otros problemas con los distintos instrumentos basados en la Web suelen impedir la adquisición de todos los resultados necesarios. Funcionamiento automático tanto, no es posible. En segundo lugar, la consulta de todos los instrumentos basados en la Web puede tomar un tiempo, lo que hace inconveniente la herramienta de tiempo real basado en la web de acceso. Los investigadores interesados podrán, no obstante, póngase en contacto con los autores en relación con la obtención de la ejecución de scripts la HBM.

Conclusión

Hemos construido una herramienta que combina heuristically la salida de varios MHC vinculante herramientas de predicción, y han demostrado que logra mejorar notablemente la sensibilidad a una alta especificidad en comparación con las mejores herramientas individuales, y también es superior al análisis discriminante lineal en alta especificidad. Esta técnica es muy general y puede ser actualizado como nuevo herramientas de predicción disponibles. En vista de esto, el HBM debería ser extremadamente valiosa para los investigadores que deseen escanear proteomas gran potencial para epítopos. Además, la combinación del uso de herramientas de análisis discriminante lineal muestra constantemente la mejora de las características generales de funcionamiento (según lo medido por el ROC un valor) a lo largo de los distintos instrumentos y, por tanto, sería útil para los investigadores deseosos de identificar un gran número de posibles carpetas en un conjunto de datos más pequeñas, como una sola proteína.

El éxito de nuestra heurística herramienta basada en corrobora la hipótesis de que los péptidos predicho por una serie de herramientas es más probable de obligar a que las predichas por un solo instrumento, y que la probabilidad de que un particular péptido ser una carpeta se relaciona con el número de herramientas que predicen, así como la exactitud de esas herramientas. En el mismo sentido, nuestros datos sugieren que el desempeño de la heurística enfoque basado mejora cuando más individual herramientas de predicción están disponibles. El hecho de que la combinación de la salida de varias herramientas resultados en un mayor rendimiento indica que, a partir de ahora, ningún instrumento es capaz de extraer toda la información inherente a los datos actualmente disponibles. Por lo tanto, la continuación de la labor en la mejora de MHC vinculante predicción es necesario.

Métodos
Determinación de herramientas de predicción

Hemos identificado un total de 16 diferentes herramientas de predicción a partir del 12 de diferentes grupos de investigación. Cuando hay dos instrumentos del mismo grupo, o bien difieren en el método utilizado para predecir o afinidad en los datos utilizados para entrenar el modelo. Las herramientas a prueba son los siguientes: Bimas [9], Rankpep [10], SYFPEITHI [11], NetMHC 2,0 ANN y NetMHC 2,0 Matrix [5, 12, 13], SVMHC SYFPEITHI y SVMHC MHCPEP [14], ligando HLA [15 ], Predep [16], SMM [2], MHCPred (posición) y MHCPred (interacciones) [17, 18], Multipred Hmm y Multipred ANN [19 - 21], ARB Matrix [7], y un logístico local aplicado regresión herramienta basada en [22].

Creación de una colección de péptidos para evaluar el desempeño predictivo de cada una de las herramientas

Predicción de péptidos vinculantes fue evaluada por tres alelos diferentes: HLA-A * 0201, HLA-B * 3501, y H-2Kd. Estos alelos difieren sustancialmente en el número de herramientas disponibles que hacer predicciones para ellos: todos los de las citadas herramientas para predecir HLA-A * 0201, once hacer predicciones para HLA-B * 3501, y sólo cuatro para predecir H-2Kd. Por lo tanto, estos alelos se seleccionará de forma que el desempeño de nuestro combinado herramienta (HBM) y análisis lineal discriminante (LDA) podría evaluarse en diferentes números de los distintos instrumentos están empleados.

Dos fuentes de datos fueron utilizados para el análisis comparativo de herramientas de predicción en este estudio. La primera fue la comunidad vinculante de recursos [6], una gran parte, ha publicado recientemente una base de datos con determinado experimentalmente los valores de afinidad para la unión de péptidos a diferentes MHC-I alelos. Este conjunto de datos de los ensayos péptidos podría ser ampliado mediante la incorporación de nuevas peptidos de bases de datos en línea, tales como SYFPEITHI [11], MHCPEP [23], ligando HLA [15], y EPIMHC [24]. Sin embargo, el uso de estas últimas bases de datos en línea presenta un problema para el actual estudio. Como los modelos existentes en muchas herramientas de predicción fueron entrenados utilizando datos procedentes de estos últimos las bases de datos, las posteriores pruebas de los distintos instrumentos con estos mismos péptidos puede dar lugar a una incorrecta estimación de cada una de las herramientas de predicción del rendimiento. Por ejemplo, una herramienta que puede considerarse mejor que la herramienta B simplemente porque era una herramienta de formación utilizando la misma péptidos con la que se puso a prueba, mientras que la herramienta B no lo era. Como combinar los resultados de los instrumentos individuales se basa en una evaluación precisa del rendimiento de cada instrumento, es necesario evitar el uso de péptidos con que el individuo herramientas han sido capacitados. Por lo tanto, hemos utilizado sólo la comunidad vinculante recurso como fuente de nuestra afinidad vinculante datos. Sólo péptidos de longitud 9 fueron considerados, porque todas las herramientas para hacer predicciones péptidos de longitud este. Péptidos con IC 50 <500 nM fueron clasificados como aglutinantes, mientras que los que tienen IC 50> 500 nm fueron clasificados como nonbinders. En total, hubo 1184 carpetas y 1905 no aglutinantes para HLA-A * 0201, 211 carpetas y 525 nonbinders para HLA-A * 3501, y 60 carpetas y 116 a nonbinders H-2Kd.

A efectos de comparación, las herramientas también fueron probados mediante un conjunto de datos independiente que consta de péptidos se reunieron sólo de literatura publicada [25 - 33]. Una vez más, sólo se eligieron nonamers. Clasificar un determinado péptido como una carpeta o un nonbinder se realizó de la siguiente manera: si los valores de CI 50 se informó (como en la comunidad de base de datos de carácter vinculante y la mayoría de las fuentes de la literatura), entonces la norma vinculante umbral de 500 nm se utilizó, cuando algún otro tipo de ensayo se realizó para determinar afinidad, como la clasificación obtenida por los autores fue utilizado. En este último caso, si no se le dio la clasificación de los autores, los péptidos no se utilizaron. Por último, para evitar el sesgo en los datos, péptidos fueron filtradas de tal manera que cuando dos péptidos difieren en menos de dos residuos, un péptido fue eliminado al azar. El conjunto de datos resultante consta de 108 carpetas y 108 nonbinders para HLA-A * 0201, y se les da a ficheros adicionales 1. Debido a la escasez de datos publicados, no es posible construir bases de datos similares para HLA-B * 3501 o H-2Kd.

Medidas de la ejecución

Encuadernación programas de predicción numérica dar una puntuación a cada considera péptido. Cada Resultado pueden convertirse en un binario predicción comparando contra una herramienta de umbral específico - si la puntuación es igual o mayor, entonces el péptido es una carpeta previsto, de lo contrario, se trata de un predijo nonbinder.

La sensibilidad es la proporción de determinado experimentalmente aglutinantes que se pronostica como aglutinantes y se define como verdaderos positivos / (verdaderos positivos + falsos negativos). La especificidad es la proporción de determinado experimentalmente nonbinders que se pronostica como nonbinders, y se define como un resultado negativo / (verdaderos negativos + falsos positivos). La forma tradicional de medir el desempeño de un clasificador es utilizar un receptor de funcionamiento característico (ROC) curva. Sin embargo, las curvas ROC no siempre dan una buena medida de utilidad práctica. Para un investigador de escaneado un gran potencial para el proteoma epítopos, la especificidad puede ser mucho más importante que la sensibilidad. Imagine un escaneo proteoma que consta de 10000 superposición nonamers, 50 de los cuales (sin conocimiento del experimentador) son buenos para los aglutinantes MHC-I alelo de interés. Considere además que una herramienta de predicción tiene 0,70 a 0,80 sensibilidad especificidad y sensibilidad de 0,05 a 0,99 especificidad.

Herramienta B tiene 0,50 a 0,80 sensibilidad y especificidad de 0,20 a 0,99 sensibilidad especificidad. Si bien las herramientas A y B puede tener la misma área bajo la curva ROC (ROC), una herramienta es superior a 0,80 y especificidad herramienta de B es superior a 0,99 especificidad. Si una herramienta se utiliza en un umbral correspondiente a 0,80 especificidad, luego de aproximadamente 2000 péptidos deben ser probadas con el fin de encontrar 35 de la alta afinidad de unión. Por el contrario, si B herramienta se utiliza en un umbral correspondiente a 0,99 especificidad, sólo alrededor de 100 péptidos tendrán que ser probados con el fin de encontrar 10 de la alta afinidad de unión. Debido al alto costo de las pruebas experimentales, y puesto que el conocimiento de todas las carpetas en un determinado proteoma no suele ser necesario, esta última hipótesis sería preferible. Por lo tanto, concluir que una buena sensibilidad a muy alta especificidad es una medida práctica más de una herramienta de utilidad que el ROC un valor, y por lo tanto, han utilizado la sensibilidad a los valores de alta especificidad como el principal asesor de la utilidad práctica de cada instrumento. Para completarlo, sin embargo, también incluyen la herramienta de cada una ROC valor.

La combinación de las puntuaciones de cada uno de los instrumentos

Se propone una heurística basada en el método (MCS) para combinar los resultados individuales de herramientas de predicción para hacer una mejor predicción. Este método tiene la ventaja de la observación de que la mayor parte de los distintos instrumentos que muy pocos falsos positivos cuando las predicciones umbral de la clasificación se establece suficientemente alto, pero correlativamente hacer algunas predicciones de los positivos. Si las herramientas de identificar diferentes aglutinantes real, la combinación de esas predicciones pueden resultar en un mayor número de rrue positivos. El método también intenta sacar provecho de la "sabiduría colectiva" de un grupo de herramientas de predicción. El individuo herramientas se basan en una variedad de técnicas. En lugar de tratar de encontrar la "mejor" técnica, tratamos de combinar lo mejor que cada técnica tiene que ofrecer. Esta es una extensión de la idea de predicción utiliza herramientas como MULTIPRED [19], que combinan las predicciones realizadas por algunos métodos.

Nuestra propuesta combinada herramienta de predicción ( "HBM") toma una secuencia de proteínas como de entrada, todas las preguntas de cada uno de herramientas de predicción recibiendo de cada predijo la afinidad de todos los nonamers en el contenido de proteínas, calcula una combinación de puntuación de cada nonamer, y, por último, predice aglutinantes basa en la combinación de resultados para todos los nonamers. La herramienta se implementa como un script en Perl.

El primer paso en nuestro HBM es seleccionar una especificidad para los distintos instrumentos. Cada herramienta es entonces ponderada en función de su sensibilidad en esa especificidad. A continuación, la puntuación dada a cada péptido de una determinada herramienta de predicción se compara con la herramienta específica de valor umbral para que la especificidad. Si la puntuación es superior o igual al umbral de puntuación, entonces la herramienta que predice el péptido como una carpeta, y el peso (sensibilidad a la especificidad elegido) para que la herramienta se añadirá a la puntuación total para el péptido. De lo contrario, el péptido de la puntuación total se mantiene sin cambios. Por péptido x y cada herramienta de predicción t, hemos

CombinedScore ( x ) = Σ t B t ( x ) W t ( 1 ) MathType MTEF @ @ @ 5 + 5 = @ feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqqGdbWqcqqGVbWBcqqGTbqBcqqGIbGycqqGPbqAcqqGUbGBcqqGLbqzcqqGKbazcqqGtbWucqqGJbWycqqGVbWBcqqGYbGCcqqGLbqzcqGGOaakcqWG4baEcqGGPaqkcqGH9aqpdaaeqbqaaiabdkeacnaaBaaaleaacqWG0baDaeqaaOGaeiikaGIaemiEaGNaeiykaKIaem4vaC1aaSbaaSqaaiabdsha0bqabaaabaGaemiDaqhabeqdcqGHris5aOGaaCzcaiaaxMaadaqadaqaaiabigdaXaGaayjkaiaawMcaaaaa @ @ 51F5

donde B t (x) es 1 si x péptido se prevé obligar a la herramienta de t y 0 en caso contrario, y W t es el peso del instrumento t. CombinedScore (x) A continuación, se compara a un umbral con el fin de clasificar x como bien predijo una carpeta o un predijo nonbinder.

El desempeño de la HBM se determinó a través de 10 veces validación cruzada: en cada pliegue, el 90% de los péptidos (la "formación péptidos") fueron utilizados para determinar las actuaciones de los distintos instrumentos, y estos datos de rendimiento son utilizados por el HBM, tal como se describe más arriba para hacer predicciones para el 10% restante (el "testing péptidos"). Cada péptido fue utilizado como campo de pruebas péptido exactamente una vez. Las puntuaciones dadas a cada péptido pruebas fueron utilizadas para calcular la sensibilidad y especificidad, valores para el HBM en la misma forma en que se describen para cada uno de los instrumentos. Para minimizar el error experimental debido al azar de particionamiento de los péptidos en la formación y las pruebas, por supuesto, todo el proceso descrito anteriormente se repitió diez veces, y el HBM sensibilidad a cada especificidad se considera el promedio de su sensibilidad en los diez ensayos. Mientras que un ROC se muestran los valores para el individuo y herramientas para la LDA, esos valores no pueden ser computados para el HBM. La razón de ello es que, a cada herramienta de alta especificidad parámetros, la mayoría de péptidos no vinculante HBM obtener una puntuación de cero, y, por tanto, la curva ROC no contiene puntos de especificidades entre 0 y aproximadamente 0.85-0.90.

Comparación técnica

Un método estándar para la combinación de variables que distinguir dos categorías es el análisis discriminante lineal (LDA) [34]. Si y es el vector de resultados de todas las herramientas para un péptido, se clasifican de acuerdo al valor del discriminante lineal

1 - μ 0)-1 y,

donde μ 0 y μ 1 son los vectores de los medios para no epítopos y epítopos, respectivamente, y Σ es la matriz de covarianza media de las puntuaciones en los dos grupos. Este método es óptimo (en el sentido de reducir al mínimo la probabilidad de errores de clasificación) si los resultados tienen una distribución normal multivariada con la misma estructura de covarianza para epítopos y no epítopos. Más sofisticados métodos se han desarrollado sin la hipótesis de normalidad, pero se han planteado dudas acerca de su ventaja [35]. La separación entre los grupos pueden ser cuantificados por

δ 2 = 1 - μ 0)-1 1 - μ 0).

Bajo la hipótesis de la normalidad, si la especificidad se ha fijado en 1 - α, entonces la sensibilidad se

Φ + -1 Φ (α)),

donde Φ es la función de distribución acumulativa (CDF) de la normal distribución. ROC A puede calcularse como Φ / 2 MathType MTEF @ @ @ 5 + 5 = @ feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaadaGcaaqaaiabikdaYaWcbeaaaaa @ @ 2DB9 ). El umbral para la clasificación está determinada por la probabilidad p antes de que un 1 es un péptido epítopo, que se relaciona con la especificidad de

p 1 = [1 + exp (- δ 2 / 2 - δ Φ -1 (α))] -1.

Una serie de herramientas que aparece sobre todo no las distribuciones normales. La mayoría de estos fueron muy desigual, pero se convirtió en una estrecha a la normalidad cuando se transforma en logaritmos. Los resultados de tres herramientas (NetMHC 2,0 ANN, Multipred ANN, y la regresión logística basada en la herramienta) ha sigmoidal distribuciones. Estos se convirtieron en aproximadamente normal al ser convertidos a escala logits. A "logit" es una transformación de una probabilidad p (entre 0 y 1) a log (p / (1 - p)). Para una variable y que está restringida entre a y b, una "escala logit" puede calcularse a través de log ((y - a + ε) / (b - y - δ)), donde ε y δ son pequeños ajustes para evitar ceros. ε = (y - - a) / 2 y δ = (b - y +) / 2, y - y + y ser los más pequeños y más grandes valores observados en mayor o menos que una o b, respectivamente. El rendimiento real de la discriminante lineal en la transformada las puntuaciones se estima a través de diez veces validación cruzada. Los cálculos se realizaron utilizando S-PLUS versión 7.0.0. Las cifras fueron creadas con MATLAB 7.

Con excepción de la H-2Kd de datos, la cruz-validado especificidades cayó por debajo de la nominal. Para darse cuenta de las especificidades de 0,99 y 0,90, el límite se ajustó a un nominal de la especificidad de tal manera que la cruz-fueron validados valores lo más cerca posible de los valores objetivo. La Figura 1 muestra la distribución de la LDA resultados para la comunidad HLA-A * 0201 conjunto de datos. Las líneas diagonales indican los puntos donde se espera un descenso de datos perfectamente normal. Una especificidad de 0,99 corresponde a una línea horizontal de tal manera que el 99% de los epítopos no caer por debajo de esta línea. Debido a la ligera curvatura hacia arriba de la no distribución epítopo, una especificidad nominal de 0,99 no está a la altura de este objetivo, pero el mayor valor nominal de 0.9975 da la correcta umbral. Sobre el 32% de los epítopos LDA dar resultados por encima de este valor. Distribuciones de LDA resultados para el otro son conjuntos de datos en archivos adicionales 2, 3 y 4.

Abreviaturas

LDA - análisis discriminante lineal

HBM - heurístico basado en el método

Conflicto de intereses

Los autores no tienen conflicto de intereses con respecto a este trabajo. En particular, no tienen relación directa con ninguno de los investigadores involucrados con la unión herramientas de predicción estudiado.

Autores de las contribuciones

BT realizó el diseño, la programación de trabajo, y la evaluación de la HBM. MB realizado el análisis lineal discriminante trabajo. AK propuso la idea original, siempre y bioinformática experiencia, han contribuido a la metodología, y supervisó el trabajo. Los tres autores contribuyeron al papel, con una mayoría escrito por BT.

Material complementario
Archivo Adicional 1
Literatura derivados de HLA-A * 0201 aglutinantes y no aglutinantes. Lista de HLA-A * 0201 vinculantes y no vinculantes péptidos obtenidos de la literatura. Los documentos de estos péptidos que se obtuvieron se citan en el texto.
2 ficheros adicionales
HLA-B * 3501 LDA QQ parcela. QQ trama que muestra la distribución de LDA resultados para la H-2Kd de datos de la comunidad vinculante de recursos. El eje horizontal se ha reducido a la normalidad, según las probabilidades, de modo que los puntos de una variable normalmente distribuida caería a lo largo de una línea recta (que se muestra en azul). Las puntuaciones situadas por encima de los umbrales indicados se clasificarían como epítopos. La cuenta de la sensibilidad de 0,44 para una especificidad de 0,95 como se indica la proporción de epítopos cuyos resultados se encuentran por encima del umbral de 0,95. De los cuatro conjuntos de datos utilizados, éste se desvía más fuertemente de la normalidad.
3 ficheros adicionales
H-LDA 2Kd QQ parcela. QQ trama que muestra la distribución de LDA resultados para la H-2Kd de datos de la comunidad vinculante de recursos. El eje horizontal se ha reducido a la normalidad, según las probabilidades, de modo que los puntos de una variable normalmente distribuida caería a lo largo de una línea recta (que se muestra en azul). Las puntuaciones situadas por encima de los umbrales indicados se clasificarían como epítopos. La cuenta de la sensibilidad de 0,42 para una especificidad de 0,99 como se indica la proporción de epítopos cuyos resultados se encuentran por encima del umbral de 0,99. Sólo los valores nominales de especificidad se utilizan, desde la que coinciden o son mejores.
4 de ficheros adicionales
HLA-A * 0201 (literatura) LDA QQ parcela. QQ trama que muestra la distribución de LDA puntuaciones de los HLA-A * 0201 de datos derivados de la literatura. El eje horizontal se ha reducido a la normalidad, según las probabilidades, de modo que los puntos de una variable normalmente distribuida caería a lo largo de una línea recta (que se muestra en azul). Las puntuaciones situadas por encima de los umbrales indicados se clasificarían como epítopos. La cuenta de la sensibilidad de 0,33 para una especificidad de 0,95 como se indica la proporción de epítopos cuyos resultados se encuentran por encima del umbral de 0,95. De los cuatro conjuntos de datos utilizada, ésta se adapte mejor a la hipótesis de normalidad.
Agradecimientos

La financiación fue proporcionada por la de Ciencias Naturales e Ingeniería de Investigación de Canadá (NSERC).