Immunome Research, 2007; 3: 1-1 (más artículos en esta revista)

Base de datos de secuencias de proteínas patógenas para los Arenavirus

BioMed Central
Huynh-Hoa Bui (hbui@liai.org) [1], Jason Botten (jbotten@scripps.edu) [2], Nicolas Fusseder (fusseder@liai.org) [1], Valerie Pasquetto (valerie@liai.org) [1], Bianca Mothe (bmothe@csusm.edu) [3], Michael J Buchmeier (buchm@scripps.edu) [2], Alessandro Sette (alex@liai.org) [1]
[1] La Jolla Institute for Allergy and Immunology, División de Vacunas Discovery, 9420 Círculo de Athena, La Jolla, CA 92037, EE.UU.
[2] El Instituto de Investigación Scripps, Molecular y Neurociencias Departamento Integrativa, 10550 North Torrey Pines Road, La Jolla, CA 92037, EE.UU.
[3] Universidad Estatal de California, Departamento de Biología, San Marcos, CA 92096, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Arenavirus son una familia de roedores-virus que causan las fiebres hemorrágicas varios. Estas enfermedades pueden ser devastadoras y son a menudo letales. Aquí, para ayudar en el diseño y desarrollo de diagnósticos, vacunas y tratamientos para infecciones por arenavirus, hemos desarrollado una base de datos que contiene las secuencias de proteínas de los siete patógenos Arenavirus (Junín, Guanarito, Sabia, Machupo, Whitewater Arroyo, Lassa y LCMV).

Resultados

La base de datos contiene actualmente no redundante conjunto de 333 secuencias de proteínas que fueron anotados manualmente. Todas las entradas estaban vinculados a NCBI y referencias citadas en PubMed. La base de datos tiene un cómodo interfaz incluida la consulta de búsqueda BLAST. Secuencia de la variabilidad del análisis se realizaron y los resultados son acogidos en la base de datos.

Conclusión

La base de datos está disponible en http://epitope.liai.org:8080/projects/arena y puede utilizarse para la ayuda en los estudios proteómicos que requieren información de patógenos Arenavirus.

Fondo

Arenaviridae son una familia de virus, cuyos miembros están relacionados con los roedores de transmisión de enfermedades en los seres humanos. Cada virus por lo general se asocia con una especie de roedores de acogida en la que se mantiene. Arenavirus infecciones, se producen cuando una persona entra en contacto con las excreciones de roedores infectados, son relativamente comunes en los seres humanos en algunas áreas del mundo y sobre todo causa las fiebres hemorrágicas, incluyendo la fiebre de Lassa (LF; virus Lassa), fiebre hemorrágica argentina (AHF ; Virus Junín), fiebre hemorrágica boliviana (BHF; Machupo virus), fiebre hemorrágica de Venezuela (VHF; Guanarito virus) y la fiebre hemorrágica de Brasil (BrHF; Sabia virus) [1 - 6]. Estas enfermedades pueden ser devastadores y, a menudo letal. Coriomeningitis linfocítica virus (LCMV), un conocido teratógena humanos, puede causar meningitis aséptica [7 - 9], y Whitewater Arroyo Virus (WWA) ha sido recientemente atribuidas a dos muertes en California [10, 11].

El Arenavirus se pueden clasificar en filogenéticamente Viejo Mundo (que incluye LCMV y el virus de Lassa) y el Nuevo Mundo; este último grupo se ha dividido en tres linajes, AC [12, 13]. Con excepción de la Academia Mundial virus que pertenece a un linaje, los cuatro más patógena Nuevo Mundo agentes (Junin, Machupo, Guanarito y Sabia virus) todos pertenecen a linaje B, lo que sugiere que el fenotipo de alta patogenicidad pueden derivar de un virus ancestral común [12, 14 ]. Todos estos virus de causar una significativa morbilidad y mortalidad. Lassa y el virus de la fiebre hemorrágica otros Arenavirus (Junin, Machupo, Guanarito y Sabia) se incluyen en la categoría A de bioterrorismo potencial microbiana armas [15].

Actualmente, no hay virus de tratamientos específicos aprobados para su uso contra las fiebres hemorrágicas arenavirus. La ribavirina es el único compuesto que ha demostrado eficacia parcial en contra de algunas infecciones por arenavirus [16] (con éxito contra las infecciones humanas Lassa sólo si se le da dentro de la primera semana tras la aparición de enfermedades [17]], y hasta la fecha sólo una vacuna (contra la AHF) ha sido evaluados en los seres humanos [2]. Debido a su severa morbilidad y mortalidad de alta junto con la falta de vacunación o tratamiento eficaz, los científicos e investigadores se ven desafiados con el desarrollo de contención, tratamiento y estrategias para la vacuna contra la infección por arenavirus. A los efectos de elaborar los reactivos de diagnóstico y el diseño de vacunas nuevas construcciones, nuestro grupo ha venido realizando estudios activa en la identificación de MHC de clase I y II restringido epítopos de células T patógenas de los Arenavirus. Como un componente de los estudios, hemos recopilado y desarrollado una base de datos de secuencias de proteínas para los siete Arenavirus (Lassa, LCMV, Junín, Guanarito, Sabia, Machupo y Academia Mundial) se sabe que causan enfermedades en los seres humanos. En ello, hacemos esta base de datos disponible como un recurso público para ayudar en los estudios proteómicos que requieren información de patógenos Arenavirus.

Construcción y contenido

Arenaviridae se envolvió con un virus genoma consta de dos una sola hundidos ARN, el pequeño (S) y los grandes (L), los segmentos. Cada segmento codifica dos proteínas. El S RNA codifica la proteína de nucleocápsida (NP) y la glicoproteína precursor (GPC) que se somete a post-translacional de procesamiento para producir dos proteínas maduras (GP1 y GP2) [18]. El L codifica el ARN viral RNA-dependiente del RNA polimerasa (L) y una de zinc vinculante proteína matriz (Z) [19, 20]. Estas cuatro proteínas (GPC, L, NP y Z), son los objetivos de recogida de nuestra base de datos.

El proceso de compilación arenaviral secuencias de proteínas para la base de datos incluye 1) la recuperación publicado secuencias de NCBI, 2) al analizar la secuencia de la información, 3) verificar manualmente la información y realizar anotaciones adicionales, y 4) la eliminación de la duplicación de entradas. Un diagrama esquemático de este proceso se muestra en la Figura 1. MySQL fue utilizado como el motor de base de datos de almacenamiento, Tomcat como servidor web, servlets de Java y se utilizaron para desarrollar la interfaz web.

Para obtener las secuencias de proteínas codificadas por los siete patógenos Arenavirus, primero buscaron la base de datos NCBI a través de la utilización de un programa informático automatizado desarrollado en nuestro laboratorio. Este programa fue escrito para: (1) búsqueda de identificadores de secuencia de proteínas, (2) recuperar los registros de secuencias de proteínas y (3) analizar los registros anotados en los campos. En primer lugar, la secuencia de proteínas ID (número GI) fueron recuperados a través de un NCBI NVESTIGACIÓN programación utilidad NCBI utilizando la taxonomía como identificadores de los parámetros de la búsqueda. A continuación, los números de GI se utiliza para recuperar registros de secuencia de proteínas en la GenPept formato. "NCBISequenceDB" clase java de biojava 1,4 paquete se utilizó para recuperar la forma programada GenPept secuencia de registros. Por último, una clase java personalizada fue escrito para analizar cada expediente anotado en campos que incluyen proteínas secuencia de datos, fuente de referencias, virus, la cepa y el nombre de genes.

Utilizando el programa automatizado, 525 secuencias de proteínas se recuperaron de NCBI. A continuación, la secuencia de verificación de autenticidad se realizó a través de apoyo a publicaciones y / o resúmenes escritos. Por último, realizamos manual alineamientos de secuencias de proteínas para identificar y eliminar duplicaciones. De las 525 secuencias de proteínas de la cohorte inicial, un total de 333 secuencias de la proteína única de una o varias cepas de los siete arenavirus patógenos virus fueron obtenidos (Cuadro 1]. En la actualidad, la proteína Z secuencia no ha sido publicado por la Academia Mundial virus. Como resultado del renovado interés en los Arenavirus, podemos anticipar que un mayor número de secuencias de proteínas se dispondrá en un futuro próximo. Tenemos previsto un seguimiento periódico a la literatura científica y la base de datos NCBI nueva secuencia para las deposiciones, y actualizar nuestra base de datos en consecuencia.

Utilidad y debate
Arenavirus anotación de secuencias de proteínas

Para maximizar la utilidad de los arenavirus base de datos de secuencias de proteínas a la comunidad científica, cada registro fue anotado con información específica, incluyendo el anfitrión y región geográfica de que cada secuencia de la proteína se aisló y el paso de cada historia cepas víricas entre el original de su aislamiento natural de acogida y el momento en que fue secuenciado. La inclusión de la acogida que cada secuencia de la proteína se aisló de es de importancia potencial en el examen de los estudios específicos de acogida de origen inmunológico de presión o de acogida-viral adaptaciones específicas. La inclusión, en su caso, de la región geográfica es pertinente para determinar si las cepas virales disponibles están representados en los lugares endémicos. Por último, el paso de la historia de cada cepa es pertinente en el contexto de los altos índices de mutación asociada con estos virus ARN y las posibilidades de cambios genéticos que se acumulan como resultado de la in vitro paso. Las mutaciones generadas como resultado de pasaje viral en el depósito no animales o líneas de células no sería representante de la variación natural presente en el campo clínico o cepas. Todas las anotaciones se obtuvo información recopilada a través de publicaciones y / oa través de correspondencia directa con los autores de una determinada secuencia de proteínas. La mayoría de secuencias de proteínas derivadas de infecciones humanas, mientras que el resto de las muestras procedían de reservorio natural de roedores infectados. Universalmente, cada uno de los virus secuenciado antes de 2002 se propagó a Vero E6 o líneas de células BHK antes de la secuenciación del genoma viral.

Interfaz de búsqueda

Los arenavirus secuencia de la proteína base de datos tiene una interfaz de búsqueda que permite consultar de virus, la cepa y los nombres de proteína (Figura 2]. Todas las entradas en la base de datos están relacionados con los registros originales NCBI y referencias citadas en PubMed (si está disponible). Además, una herramienta de utilidad es a condición de que también permite la búsqueda de arenavirus que contienen secuencias específicas de péptidos o epítopo secuencias (Figura 3]. Por ejemplo, esto permitiría a los investigadores a determinar rápidamente si se conoce epítopes expresados por arenavirus diferentes cepas y especies. Esta información podría ser utilizada para desarrollar arenaviral epítopo basado en el diagnóstico y / o vacuna contra la construye. Una búsqueda BLAST También se llevó a cabo permitiendo a los usuarios la búsqueda de secuencias similares contenidos en la base de datos (Figura 4].

Arenavirus variabilidad de secuencias de proteínas análisis

El uso de las secuencias en esta base de datos, seguir investigando la proteína arenaviral secuencia de conservación / variabilidad. Nuestro objetivo fue identificar variables conservadas o regiones que se podrían asignar para el desarrollo de una vacuna universal arenaviral o diagnósticos, respectivamente. Para ello, hemos realizado múltiples secuencia de alineaciones y entropía análisis entre las distintas cepas de un virus y entre los distintos virus.

Múltiples secuencia de alineaciones se realizaron mediante el programa CLUSTAL W [21] utilizando los parámetros por defecto. Para estimar la diversidad múltiple de secuencias de proteínas alineación, la entropía de Shannon (H) se calculó mediante la ecuación 1 [22]:

H = -- Σ i = 1 M P i log 2 P i ( 1 ) MathType MTEF @ @ @ 5 + 5 = @ feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqqGibascqGH9aqpcqGHsisldaaeWbqaaiabdcfaqnaaBaaaleaacqWGPbqAaeqaaOGagiiBaWMaei4Ba8Maei4zaC2aaSbaaSqaaiabikdaYaqabaGccqWGqbaucqWGPbqAaSqaaiabdMgaPjabg2da9iabigdaXaqaaiabd2eanbqdcqGHris5aOGaaCzcaiaaxMaadaqadaqaaiabigdaXaGaayjkaiaawMcaaaaa @ @ 44B7

donde P i es la fracción de residuos de aminoácidos tipo i, y M es el número de tipos de aminoácidos (20). H oscila entre 0 (sólo un residuo en la actualidad en esa posición) a 4.322 (todos los residuos de 20 están representados por igual en esa posición). Normalmente, las posiciones con H ≥ 2,0 se consideran variables, mientras que aquellos con H ≤ 2 se consideran de conservación. Altamente conservadas son las posiciones con H ≤ 1,0 [23].

Entropía de Shannon análisis de secuencias de proteínas contenidas en nuestra base de datos indica que las secuencias de proteínas arenavirus son bastante conservadas entre las distintas cepas del mismo virus, pero no tanto entre los distintos virus. Esto es coherente con la opinión de que los Arenavirus son relativamente estables genéticamente con secuencia de aminoácidos homologías de 90-95% entre las diferentes cepas de virus de la misma especie y de 44-63% de proteínas homólogas de diferentes especies arenavirus [24]. Como resultado de ello, para desarrollar una vacuna universal contra diferentes Arenavirus, un constructo que contiene epítopos conservados dentro de cada virus se debe utilizar. A los efectos de elaborar diagnósticos, sin embargo, epítopos derivados de la falta de regiones conservadas serían excelentes candidatos.

Las más importantes son las proteínas arenaviral NP y GPC, y la NP proteínas se conocen como la más conservada entre los Arenavirus. Nuestro análisis de la entropía también reveló que el PN tiene una proteína muy distinta entre los virus región conservada entre los residuos 1-310 con media H ≈ 0,5 (Figura 5]. Otra distinta es región conservada en la GPC proteína entre los residuos 290-500 (Figura 6]. Como resultado de ello, epítopos derivados de estas regiones tienen alta probabilidad de ser de reacción cruzada entre los diferentes Arenavirus. En contraste con regiones conservadas a largo observado en el NP y GPC proteínas, y la L Z proteínas tienen mucho más corto entre el virus de regiones conservadas que podrían estar relacionados con las proteínas "comparte homología funcional.

Como curada en la base de datos de Inmunodeficiencia epítopo (IEDB) [25, 26] y en el momento de este análisis, epítopos derivados de los Arenavirus (principalmente de Lassa y LCMV), fueron exclusivamente de NP y GPC proteínas. La mayoría de estos epítopes del ratón se MHC de clase I restringidos y localizados en la regiones conservadas de NP y GPC proteínas (datos no presentados). Esto indica que el identificado epítopos de células T de NP y GPC proteínas pueden cruzar una reacción entre las distintas especies arenavirus. Sin embargo, si estos ratón MHC restringida epítopos también se reactiva en el ser humano aún no se ha validado experimentalmente. Cabe señalar aquí que la falta de L y Z epítopos derivados, según se informa en IEDB, puede implicar que la curación es incompleta o es más probable que los estudios no han sido todavía realizado para buscar epítopos en estas proteínas.

Conclusión

En conclusión, la base de datos desarrollado aquí, a nuestro entender, es el único recurso público que proporciona una no-redundante conjunto completo de secuencias de proteínas virales para los siete altamente patógena Arenavirus. Estas secuencias de la proteína puede ser utilizado para epítopo descubrimiento estudios, y sus anotaciones son muy pertinentes para su consideración en la compleja tarea de elaborar diagnósticos y / o vacunas. En otro aspecto, esta base de datos sería también un recurso útil para los científicos para investigar la función de secuencia de conservación de las relaciones entre los Arenavirus.

Disponibilidad y requisitos

Nombre del proyecto: arenavirus base de datos de secuencias de proteínas

Página principal del proyecto: http://epitope.liai.org:8080/projects/arena

Lenguaje de programación: Java

Sistema operativo: Fedora Linux

Otros requisitos: Apache Tomcat 5.5.12, MySQL 4,1, Firefox versión 1,5 o superior

Licencia: Ninguno

Lista de abreviaturas utilizadas

AHF: fiebre hemorrágica argentina

BHF: fiebre hemorrágica boliviana

BrHF: Brasil fiebre hemorrágica

GPC: la glucoproteína

IEDB: inmune epítopo base de datos y análisis de recursos

LCMV: Coriomeningitis linfocítica virus

LF: Fiebre de Lassa

MHC: complejo mayor de histocompatibilidad

NCBI: Centro Nacional de Biotecnología información

NP: Nucleoprotein

VHF: fiebre hemorrágica venezolana

Academia Mundial: Whitewater Arroyo

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

HHB desarrollado la base de datos y se lleva a cabo análisis de la variabilidad de secuencias. JB manualmente anotada de las secuencias. NF programado la interfaz web. HHB, JB y como escribió el manuscrito. Todos los autores participaron en los debates, examinado y aprobado la versión final manuscrito.

Agradecimientos

Esta labor fue apoyada por los Institutos Nacionales de Salud del contrato HHSN266200400023C (clase I y clase II restringidos epítopos de una muestra representativa de los diferentes arenavirus especies patógenas en humanos), NIH AI50840 subvenciones a MB, T32 AI07354 y F32 AI056827 a JB, y Kirin División farmacéutica. Esto es LIAI publicación número 820.