BMC Bioinformatics, 2005; 6: 98-98 (más artículos en esta revista)

ProGenExpress: Visualización de datos cuantitativos sobre los genomas procariótico

BioMed Central
Michael Watson (michael.watson @ bbsrc.ac.uk) [1]
[1] Institute for Animal Health, Compton laboratorio, la calle Alta, Compton, Newbury, RG20 7NN, UK

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

La integración de la información genómica con cuantitativo de los datos experimentales, es un componente clave de la biología de sistemas. Un número creciente de genomas microbianos están siendo secuenciados, la creación de una mayor cantidad de datos de la post-genómica tecnologías. Los genomas de procariotas contienen muchas estructuras de interés, como operones, patogenicidad y prophage secuencias de las islas, cuyo comportamiento es de interés durante la infección y la enfermedad. Existe la necesidad de nuevas herramientas y sencilla para mostrar y analizar los datos de estos conjuntos de datos integrados, y hemos desarrollado ProGenExpress como una herramienta de visualización de datos numéricos complejos arbitrariamente en el contexto de procariótico genomas.

Resultados

Aquí describimos ProGenExpress, un R paquete que permite a los investigadores visualizar fácilmente y rápidamente mediciones cuantitativas, tales como los producidos por los experimentos de microarrays, en el contexto de la organización del genoma de procariotas secuenciado. Los datos de microarrays, la proteómica y la de todo el genoma de otras tecnologías pueden ser mostradas con precisión sobre el genoma. ProGenExpress también pueden buscar nuevas regiones de interés que consisten en grupos de genes adyacentes que muestran patrones similares en todo el conjunto de datos experimentales. Demostramos ProGenExpress microarray con los datos de un supuesto experimento tiempo de la participación de Salmonella typhimurium.

Conclusión

ProGenExpress puede utilizarse para visualizar los datos cuantitativos de experimentos complejos en el contexto de la secuencia del genoma de los procariotas, y para encontrar nuevas regiones de interés.

Antecedentes

Los genomas de los organismos procariótico contienen muchas estructuras que pudieran estar implicados en la patogenicidad, que incluyen una variedad de operones, patogenicidad islas y prophage secuencias. Operones adyacentes son conjuntos de genes en las bacterias que forman una única unidad transcripcional, y muchos, como los flagelos de codificación [1] o [2] fimbrias, han estado implicados en la patogenicidad. Patogenicidad islas son distintas regiones del genoma que confieren virulencia a la acogida, y se encuentran en muchos de los patógenos humanos, animales y plantas, y por lo menos diez patogenicidad islas se han identificado en Salmonella solas [3]. Prophage representan secuencias de los cromosomas de bacteriófago integrado como parte del genoma de la bacteria huésped, y también han sido implicados en la patogenicidad en varias especies [4].

Con el fin de estudiar el comportamiento de estos elementos, es fundamental para integrar la información sobre la estructura del genoma de un organismo con mediciones cuantitativas después de los producidos por las tecnologías de genómica, como los de experimentos de microarrays o proteómica. Este enfoque integrador biología es una característica clave de la biología de sistemas. Estudiar el comportamiento de estos elementos genómicos, y otros grupos de genes adyacentes, durante la infección y la enfermedad puede revelar información importante acerca de los mecanismos moleculares subyacentes a la patogenicidad.

Varios genoma microbiano televidentes se han elaborado datos cuantitativos que permiten que se muestre en el genoma. La genómica microbiana Viewer [5] ofrece una buena solución en línea, sin embargo los usuarios deben instalar un plug-in del navegador y no se sienten cómodos transmisión de datos a través de Internet. GenoMap [6] se puede utilizar para crear parcelas de los microarrays de datos sobre los genomas microbianos, , Y está disponible como Tcl / CT código fuente. Genome2D [7] también ofrece una buena visualización de los datos cuantitativos sobre genomas microbianos, pero se limita al sistema operativo Windows. Por último, GenomeViz [8], ha sido puesto en libertad recientemente, que ofrece mucha funcionalidad, incluyendo la visualización de los datos cuantitativos, el genoma alineaciones y GC contenido. Sin embargo, este software se limita actualmente a los sistemas basados en Unix. Todas estas soluciones se ve limitada en dos aspectos. En primer lugar, los valores cuantitativos se representan como un color de la escala, lo que reduce la exactitud de los datos y que puedan presentar problemas en la comparación de un color a otro. En segundo lugar, por encima de las herramientas sólo pueden mostrar un valor único para cada gen, lo que impide la visualización de los datos más complejos, como por ejemplo un curso de duración experimento.

Aplicación

ProGenExpress es liberado como un paquete de R. R es una libre disposición, de código abierto paquete estadístico [9] que se utiliza ampliamente en la comunidad biológica. R tiene muy potentes capacidades gráficas y estadísticas, y muchos adicionales de los paquetes son de libre acceso. El bioconductor proyecto [10, 11] proporciona un gran número de paquete agregado de la I, que abarca una amplia gama de aplicaciones de análisis de datos biológicos, y la aplicación de ProGenExpress en R proporciona una integración sin problemas con muchos de estos paquetes. ProGenExpress está escrito en el idioma nativo R, y ha sido completamente probado en las dos ventanas y linux. R está disponible para windows, linux, unix y MacOS (incluyendo MacOS X).

Resultados y discusión

ProGenExpress ha sido escrito para permitir a los investigadores a rápidamente y simplemente visualizar el comportamiento de las regiones de los genomas bacterianos cualquier tamaño durante todo el genoma experimentos usando tecnologías, tales como experimentos de microarrays o proteómica. Para obtener información referente a la organización del genoma de los procariotas, ProGenExpress incluye funciones para la descarga y lectura tanto NCBI. Ptt archivos, que describen la ubicación de genes de codificación de proteínas en las bacterias en forma de cuadros, e incluyen enlaces a la base de datos COGs [12], y Todo el genoma RefSeq entradas [13]. Para el cuantitativo de los datos experimentales, ProGenExpress pueden usar los objetos creados por muchos de los paquetes de la bioconductor proyecto [10, 11], o de los datos importados en la I de archivos de texto, bases de datos SQL y Excel.

En este momento hay 225 procariótico genomas terminó en RefSeq [15] que ProGenExpress puede leer, y aunque la utilidad de ProGenExpress se demuestra aquí utilizando microarrays de datos, todo tipo de datos numéricos que pueden estar relacionadas con los genes de los organismos procariótico puede visualizarse mediante ProGenExpress . En caso de que las medidas de la significación estadística de los datos de cada gen se encuentran disponibles, estas se pueden pasar a las funciones de ploteo ProGenExpress, con el resultado de que los genes que no son significativas se dibujan en blanco y los que son significativos se dibujan los En el trazado de su color normal.

El genoma está representado como dos barplots, uno para cada capítulo. Cada gen tiene una serie de barras igual al número de conjuntos de datos experimentales para estimar los posibles tiempo de curso o compleja cepa / tratamiento de los experimentos que se trazan. La distancia entre las barras de cada gen es representante de intergénicas distancia. Las rebanadas del genoma se puede seleccionar, ya sea por rango base, sinónimo gen o genes nombre. Tanto horizontal como vertical parcelas son posibles, y las barras de color puede ser numérico, ya sea por valor o por COGs [12] categoría funcional.

El software se demuestra aquí utilizando microarrays datos de Eriksson et al [14]. Este conjunto de datos consiste en la expresión de genes de las mediciones intracelulares Salmonella typhimurium en el 4, 8 y 12 horas después de la infección de macrófagos murinos. La expresión de genes valores se calcularon como el relativo nivel de expresión del ARN para que la prueba de RNA de las bacterias cultivadas in vitro, y los datos se ha centrado y se normalizaron según Eriksson et al [14]. Los datos de Erikson et al está disponible como una hoja de cálculo [14]. Esta hoja de cálculo se pre-procesado para contener sólo las columnas para sinónimo de genes, de genes nombre y relativo nivel de expresión de ARN de ensayo para el control de ARN en una escala log 2 para cada uno de los tres momentos. La hoja de cálculo se ha guardado con el texto delimitado por tabuladores y leerse a la I utilizando la función read.table (). El S typhimurium genoma y las secuencias de plásmido se lee en al R utilizando el read.ptt (), con RefSeq archivos NC_003197.ptt y NC_003277.ptt respectivamente. El microarray de datos está vinculada a los datos de localización de genes utilizando el linkem.avg (). Imágenes de los microarrays de datos sobre el genoma en su totalidad y el plásmido fueron generados utilizando el plotrange () () plotrange.vertical y funciones en relación con el jpeg (), una función de I interna. Los resultados fueron vistos en el Internet Explorer. Por último, el find.region () se utilizó para encontrar las regiones de interés, como se describe a continuación.

La figura 1 muestra la expresión de todos los genes de Salmonella typhimurium LT2 pSLT plásmido, de color COGs por categoría funcional. La mayoría de los genes de este plásmido están regulados en los tres puntos de tiempo, lo que implica una función para este plásmido macrófagos durante la infección. La figura 2 muestra una pequeña región del genoma que contiene el fli operón, con todos los genes en el operón mostrando similares perfiles de expresión. Erikksson et al [14] encontraron 919 genes que se expresó significativamente diferente, y que la medida de la significación estadística se ha incorporado en la figura 2. Importantes genes son normalmente de color, mientras que las que no son significativas, son de color blanco. Todos menos tres de los 14 genes en el operón se muestran significativamente diferente expresó, sugiriendo que todo el operón es diferente y expresó que tal vez la medida de significación estadística utilizada es demasiado estricto. Por último, la figura 3 es una trama vertical de Salmonella II isla de patogenicidad (SPI-II), que muestran que la mayoría de los genes en esta isla están reguladas en el tiempo-los tres puntos. Esta isla codifica una sistema de secreción de tipo III, y ha demostrado ser necesaria para la infección sistémica, facilitando la reproducción de las bacterias intracelulares obligados dentro de la membrana de la Salmonella que contienen vacuolas [3].

ProGenExpress también puede buscar operones y otras regiones de interés por la búsqueda de grupos de genes que están muy juntos y que muestran patrones similares de los datos experimentales. El uso de este servicio, se identificaron más de 200 regiones de potencial interés en Salmonella typhimurium que consta de cuatro o más genes, entre ellos varios conocidos y potenciales operones sido objeto operones. La figura 4 muestra una región del genoma que contiene un grupo de seis genes que se han encontrado usando ProGenExpress. Los genes no tienen asignado el nombre de genes, lo han desconocido o putativo / predijo función, están muy juntos sobre el genoma y tienen similares perfiles de expresión en los tres puntos de tiempo. Creemos que estos genes pueden constituir un operón sido objeto.

ProGenExpress tiene varias ventajas con respecto a los programas ya existentes. El paquete se integra sin problemas con el proyecto y la bioconductor muchos paquetes disponibles en R para el análisis de microarrays, incluyendo limma, marray y affy, y está disponible tanto para Windows como para Linux, entre otros. Tanto horizontal como vertical parcelas son posibles, y un número ilimitado de puntos de datos para cada gen será dibujado, que permitan la visualización y el análisis de la compleja curso temporal o cepa / tratamiento experimentos. Además, la barra de parcelas mostrar datos numéricos con precisión, y no se basan en una escala de colores para representar los valores. Por último, la capacidad de búsqueda integrada genómica y post-genómica conjuntos de datos para grupos de genes que se comportan de manera similar representa una oportunidad para el descubrimiento de nuevos elementos genómicos involucrados en la patogenicidad.

Conclusión

Se describe ProGenExpress, un código abierto R paquete que permite a los investigadores de manera rápida y fácil de visualizar datos cuantitativos arbitrariamente complejos experimentos en el contexto de la secuencia del genoma de los procariotas. ProGenExpress también se puede utilizar para buscar regiones genómicas que pueden representar coherente de las unidades funcionales. Se muestra como ProGenExpress puede utilizarse para visualizar los datos de los microarrays de tiempo curso experimento sobre el genoma de Salmonella typhimurium, y para encontrar sido objeto regiones genómicas que pueden estar implicados en la patogenicidad. Los planes de futuro para el software incluye la posibilidad de que ensembl leer datos de bases de datos, y el desarrollo de herramientas de visualización de los genomas eucarióticos. Actualizaciones de software y nuevas versiones estarán disponibles a partir de la página principal del proyecto.

La disponibilidad y las necesidades

Nombre del proyecto: ProGenExpress

Proyecto Home Page: http://progenexpress.sf.net

Sistemas operativos: Windows, Linux, Unix

Lenguaje de Programación: R

Otros Requisitos: R versión 2,0 o superior

Licencia: GNU GPL

Contribuciones de los autores

MW desarrollado y probado el software en su totalidad.

Lista de abreviaturas

COG: Grupo de los Grupos Orthologous

SPI-II: Salmonella isla de patogenicidad II

Agradecimientos

Este trabajo fue financiado por el núcleo estratégico de subvención del Instituto para la Salud Animal, proporcionada por el BBSRC.