BMC Bioinformatics, 2005; 6: 95-95 (más artículos en esta revista)

Estadística Visor: una herramienta para cargar e integrar datos de vinculación y de asociación como parcelas mostradas en el navegador del genoma Ensembl

BioMed Central
Judith E Stenger (judy.stenger @ duke.edu) [1], Hong Xu (hxu@chg.duhs.duke.edu) [1], Carol Haynes (carol@chg.duhs.duke.edu) [1], Elizabeth R Hauser (ehauser@chg.duhs.duke.edu) [1], Margaret Pericak-Vance (mpv@chg.duhs.duke.edu) [1], J Pascal Goldschmidt-Clermont (pascal.goldschmidt @ duke.edu ) [2], Jeffery Vance M (jeff@chg.duhs.duke.edu) [1]
[1] The Duke Center for Human Genetics, Duke University Medical Center, Durham, North Carolina 27710, USA
[2] Department of Medicine, Duke University Medical Center, Durham, NC 27710, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Con el fin de facilitar la eficiente selección y priorización de candidatos complejo de genes de susceptibilidad para la enfermedad de la asociación de análisis, cada vez más amplio de herramientas de anotación son esenciales para integrar, visualizar y analizar grandes cantidades de datos generados por las diferentes pantallas de genómica, público anotación secuencia del genoma humano y las bases de datos auxiliares biológica. Hemos desarrollado un plug-in para Ensembl paquete llamado "Estadística Viewer" que facilita el análisis de las características genómicas y anotación en las regiones de interés definidas por análisis de ligamiento.

Resultados

Estadística Viewer es un add-on para el paquete de código abierto Ensembl Genome navegador y del sistema de anotación que muestra estudio de la enfermedad específica de vinculación y / o de la asociación de datos de 2 dimensiones paneles solares en las nuevas en el contexto de la Ensembl Contig Ver y Cyto Ver páginas. Una mayor carga de servidor facilita la carga de los datos estadísticos, así como la anotación característica adicional que se mostrará en el DAS panfletos, en forma de archivos de Excel. Ver el panel de Estadística, señala directamente bajo la ideogram, ilustra lod Resultado valores para los marcadores de un estudio de intereses que se representan gráficamente en función de su posición en pares de bases. Un módulo llamado "Get Map" convierte fácilmente las ubicaciones de los marcadores genéticos de las coordenadas genómica. En el gráfico que se coloca debajo de la correspondiente ideogram cuenta con un deslizamiento vertical sincronizado caja de selección que se integran a la perfección en la Ensembl Contig-y Cyto-Ver páginas a elegir la región que se mostrará en Ensembl "Panorama general" y "Vista Detalles" paneles. Para resolver Asociación de Bellas cartografía y datos parcelas, una "detallada Estadística Ver" parcela correspondiente a la "Vista Detalles" pueden ser visualizados debajo.

Conclusión

Características de la cartografía de las regiones de vinculación se acentúa cuando se Estadística View es utilizado conjuntamente con el Sistema Distribuido de anotación (DAS) para visualizar la información complementaria de laboratorio, tales como enfermedad de los genes expresados diferencialmente en las pistas privadas de datos. Ver la estadística es un nuevo y poderoso elemento visual que mejora Ensembl la utilidad como recurso valioso para la integración de los enfoques basados en genómica a la identificación de los genes de susceptibilidad a la enfermedad. En la actualidad no existen otras herramientas que proporcionan para la visualización de 2 dimensiones de las parcelas en contra de las puntuaciones de los datos cuantitativos genómica coordenadas en el contexto de una primaria pública genoma anotación navegador.

Antecedentes
La búsqueda de genes que contribuyen a las enfermedades humanas complejas

La disponibilidad de la secuencia completa del ADN del genoma humano, junto con los avances en la expresión genética, la proteómica, la metabolómica y la tecnología de bases de datos de bioinformática, presenta nuevas oportunidades para los integradores enfoques para identificar genes de susceptibilidad para el candidato complejas enfermedades humanas. Complejo de enfermedades, que incluyen enfermedades tan diversas como la enfermedad de Alzheimer, la enfermedad de Parkinson, las enfermedades cardiovasculares y el asma, cuenta a la mayoría de las enfermedades crónicas que afectan a nuestra sociedad de hoy. Estos no mendelianos enfermedades atribuibles a la heredada quizás varios polimorfismos en el riesgo asociado-o genes modificadores que se desencadenan por la exposición a agentes ambientales (s). Debido a la multitud de factores que en última instancia contribuyen a la enfermedad de fenotipo y de las numerosas variables de confusión presentado en el estudio de enfermedades humanas, el aislamiento de los componentes genéticos que confieren subyacente predisposición a una enfermedad compleja en sí es una empresa de enormes proporciones.

La importancia de la integración de datos

Por lo tanto, para mejorar las probabilidades de éxito la identificación de genes de susceptibilidad a la enfermedad compleja, varios enfoques diversos, cada uno de los cuales debe capitalizar la vanguardia de la técnica, la informática y el análisis, debería ser explotado. La integración de los diferentes biológicos, estadística y bases de datos clínicos, tanto públicos como privados, en todo el genoma de anotación son de suma importancia para comprender y eficiente interpretar las grandes cantidades de datos de secuencias de ADN, datos de expresión de genes, proteómica y otros "-ómicas" Datos. Como genotipo es un costoso esfuerzo, cada vez más eficaces herramientas computacionales necesarias para el acceso fácilmente, organizar y comprender las enormes cantidades de datos generados para identificar y dar prioridad a los genes candidatos para la genotipificación. Sólo cuando una mutación genética que causa la enfermedad se confirma puede subyacente de los mecanismos moleculares de enfermedades complejas que descifrar de manera que pruebas, la prevención, basada en el conocimiento nuevos enfoques terapéuticos pueden llegar a ser elaborados.

Grandes progresos se han hecho hacia la federación de bases de datos bioinformáticas como resultado de los esfuerzos concertados en los últimos años por los principales bioinformaticians para desarrollar vocabularios controlados [1, 2], plataformas comunes y herramientas para la integración [3]. Como resultado de ello, a pesar del crecimiento exponencial de la bioinformática datos, el número de individuos basado en la web que los recursos genéticos tienen que navegar por los investigadores se ha reducido considerablemente la de una multitud de diferentes sitios web y los cromosomas de un mismo individuo física y mapas genéticos fundamentalmente a tres grandes Recursos en línea que facilitan el acceso, el análisis y la recuperación de datos del genoma humano terminó recientemente.

La presentación visual de las inmensas cantidades de los tipos de datos incongruentes, sin embargo, presenta problemas en sí misma. Integrado de herramientas de la informática eficaz debe ser capaz de representar los datos esenciales de cada vez mayor complejidad en un formato que es a la vez amplia y fácilmente sintetizadas por el cerebro humano [4]. Con este fin, tres bien anotado basado en la web pública del genoma con la mejora de las interfaces de los navegadores se han desarrollado y están en continua evolución. Estos son: 1) el NCBI Entrez mapa visor [5, 6], 2) el EMBL-EBI / Instituto Sanger de colaboración Ensembl proyecto [7, 8], y 3) la Universidad de California en Santa Cruz de Oro del Genoma del navegador Camino [9 , 10]. Todos son fácilmente consultados y visual capaz de presentar una visión general de las grandes regiones del genoma al mismo tiempo que permite al usuario hacer zoom sobre un área de interés revelar información detallada sobre las numerosas funciones asignadas dentro. Cada una de estas herramientas se ha convertido en inestimable en el arsenal de los investigadores genéticos.

Genómica convergencia

Nosotros y otros han adoptado una de múltiples facetas enfoque integrado para identificar y dar prioridad a genes candidatos para enfermedades humanas complejas que llamamos "genómica convergencia" [11]. Este enfoque combina la lista de los genes obtenidos de dos o más claramente diferentes métodos (por ejemplo, la expresión génica y análisis de ligamiento) para obtener una lista de los principales genes candidatos. Teóricamente, incluidos los genes identificados por otros independientes, y sin embargo biológicamente relevantes, elementos de prueba que podría aumentar la sensibilidad del método, así como la especificidad cuando los genes identificados por varios enfoques están dando mayor prioridad.

Motivo

Para aumentar la eficiencia y exactitud de la identificación y priorización de genes candidatos para el genotipado, necesarios para facilitar la identificación y extracción de características genómicas de interés que se encuentran dentro de vinculación regiones, así como aprovechar plenamente las bases de datos públicas y el genoma humano de reunión y de anotación Proyectos. Una estrategia sobre la base de la asignación arbitraria "fitness" umbrales para reducir el número de genes candidatos para el seguimiento de análisis plantea el riesgo de excluir a la gen de la lista de candidatos si los umbrales son demasiado estrictos. Por esta razón, una herramienta capaz de mostrar los datos cuantitativos y la posición dentro de un solo navegador integrado de vista que faciliten la síntesis y la interpretación de los diferentes tipos de datos es superior a la más simplista enfoque utilizando la intersección de conjuntos de genes a fin de que los umbrales se establecen empíricamente .

Personalizar Ensembl para incorporar dos dimensiones vinculación y asociación datos parcelas

Por razones que se examinan más adelante en este trabajo, se optó por utilizar una aplicación local de Ensembl como base de nuestra infraestructura interna de la bioinformática. Para satisfacer plenamente nuestras necesidades de integración de datos de vinculación y de asociación, hemos desarrollado software para personalizar Ensembl como un instrumento de análisis para la convergencia de enfoques genómicos para identificar posibles enfermedades de genes de susceptibilidad para el seguimiento de análisis. Con este fin hemos desarrollado módulos de software que añaden funcionalidad a los sistemas de anotación Ensembl genoma de manera que el navegador mostrará los datos cuantitativos esenciales conspiraron contra el cromosoma posición (por ejemplo, los resultados estadísticos, de las pantallas de genómica, multa de cartografía y estudios de asociación y de expresión los niveles), que Se integran a la perfección en la Contig Ver y Cyto Ver páginas web. Los nuevos paneles de apoyar plenamente la funcionalidad de la Ensembl sistema de las regiones correspondientes del genoma seleccionada por el usuario dentro de la Estadística Ver será exhibido en la general y detallada y paneles Ver información adicional sobre los datos estadísticos de los puntos se pueden mostrar en pop-up opiniones Con hiper-enlaces a las páginas de información individual característica. El Visor de Estadística paquete incluye software para facilitar la carga, consulta, almacenamiento, la integración, visualización, el análisis, el privado y la recuperación de los datos cuantitativos en un público de código abierto genoma navegador de manera que todos los públicos anotación, DAS fuentes y enlaces puede ser explotado plenamente.

Hemos creado un paquete de software llamado "Estadística Ver", que incluye un aumento de carga de servidor que facilita la carga, consulta, almacenamiento, la integración, visualización, el análisis, el privado y la recuperación de los datos cuantitativos en un público genoma navegador para ayudar a hacer la conexión entre genetistas Fenotipo de la enfermedad y las características genéticas que se asocian con el riesgo en una escala genómica. Desde allí, una comprensión de las bases moleculares de la enfermedad puede llevar a la prueba, la prevención, y quizás en última instancia, a la farmacéutica o los medios alternativos de intervención a fin de que las esperanzas de la medicina traslacional prometido por la finalización de la secuenciación del genoma humano proyecto será realidad.

Aplicación
Cartografía marcador genético lugares como genómica posiciones en el genoma humano asamblea

Enlace de datos es tradicionalmente visualmente muestran como un gráfico en el que se trazan en Lod partituras ordenadas a lo largo de la genética contra la ubicación de los marcadores que se utilizaron en la pantalla genéticos y el posterior análisis. La longitud de la abscisa representa la longitud de los cromosomas en centimorgans (cM), una función de la frecuencia de recombinación entre dos loci. Recombinación frecuencia se ve influida por factores como la genética de contenido regional y de género a fin de que sólo se puede hacer una aproximación entre áspera en el número medio de pares de bases que se encuentran en una sola unidad de mapa centimorgan. Por lo tanto, para incorporar una representación visual de los resultados estadísticos en el navegador Ensembl genoma de una manera significativa, es imperativo que la abscisa se expresa en pares de bases a fin de que la posición de los marcadores a lo largo de la abscisa con alinear correctamente, y corresponden estrictamente a la Horizontal ilustración de la ideogram que aparece inmediatamente por encima de la vinculación estudio gráfico en el Ensembl ContigView. Con este fin hemos desarrollado una herramienta "GetMap" que usa interpolación lineal en relación con deCODE Genetics' publicó mapa [12] a la aproximación de las coordenadas físicas cromosómicas denota en bps de los marcadores que fueron: a) no figura en el mapa por el grupo y deCODE b) Tenemos información suficiente para el éxito de ePCR. El primero utiliza un algoritmo de búsqueda binaria (el "divide y vencerás" paradigma) para encontrar y extraer conocido marcador coordenadas de una base de datos cuando estén disponibles. De lo contrario, el algoritmo de interpolación lineal se activa, utilizando los marcadores de acompañamiento más cercano marcadores con coordenadas conocidas a la aproximación de la posición con la mayor precisión posible. El algoritmo se basa en el que se describe en por Kong et al. [12].

Para convertir el mapa de las unidades centimorgans en sus coordenadas en el cromosoma secuencia de pares de bases, es necesario mapa de los marcadores utilizados como sondas a la física de la secuencia del genoma humano. La versión más reciente de la asamblea del genoma humano (en la actualidad, NCBI construir 35) se puede descargar de la UCSC genoma sitio [10] y la versión más reciente del sistema de anotación Ensembl [8].

El primer paso para convertir la ubicación genética de un marcador en su posición en pares de bases es la creación de una única base de datos de marcadores fiables y válidos (por lo general, los microsatélites) que se basa en la base de datos NCBI UniSTS [13, 14], integrado no redundante Base de datos de marcadores (número de sitios etiquetados, STS [15]], como punto de partida. UniSTS integra cartografía de la información obtenida de diversas fuentes primarias de recursos, y es la fuente de marcador sonda de la información secuencial. Los marcadores, su alias, y secuencias de los lugares disponibles en los mapas genéticos se recuperará a través de la NCBI servidor ftp [16]. Una vez que la versión más reciente del genoma humano UniSTS reunión y se ha subido a nuestros servidores locales que el mapa vuelva a las posiciones de STS por el uso de la PCR [17 - 19], o BLAT [20] como un nuevo recurso. En un paso de preprocesamiento, marcadores que puedan tener posiciones erróneas de ruta y / o muestran incompatibles pedidos en comparación con otros mapas se marca, removido de nuestra base de datos verificados y guardados en otros lugares de referencia. La posición confirmado genómica y otro tipo de información, incluyendo su ubicación genética (s), que se utiliza para rellenar la tabla de resultados estadísticos en la base de datos ilustra la figura 3. A continuación, para facilitar la interconversión de mapa de los lugares pre-existentes y análisis de mapas genéticos en la posición de nucleótidos del genoma humano, hemos desarrollado una herramienta basada en la Web llamada "Get Map" para cargar un archivo que contiene marcador lugares, así como a sus Posición a lo dispuesto por el usuario. Esta herramienta también existe en una versión independiente para el procesamiento por lotes y los archivos se describe en la documentación de archivo Mapa Obtenga siempre como material suplementario.

Software para ver los datos estadísticos como parcelas de 2 dimensiones en el contexto de Ensembl

El programa de dibujo consta de cuatro módulos básicos Bioperl que Ensembl aprovechar el software de fuente abierta y el sistema de anotación del genoma para mostrar una parcela vinculación de los resultados estadísticos, que son fácilmente subido por personal de laboratorio de carga usando el servidor realizamos, en el contexto de la anotada Secuencia del genoma humano. Estos módulos añadir el panel de visualización, "Estadística Ver" que aparece automáticamente cuando los Contig Ver (véase la figura 1) y la Vista detallada en CytoView (véase la figura 2] páginas están abiertas. Sin embargo, si no hay datos estadísticos de los estudios que se ha subido en la base de datos mySQL para un cromosoma de interés no se han extraído parcelas, pero un panel comprimido Aparece texto que indica que "no hay datos estadísticos correspondientes a cualquier estudio disponible para este cromosoma" ; (No se muestra). Al igual que otros grupos de Ensembl, para ahorrar espacio, este panel puede ser comprimido cuando no se necesita. Una vez que los datos se carga en un local de anotación Sistema Distribuido (DAS) [21] servidor, los investigadores pueden usar un menú desplegable para seleccionar el argumento para un estudio particular de interés que se señala en un panel colocado entre ideogram del cromosoma Y el panorama en ambos Cyto Ver y Contig Ver.

Descripción de BioPerl módulos para incluir "la estadística de Vista" en paneles Ensembl

Utilizando el lenguaje de programación Perl hemos desarrollado módulos BioPerl (revisado por Stajich et al. [22] que se establece un vínculo (u otros) parcela utilización de los datos incorporado en el servidor DAS para el estudio en particular, que el investigador debe proporciona el nombre de como Un campo obligatorio. El flujo de datos de la Estadística Ver módulo se ilustra en la figura 4. El código fuente se ofrece como material complementario. BioPerl Los cuatro módulos básicos son: 1) Bio:: EnsEMBL:: Linkage.pm, 2) Bio: : EnsEMBL:: DBSQL:: LinkageAdaptor.pm, 3) Bio:: EnsEMBL:: GlyphSet:: lodplot.pm y 4) WebUserConfig:: chrplot.pm y Bio:: EnsEMBL:: GlyphSet:: FineLODplot prevé una estadística detallada Parcela, que se describe a continuación, que se dibuja debajo de la Vista detallada del panel en Ensembl Cyto-y Contig-Ver páginas. El código fuente para cada una de estas se da en forma de archivos de texto enriquecido (ver archivo adicional de 1 a 5, respectivamente). Asimismo, la documentación y los ejecutables son siempre dentro de un archivo comprimido (archivo adicional 6].

En pocas palabras, la Linkage.pm módulo dispone de un constructor para crear el vínculo objeto, esencialmente una tabla que resume el récord de un único punto de conexión, lo que permite un vínculo de datos que se añadirán poblar la base de datos. La tabla de base de datos, Linkage_Table, contiene hasta once campos que se muestran en la figura 3A. Esta información puede ser vista en el Ensembl Contig-y Cyto-Ver las páginas del navegador dentro de un cuadro emergente al mover el cursor sobre ( "mousing-over") el punto de la parcela como se muestra en la figura 1 por debajo de la Vista detallada)

El GlyphSet:: lodplot.pm siguiente módulo es ejecutado. Este módulo contiene toda la información para dibujar el gráfico de los datos estadísticos. Este módulo sirve como base para la FineLODplot.pm que muestra un gráfico de los datos estadísticos por debajo del Grupo Ver Detalle que corresponde a la misma gama (de la rodaja de los cromosomas seleccionados cuando el usuario desliza el cuadro rojo, ya sea en el o los ideogram Ver panel de Estadística), de la Vista detallada Grupo. El WebUserConfig:: chrplot.pm módulo se añade a la configuración de lod parcela de forma que se muestra en el panel de Estadística Ver en CytoView y ContigView.

El objeto LinkageAdaptor módulo, LinkageAdaptor.pm, proporciona la funcionalidad para acceder a la vinculación de datos de la base de datos del DAS. Enlace adaptador crea una "rebanada" objeto, que corresponde a la caja de deslizamiento de color rojo que utiliza la vista para seleccionar una región. El objeto rebanada define a la región de vinculación de datos que se va a recibir y que muestra los registros de la relación de objetos que se asignan a los cromosomas entre las coordenadas dentro de los límites del cuadro rojo que se muestran en la vista detallada a continuación. Por último, la trama de imagen se anotó en el Ensembl Contig Ver y Cyto Ver modificando la Contig-y Cyto-ver el código a fin de que la vinculación parcela se muestra en la Ensembl Contig Ver.

La figura 1 es una captura de pantalla de la Ensembl Contig Ver navegador web corriendo fuera de nuestro servidor local que pone de manifiesto la Estadística Ver panel con una parcela lod comparación de las puntuaciones y hetlod genómica correspondiente en contra de su ubicación. Figura 2 ilustra igualmente la incorporación de Estadística Ver en la Ensembl CytoView. Nota cómo la gráfica en la Figura 1 funciones puntos de datos interconectados por líneas de puntos mientras que en la Figura 2 muestra líneas. La tabla de base de datos proporciona un campo llamado link_type que permite a un analista de estadísticas para especificar rápidamente la pantalla para permitir un tipo de análisis, como punto único, de otro, como la multi-punto, cuando una convención que se adhirieron al.

Aunque Ver Estadística es una herramienta de valor incalculable para el estudio de los cromosomas interesantes características genómicas en picos vinculación derivada de una pantalla de genómica, que es de uso limitado, en la cartografía y estudios de asociación debido a la falta de resolución en el nivel cromosómico para ver las características deseadas, como la densidad Incrementos de los marcadores. Así, se reconoce la utilidad de contar con la capacidad de mostrar información detallada en una región seleccionada para detallados estudios de asociación, hemos desarrollado el código (siempre dentro de archivo adicional 5] a la parcela de asociación y mostrar los datos en otro grupo, por debajo de la Vista detallada en Contig -- Y Cyto-Ver. En esencia, este grupo de expertos, que se refieren como "la estadística detallada Ver" es una ampliación de una región o bien seleccionados de "La Estadística de Vista" o la Descripción panel que se corresponde directamente con la Vista detallada se indica en rojo (Ver figuras 1 y 2].

Resultados

Aquí se describe la funcionalidad de un programa conjunto denominado "Estadística Viewer", que fue escrito con el propósito de la integración de los datos genéticos de estadística con anotación secuencia del genoma humano. El nombre de "Visor de Estadística" se refiere al nombre del paquete de software, mientras que "la estadística de Vista" se refiere a la pantalla que se etiqueta en la Ensembl "Ver Contig y Cyto Ver" páginas.

Uso

El primer paso en la adición de los datos estadísticos a Ensembl es el formato de datos para cargar. Como la abscisa debe corresponder a las coordenadas genómica para la integración en el genoma humano de reunión, la posición del punto de conexión (el marcador microsatélite u otros), debe ser definido por el nombre del cromosoma, el cromosoma y el inicio y final en la posición de pares de bases.

Simplificado la introducción de datos a través de una mejor basado en la web de servicios de carga

Para facilitar la carga de los datos estadísticos, así como otro tipo de datos privados, hemos desarrollado una configuración personalizada para cargar servidor que permite a los miembros de un grupo con permisos para cargar sus propios datos de los usuarios podrá añadir nuevos datos que se dibujan en "Ver Estadística" o Datos para la anotación como extensiones DAS. Nuestra mejora de la DAS de carga de servidor permite a los usuarios añadir datos en los datos anteriormente instanciada pistas. La interfaz basada en la web es también fácil de usar de manera que el formato dificultades y los fracasos y los errores que suelen derivarse de ello cuando cortar y pegar texto delimitado por tabuladores en la web Ensembl forma, se evitan.

Subir requisitos de formato de archivo

Los datos deberán ser en forma de una simple tabla de dos dimensiones que contiene los atributos (columnas) y tuplas (filas). La subida sirve acepta ya sea por tabuladores o archivos de texto o archivos de hojas de cálculo MS Excel como entrada utilizando una característica de navegación para especificar el directorio. Cuando se utiliza un archivo de Excel, la hoja de trabajo superior página debe contener todos los datos que se han subido y se carece de todo fusionado campos. Hemos diseñado la carga del servidor de exigir un mínimo de ocho campos esenciales que sirven de los encabezamientos de las columnas en una tabla, aunque atributos adicionales, como el nombre del investigador o técnico de entrar los datos, el método, o la fecha se permite y alienta.

Estos ocho campos obligatorios (atributos) son las siguientes:

1. Estudio: El término se define el conjunto de datos y es el título del estudio. El campo es una cadena de caracteres con el nombre de una enfermedad, o de un proyecto sub-estudio. Un estudio puede tener los datos a través de múltiples cromosomas o en varios grupos de análisis. Los datos de múltiples estudios se pueden combinar en una sola hoja de cálculo si los registros se enumeran secuencialmente en tuplas (filas).

2. Análisis: Este campo permite la representación de los datos sub-categorías de la estratificación dentro de un estudio. La cadena de caracteres pueden ser diferentes métodos de análisis estadístico, o de las diferentes poblaciones, etc Una vez más, varias categorías de datos pueden ser incluidos en la misma hoja de cálculo. Los campos que se utilizan para proporcionar la clave o leyenda de los puntos que dibujan sobre la Estadística Ver gráfico. Las unidades deben incluirse entre paréntesis.

3. Link_point: Este campo es, por lo general el nombre del marcador para la vinculación estudio. El valor será representado como un punto de datos de la Estadística Ver gráfico que se mostrará el nombre del marcador en una ventana emergente cuando el punto es "moused-over".

4. Puntuación: La puntuación de la estadística Link_point. Las unidades se podrán indicar aquí también la puntuación para la inclusión en las ventanas emergentes.

5. Chr_name: Todos los nombres de los cromosomas humanos (1 a 22, así como X, Y) son aceptables valores de caracteres.

6. Chr_start: El cromosoma ubicación de inicio de la Link_point en pares de bases.

7. Chr_end: El cromosoma ubicación final de la Link_point también en pares de bases. Esta posición puede ser idéntica a la chr_start valor en el caso de un SNP.

8. Link_type: Este atributo especifica el tipo de línea de conexión utilizada para la Link_points en la trama: por ejemplo, el "punto" denota una "línea de puntos (- - - - -)" que usamos como una convención de dos Punto de análisis. "Línea" es "sólida línea (____)" y generalmente indica un análisis multi-punto. Al colocar el término "punto" en la materia, se Estadística Ver dibujar un gráfico de dispersión, sin líneas. Si el valor no es suministrado para este campo una sólida línea, el valor por defecto, se conectará el enlace de puntos.

Visualización de datos integrada en statical Ensembl

El panel StatisticalView representa el trazado de un gráfico la relación que existe, o de la asociación, a lo largo de las estadísticas y coordinar la longitud del cromosoma, en megabases (MB), a lo largo de la abscisa. La longitud de la abscisa diametralmente corresponde a la longitud de la que se ilustra ideogram directamente encima. El programa genera este grupo, que es capaz de mostrar gráficos de dos dimensiones para el trazado de los datos relativos a un estudio de interés. Actualizar la página siguiente selección de los estudios o de otro método de análisis puede traer diferentes parcelas. Esta parcela se integran a la perfección en el Cyto Ver y la Contig Ver páginas. Al igual que otros grupos de expertos en estas páginas web, las funciones del panel de Estadística Ver cuadro de una selección, un rectángulo rojo con bienes muebles anchura ajustable, para poner de relieve los límites de una región de interés en la vinculación parcela. Los límites de la región seleccionada en Estadística Ver corresponden directamente a la caja de selección en el ideogram y el mapa físico posición de que se denota en bps en la Vista detallada. La caja de selección también correctamente corresponde a la ampliación del cuadro de dinámica que se señalan en la sinopsis. Al igual que con la correspondiente caja de selección de Ensembl en otros paneles de visualización en Contig-y Cyto-View, el ancho de la caja de selección de Estadística Ver puede alterarse con un ratón, o una entrada similar concebir, ya sea para seleccionar una mayor o de una región más reducida De interés para alterar la dinámica de otros paneles de visualización. Asimismo, el cambio de coordenadas en el bp Vista detallada, o de modificar el tamaño o la ubicación de cualquiera de las cajas de selección de deslizamiento en los otros grupos, tiene el efecto adecuado en el cuadro de selección en el panel de Estadística Ver.

Discusión

Después de la tan esperada primera versión del proyecto de secuencia del genoma humano por el consorcio internacional [23] y la Celera Corporation [24] en febrero de 2001, los genetistas humanos estaban deseosos de aplicar este recurso a la utilización de datos para el mapa y determinar la susceptibilidad a la enfermedad Genes. Incluso en su estado incompleto y sin verificar, los datos representan una tremendamente poderoso recurso para ayudar a resolver las contradicciones que el uso de la confusión derivada independiente híbridos genéticos y mapas de la radiación. Debido a la complejidad computacional de hacer frente a grandes e incompleta pedigrís humanos [25], la producción de estos mapas es un logro importante. La Corporación deCODE inmediatamente incorporado el proyecto de la secuencia de datos en la construcción de un nuevo mapa meióticas [12] que representaba una importante mejora respecto de la Marshfield [26] y Genethon mapas [27]. También es inmediatamente evidente que una enorme cantidad de trabajo sigue siendo de traducir estos datos en conocimientos que finalmente mejorar la salud general de la opinión pública y que los procesos de análisis e interpretación de estos datos presenta muchos desafíos en sí mismo.

A pesar del crecimiento exponencial de los datos biomédicos, la tarea de la minería de datos es menos desalentador de lo que era hace apenas unos años. A través de la World Wide Web (WWW) genetistas tienen a su disposición tres canales distintos, de alta calidad, bien anotado genoma repositorios que proporcionan libre acceso a las últimas asambleas del genoma de los seres humanos, así como un creciente y diversa variedad de organismos modelo. Cada uno de estos navegadores público genoma, NCBI, EBI UCSC y / Sanger 's Ensembl, con sus propios anotación oleoducto, sino que debe contener la misma secuencia de nucleótidos de la última o, al menos, la segunda más reciente, la liberación de la NCBI asamblea. Como en el caso de la NCBI y UCSC genoma navegadores, el público Ensembl sitio contiene secuencias genómicas y un gran número de características útiles extender mucho más allá de conocer y predecir genes, marcadores de microsatélites, SNPs y que están vinculados con sus correspondientes registros acogió en sus respectivas primarias Fuentes (ver [28] para una revisión de las actuales bases de datos de la biología molecular).

Hemos elegido Ensembl como el sistema a la base de la estadística de Ver por varias razones: 1) la presentación horizontal de la anotación del genoma hace susceptibles de mostrar un vínculo de ruta, 2) Ensembl ha incorporado establemente DAS para la visualización de datos personalizados a partir de fuentes exteriores de la Ensembl Mapeado en el oleoducto anotación del genoma como panfletos durante varios años, 3) los desarrolladores tienen la intención desde el principio que el proyecto sería de fuente abierta y, por tanto, han tenido mucho cuidado en documentar su código fuente, y 4) Ensembl EnsMart del genoma es la herramienta de recuperación de datos Una muy sofisticada y flexible herramienta de minería de datos que contiene amplia filtros y varios buenos opciones de salida. En consecuencia, a los efectos de la integración de vinculación de datos, así como otros tipos de datos internos, creemos Ensembl actualmente proporciona la mejor arquitectura para servir como la base de una infraestructura de integración de datos para su uso por un laboratorio de genética en un ambiente académico.

Un local de aplicación de la anotación del genoma Ensembl bases de datos y software de sistema es ideal para la integración de terceros anotación con características públicas anotación secuencia del genoma humano y sirve como la base de nuestra infraestructura de la bioinformática para ayudar en la identificación y priorización de genes candidatos en la enfermedad y multa de cartografía Estudios de asociación. El DAS sistema nos ha permitido mostrar la ubicación de los marcadores utilizados en un estudio de las características de las pistas mostradas en Contig-y Cyto-Ver. Además hemos mapeado otras características como la localización de los genes expresados diferencialmente de los experimentos con microarrays ambos [29] y de la tecnología SAGE [11]. Estos estudios empleadas Ver Estadística e ilustrar la utilidad de contar con una herramienta de este tipo para identificar y visualizar rápidamente genómica características que se encuentran en las regiones de vinculación.

Nos hemos dado cuenta de que los beneficios de mantener un espejo local de la secuencia del genoma humano junto con el genoma Ensembl navegador de software y un servidor DAS superior a los costes. Es mucho más costoso mantener individuales con diferentes formatos de bases de datos a través de los diferentes proyectos. Este sistema integrado permite a los usuarios manualmente cura genómica, derivados computacional, estadística, genética, y experimental (por ejemplo, la expresión de los genes) los resultados de muchos proyectos. Además, los datos sensibles puede ser protegido con contraseña.

Aunque la capacidad de mapa de la ubicación de los marcadores de microsatélites o SNP utilizados en las pantallas de los genomas y genotipado en extensiones DAS en el panorama Ensembl ha demostrado ser muy útil en la convergencia o integración genómica genómica estrategias hasta ahora, seguirá Ver Estadística, que nos permita de manera eficiente Pantalla de las regiones del genoma de características adicionales que pueden ser indicativas de un gen que justifican una investigación más a fondo. Con este fin, estamos llevando a cabo la investigación para una mejor identificación de los predictores de éxito. Tenemos asignadas a la secuencia del genoma de ADN motivos que se predecir "en riesgo" por la inestabilidad del genoma como la longitud completa, muy idénticas, poco espaciados, como repeticiones invertidas Alu pares [30, 31] y largo simples repeticiones en tándem (Stenger , No publicado) en la codificación de secuencias (véase el detalle en las figuras 1 y 2]. Viendo estas características en extensiones DAS, en relación con la vinculación de datos nos ha permitido afinar en un gen candidato potencial incluso cuando la función del gen es desconocida. Aunque el número de genes de función desconocida se está quedando con un mejor reconocimiento de pseudogenes, que aún representan una porción lo suficientemente grande de genoma que es prudente no excluir de seguimiento de la secuencia y la asociación de estudios. Sin embargo, los genes de función desconocida ya que con frecuencia se pasa por alto esos genes están excluidos de las estrategias basadas en la plausibilidad biológica y no pueden ser representados en microarrays.

Además, estamos en el proceso de levantamiento de mapas transeuropeas de factores de transcripción que actúan al genoma. Aberrantly expresó genes puede no representar a la vinculación regiones, pero es probable que co-expresó genes están regulados por un régimen común de cis-actuando elemento regulador. La identificación de las proteínas que se unen a estos motivos de reglamentación puede además informar a nuestra búsqueda de genes candidatos en las regiones mostradas en la estadística de Ver. También hemos venido utilizando hibridación in silico de sustracción métodos para identificar los genes expresados en los tejidos que la única exposición en la patología de enfermedades que son objeto de investigación (por ejemplo, un tracto DAS mostrando la ubicación de los genes específicos de la sustancia negra puede ayudar a identificar los genes candidatos para la Enfermedad de Parkinson ) Y han cartografiado el genoma de estos DAS como pistas.

Vale la pena mencionar que la carga de datos en la base de datos utilizando DAS Ensembl la carga del servidor puede ser problemática. El servidor de carga previstas en el servidor público tiene una serie de deficiencias: 1) es a menudo difícil adecuadamente a los datos como el formato de texto de manera que el resultado deseado se genera, 2) una dirección de correo electrónico completa es necesaria para la identificación de usuario en el acceso, Y 3) cada uno de los resultados de acceso de datos en poner en forma separada de manera que los registros no pueden ser fácilmente añadido a una pista de los datos existentes. Para superar esto, el usuario que la inicialización de la pista fue obligada a suprimir el archivo de datos original y añadir los nuevos datos en un archivo y vuelve a cargar todo el conjunto de datos. Estas limitaciones se apartan de la utilidad de nuestra privado Ensembl-DAS sistema de entrada de datos, porque se convirtió en un cuello de botella en el análisis de proyectos con bioinformaticians que actúa como guardianes. Hemos ampliado la capacidad de la carga del servidor de manera que los investigadores con los permisos adecuados pueden añadir fácilmente a los distintos registros de la base de datos del DAS, sin tener que borrar y recrear un nuevo conjunto de datos y su consiguiente tracto mostradas en la vista detallada del panel. Al mejorar el procedimiento de carga de datos, personal de laboratorio que generan los datos pueden entrar y mantener sus datos con un mínimo de capacitación.

Para facilitar la carga de los datos, hemos desarrollado una utilidad que hasta el momento representa una mejora significativa sobre la carga del servidor con el paquete de Ensembl. Nuestra herramienta funciona bien para la carga de base de datos con las coordenadas par que se muestran en las pistas y en Contig-Cyto-Ver Vista detallada del panel. Nos hemos dado cuenta de que tener la entrada de datos proceder a la misma tasa que la generación de datos, lo mejor es proporcionar a los investigadores de laboratorio con las herramientas para agregar su propia anotación de genotipos de alto rendimiento cuando se utilizan los métodos, a pesar de que algunos laboratorios pueden preferir tener un Gatekeeper A cura datos manualmente en el momento de la entrada para garantizar que se preserve la integridad de los datos. Reconociendo la necesidad de reducir al mínimo los errores, que se propaga inevitablemente, y ante la escasez de recursos humanos para entrar en cura y que los datos en el proceso de desarrollo de una mayor funcionalidad a nuestro servidor de carga mediante la automatización de la conversión a la correcta ubicación física de forma que los posibles errores de la cartografía se evitan . Este software se proporciona en su actual nivel de desarrollo como archivos adicionales 7 y 8 y sus respectivos manuales de usuario se proporciona en archivos adicionales 9 y 10.

Conclusión

Hemos desarrollado software para mejorar la Ensembl paquete de software de código abierto como un laboratorio privado bioinformática infraestructura para ayudar en la identificación de los complejos genes humanos de la susceptibilidad a la enfermedad. Hemos mejorado la carga del servidor con lo que la habilitación de personal de laboratorio específicos para el proyecto que añadir datos a la base de datos local DAS para que se visualice en el marco del genoma humano utilizando el genoma del navegador Ensembl contig vista. Mediante la creación de un nuevo panel en la Ensembl Contig Ver y Cyto Ver, Ver llamado Estadística, somos capaces de mostrar resultados estadísticos de los experimentos de mapeo de genes en el contexto de la secuencia del genoma humano anotación. Ver la estadística muestra una trama de vinculación y de asociación estadísticas directamente encima de la general. Ver la estadística de la perfección y está plenamente integrado en el genoma Ensembl navegador. El usuario puede navegar por el cromosoma mousing-más de un cuadro de selección descritos en rojo que directamente corresponde a la establecida por el software en el Ensembl ideogram del cromosoma. Esta capacidad facilita la selección de las regiones del cromosoma desequilibrio en la relación de fácil visualización de las características asignadas en él que se muestran en panfletos debajo de los datos en el panorama. Esta capacidad permite la detección rápida de las regiones de interés para un estudio para identificar los genes que merecen de nuevos controles.

La disponibilidad y las necesidades

El código fuente se ofrece como material complementario para esta publicación y se dispondrá también de la Duke Centro de Genética Humana del público páginas web [32], así como a través del sitio Ensembl público [8].

Configuración de una aplicación local de Ensembl

Para utilizar este software de la Ensembl Genome Browser Software Sistema de Anotación debe estar instalado y en funcionamiento a nivel local. El paquete estadístico Ver ejecuta en la versión 26,1, que se puede acceder a través de la web de descarga Ensembl Wiki URL [33]. Genoma archivos y otros archivos de bases de datos se puede acceder a través del servidor ftp Ensembl [34]. Ensembl requiere de un servidor con un UNIX o Linux tipo de sistema operativo (por ejemplo, OS X, IRIX de SGI y Sun Solaris).

Todo el software y la dotación completa de las secuencias del genoma mySQL y bases de datos que actualmente ocupa 150 gigabytes de espacio de almacenamiento y exige mucho al igual que el espacio de intercambio, pero puede que no sean necesarias en función de sus necesidades, tal como se especifica en la instalación archivo en formato pdf [35].

Mantenemos un local de la aplicación actual de la Ensembl sistema de software de código abierto, incluyendo la secuencia del genoma humano relacionados con la reunión y de las bases de datos se ejecuta en un SunFire 12 2000 actuando como servidor de una anotación para almacenar y Superposición de datos pública del genoma con laboratorio privado para la integración de datos usando el Sistema Distribuido de anotación.

Lista de abreviaturas

BLAT - explosión-como herramienta de alineación

CM - centimorgan, una sola unidad de mapa

PP - la base de datos

DAS - distribuidos anotación sistema

ADN - ácido desoxirribonucleico

EMBLI - Laboratorio Europeo de Biología Molecular

EBI - Instituto Europeo de Bioinformática

Mb - megabase, un millón de pares de bases

NCBI - Centro Nacional de Información sobre Biotecnología

SAGE - de serie de análisis de la expresión génica

SNP - único polimorfismo

SQL - lenguaje de consulta estructurado

STS - secuencia de los sitios marcados (marcadores)

Contribuciones de los autores

JES - director científico de la bioinformática CHG básico, encabezada bioinformática proyecto de integración de base de datos, contribuyeron al concepto, la puesta en práctica de ideas, ayudó a formular las necesidades y sugerencias de mejora. Obtuvo financiación para hardware.

HX - programador de altos responsables de su aplicación.

CH - miembro de la integración y la base de datos post-procesamiento de los grupos, contribuyó al concepto, y la aplicación de ideas. Contribuyó al diseño de bases de datos tablas, ayudó a formular las necesidades y sugerencias de mejora.

ERH - Investigador principal de la bioinformática Componente CEGS, encabezado después de la elaboración de proyectos, ha contribuido a concepto, la ejecución y los requisitos ideas

M PV - Director de la CHG, a condición de la financiación, los recursos humanos y el impulso para el proyecto

PJ GC - Presidente de la Duke Departamento de Medicina, a condición de la financiación y el apoyo de proyectos de desarrollo.

JMV - autor, siempre motivo de la acción, aportó ideas y necesidades y la financiación

Material suplementario
Archivo Adicional 1
El código fuente de Bio:: EnsEMBL:: DBSQL:: LinkageAdaptor
Archivo Adicional 6
El ejecutable BioPerl módulos y la documentación puede ser descomprimido, ya sea con la GNU (Free Software Foundation) descomprima comando [
36
] UNIX en Windows o el archivo de utilidad WinZip (WinZip Computing, Inc) [
37
] En un sistema operativo MS Windows. Por favor, consulte las respectivas páginas de Internet que se hace referencia para obtener más detalles sobre la adquisición y el uso de estas utilidades de compresión, así como las páginas man de UNIX para el
Tar
Comando:
I. Léame
Un archivo de texto los proporciona una descripción de los módulos y de la vía de acceso al código en el directorio raíz del servidor Ensembl
II. Support.pm
(Formato: Módulo Perl) se modificó el código fuente para el ContigView:: Apoyo conjunto que incluye el duque Centro de Genética Humana de extensión para añadir la LOD Resultado parcela panel
III. Chrplot.pm
(Formato: Perl Module) El WebUserConfig:: chrplot BioPerl módulo
IV. Contigview
(Formato: archivo de texto) se modificó el código fuente para la versión basada en la configuración de la opinión de Ensembl Contig paquete incluyendo las adiciones necesarias a fin de incorporar la LOD puntuación de los datos estadísticos o de otra parcela
C. Cytoview
(Formato: archivo de texto) El código fuente para el Ensembl Cyto vista incluido el paquete de modificaciones a incorporar la LOD Resultado parcela
VI. DBAdaptor.pm
(Formato: Perl Module) El código fuente modificado para el Bio:: EnsEMBL:: DBSQL:: DBAdaptor módulo que incluye el duque Centro de Genética Humana de extensión para añadir la LOD Resultado parcela panel en el genoma navegador
VII. Linkage.sql
(Formato: Structured Query Language) Este archivo se especifica la estructura de tabla para la vinculación objeto
VIII. Linkage.pm
(Formato: Perl Module) Bio:: EnsEMBL:: Enlace Ensembl BioPerl módulo
IX. LinkageAdaptor.pm
(Formato: Perl Module) Bio:: EnsEMBL:: DBSQL:: LinkageAdaptor BioPerl módulo Este módulo incluye la documentación POD - los principales documentos anteriores el código
X. Linkageview
(Formato: paquete BioPerl) Este archivo proporciona el paquete para mostrar el vínculo cromosoma parcela y la información de cada punto de conexión
XI. Linkageview.pm
(Formato: Perl Module) El EnsEMBL:: Web:: UserConfig:: linkageview módulo
XII. Lodplot.pm
(Formato: Perl Module) El Bio:: EnsEMBL:: GlyphSet:: LodPlot módulo
XIII. HTML.pm
(Formato: Perl Module) Este archivo es el código fuente modificado para la ContigView:: HTML paquete que incluye el duque Centro de Genética Humana de extensión para añadir la LOD Resultado parcela panel
Archivo Adicional 5
El código fuente de Bio:: EnsEMBL:: GlyphSet:: FineLODplot BioPerl módulo
Archivo Adicional 7
El código fuente de la CHG mayor carga para la integración de servicios de datos locales como para mostrar características en el genoma Ensembl navegador como DAS pistas
Archivo Adicional 8
El código fuente de la CHG mayor carga del servicio de integración de vinculación o de otros datos estadísticos para mostrar en parcelas (gráficos), como un grupo dentro del genoma Ensembl navegador Contig-y Cyto-Ver páginas.
Archivo Adicional 9
Manual de usuario para la carga de Enlace o de otros datos estadísticos que se dibujan en un panel llamado "Estadística Ver" en el Contig-y Cyto-view genoma de un navegador de páginas de la aplicación a nivel local de Ensembl.
Archivo Adicional 10
El manual para el uso de la Duke CHG mayor carga de servidor web de interfaz para importar datos en la base de datos MySQL a fin de que las funciones se pueden mostrar como DAS-pistas mostrando anotación de los datos experimentales en el contexto de la secuencia del genoma de una asamblea local de la aplicación de Ensembl.
Archivo Adicional 2
El código fuente de Bio:: EnsEMBL:: Enlace
Archivo Adicional 3
El código fuente de Bio:: EnsEMBL:: GlyphSet:: LodPlot
Archivo Adicional 4
El código fuente de WebUserConfig:: chrplot BioPerl módulo
Adicional 11 Archivo
Manual para el uso de la herramienta Obtener Mapa de la interconversión de la genómica y de las posiciones de los marcadores genéticos. El algoritmo también es descrito.
Agradecimientos

Agradecemos a Jason Stajich de esta empresa pionera en la DCHG. Estamos en deuda con el equipo de Ensembl, especialmente Tony Cox en Sanger para proporcionar orientación en la creación de nuestro servidor local DAS Ewan Birney y por su provocación debates, el aliento y la voluntad de hacer disponible a través de la estadística de Ver el sitio público. Queremos dar las gracias a Richard Cornwell de asistencia en el desarrollo de algunos de los códigos. También reconocemos CHG becarios, estudiantes y técnicos de la CHG por sus útiles sugerencias. Además, nada de esto habría sido posible si no fuera por la dedicación de los investigadores del Consorcio Internacional del Genoma que colectivamente logrado la notable hazaña de la secuenciación del genoma humano en su totalidad, así como a los que trabajaron sin descanso para mejorar el acceso público a bases de datos biológicas. Este trabajo fue apoyado en parte por la Asociación de Alzheimer la concesión "Identificación de Novela en la edad de inicio de acción de los genes en cromosomas 10 en la Enfermedad de Alzheimer", así como el NIH siguientes subvenciones: NHLBI subvención P01 HL73042-01 (PJG-C., ERH , HXMP-V., JES, JMV), NINDS subvenciones R01 AG021547 (V-MP), P01 NS26630-15 (V-MP), R01 NS36768-07 (V-MP), la Agencia Nacional de subvención R01AG19757-01, P50-NS39764 04 y su suplemento P50 NS39764-04S1 (JMV), NIEHS ES11375 JES (HX) está apoyado también en partby NIEHS K-22 subvención ES00372.