BMC Systems Biology, 2007; 1: 19-19 (más artículos en esta revista)

Estudio de la función de genes sobre la base de co-espacial en una expresión de alta resolución atlas del cerebro de ratón

BioMed Central
Liu Zheng (zliu@cs.ucr.edu) [1], S Frank Yan (syan@gnf.org) [2], John R Walker (jwalker@gnf.org) [2], Theresa A Zwingman (theresaz @ alleninstitute . org) [3], Jiang Tao (jiang@cs.ucr.edu) [1], Jing Li (jingli@eecs.case.edu) [4], Yingyao Zhou (zhou@gnf.org) [2]
[1] Departamento de Ciencias de la Computación, Universidad de California, Riverside, 900 University Avenue, Riverside, CA 92521, EE.UU.
[2] Instituto de Genómica de la Fundación de Investigación Novartis, 10675 John Jay Hopkins Drive, San Diego, CA 92121, EE.UU.
[3] Allen Institute for Brain Science, 551 N calle 34, Suite 200, Seattle, WA 98103, EE.UU.
[4] Ingeniería Eléctrica y Ciencias de la Computación Departamento, Case Western Reserve University, 10900 Euclid Avenue, Cleveland, Ohio 44106, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

El Allen Brain Atlas (ABA) sistemáticamente perfiles de proyectos tridimensionales de alta resolución de la expresión génica en los cerebros de ratón postnatal para los miles de genes. Descubrimiento de genes de los comportamientos, tanto en el plano celular y molecular, la ABA se está convirtiendo en una única y amplia fuente de datos de la neurociencia para descodificar enigmático procesos biológicos en el cerebro. Dado el volumen sin precedentes y la complejidad de la hibridación in situ los datos de la imagen, minería de datos en este ámbito es sumamente difícil. Actualmente, la base de datos de la ABA sirve principalmente como una línea de referencia para la inspección visual de cada uno de los genes; los ricos información de este gran conjunto de datos aún no se ha explorado novela de herramientas computacionales. En esta prueba de concepto de estudio, se estudió la hipótesis de que el intercambio de genes similares tridimensional de perfiles de expresión en el cerebro del ratón es probable que comparten las mismas funciones biológicas.

Resultados

Con el fin de abordar el reto patrón de comparación en el análisis de la base de datos de la ABA, hemos desarrollado una sólida imagen de filtrado método, denominado histograma de la fila de la columna (HRC) algoritmo. Hemos demostrado cómo el algoritmo de Derechos Humanos ofrece la sensibilidad de la identificación de un número de pares de genes sobre la base de patrones de búsqueda automática de un gran cerebro original colección de imágenes. Esta herramienta nos permite identificar rápidamente los genes similares de hibridación in situ en las modalidades de semi-automática de la moda y, por consiguiente, nos permite descubrir varios patrones de expresión de genes con expresión barrios que contienen genes de similar categorías funcionales.

Conclusión

Dada una consulta de imagen cerebral, el Comité de Derechos Humanos es un algoritmo completamente automatizado que es capaz de minas rápidamente gran número de imágenes del cerebro y de identificar un manejable subconjunto de los genes que potencialmente acciones similares espacial co-patrones de distribución para una mayor inspección visual. Un tridimensional hibridación in situ patrón, si estadísticamente significativa, podría servir como una huella digital de determinados genes función. Bases de datos tales como la ABA prestar una valiosa fuente de datos para la caracterización del cerebro relacionadas con el gen funciona cuando armados con potentes instrumentos de búsqueda de imágenes como el Comité de Derechos Humanos.

Fondo

Se estima que sólo el ~ 1% de los genes expresados en el cerebro humano se estudian a más del 99% de los estudios publicados neurociencia; estamos lejos de comprender el enigmático procesos biológicos en el cerebro [1]. Tecnología de microarrays se ha aplicado con éxito para el perfil de expresión del paisaje de toda la transcriptome en paralelo, sin embargo, el tamaño típico de muestras de cerebro disecado para la extracción de mRNA sólo permite la detección de una media mundial de expresión en un nivel relativamente elevado región anatómica, por lo que norma matriz basada en la expresión génica de conjuntos de datos a menudo carecen de la deseable de alta resolución requerida para la neurociencia estudios [2, 3]. Con el fin de preservar las relaciones entre el cerebro circuitos, tipo de células, y la expresión de genes, todas las cuales son cruciales para comprender el mecanismo molecular del cerebro, hibridación in situ la tecnología se ha desarrollado [4], que puede ser aplicado para medir los tres dimensional de alta resolución expresión mapa de genes del cerebro de una en una. El Allen Brain Atlas proyecto [5, 6], sin duda, uno de los más ambiciosos post-genoma proyectos, tiene por objeto crear una sistemática de la expresión génica detallado atlas del cerebro del mayor número de 24000 genes de 2006. Para cada gen, 25 μ m de espesor cerebro secciones se cortan a cada 100-200 μ m en todo el cerebro del ratón. Hibridación de genes antisentido sondas específicas para el cerebro de diapositivas permite la medición cuantitativa del nivel de transcripción del mRNA en una resolución sin precedentes celular. En el momento de este estudio, los datos sobre 6080 genes fueron puestos en libertad en Internet en el Allen Brain Atlas base de datos [5]. Con un estimado de la tasa de generación de 300 megabytes de datos del mapa por día [1], tanto el volumen y la complejidad de los datos de la imagen presentan un reto difícil informática. Actualmente, el atlas del cerebro base de datos sirve principalmente como una línea de referencia para el examen visual de cada uno de los genes. La riqueza biológica del conocimiento implícito en esta base de datos más grande de la neurociencia todavía no se ha explorado-novela herramientas computacionales son esenciales para este tipo de intentos.

Los genes con similares perfiles de expresión a través de un panel de diferentes condiciones biológicas se sabe que tienden a compartir las funciones biológicas similares a un principio conocido como la culpabilidad por asociación (GBA) [7 - 11]. La ampliación del concepto GBA al cerebro atlas hipótesis que comparten genes similares cerebro expresión espacial paisajes también podría implicar similares funciones biológicas. Si validado, esta idea, naturalmente, convertirse en un poderoso instrumento de genómica funcional para la caracterización de los genes de funciones desconocidas, así como el descubrimiento de nuevos papeles para los genes conocidos. Uno puede imaginar una futura versión de la ABA base de datos que proporciona un patrón exacto de consulta y herramienta de comparación para ayudar a los neurocientíficos descubrir genes de interés espacial y los posibles perfiles de los socios de la red a fin de comprender mejor el mecanismo molecular de un objetivo implicados en determinadas enfermedades. De hecho, la ABA ha avanzado en esta dirección en el momento de nuestro escrito.

Para llevar a cabo tal prueba de concepto de estudio, habida cuenta de una consulta de genes de interés, lo primero que tienen que desarrollar un algoritmo para ayudar a filtrar los genes, evidentemente, no vinculados y destacar una manejable subconjunto de los genes que podrían compartir similares patrones de expresión espacial. Debido a la complejidad del problema, los genes candidatos descubiertos por el algoritmo se sigan sometidas a la inspección visual humano, es decir., La sensibilidad del algoritmo es más importante, dada la especificidad razonable. En este estudio, hemos desarrollado y comparó tres cifras imagen similitud de genes necesarios para el filtrado con la creciente complejidad: un ingenuo pixel-sabia métricas, un ajustado pixel-sabia métricas, y un histograma de la fila de la columna (HRC) métricas basadas en series de tiempo resumen datos. Estos tres parámetros son comparados y la superioridad de la Comisión de Derechos Humanos algoritmo fue validado por estudios de validación cruzada. Los estudios biológicos presentados en los Resultados y Discusión sección son todos posibles de utilizar el Consejo de Derechos Humanos como un algoritmo totalmente automatizado eficiente de primer paso del filtro.

Luego estudió varios patrones espaciales de hibridación y demostraron que, en muchos casos, un atlas cerebral selectiva puede representar una expresión del vecindario que se compone de genes de función enriquecido estadísticamente categorías. Estos descubrimientos fueron validados luego cruzar el uso de otros relacionados con bases de datos incluyendo el tejido GNF Atlas [2], GenePaint.org [12], y la base de datos NCBI GENSAT [13]. La mayoría de interesante, nuestros resultados ilustran la forma espacial co-conduce a la expresión funcional de enriquecimiento para el AMP cíclico (AMPc) vía de reglamentación, especialmente en importancia para adenylyl ciclasa. Hemos validado que substantia nigra enriquecimiento sirve como un patrón de la firma para la crítica vía dopaminérgica nigroestriada implicados en la enfermedad de Parkinson después de examinar la CDD, Slc6a3, y Slc18a2 genes, lo cual es coherente con las últimas conclusiones [14]. Llegamos a la conclusión de que los populares culpabilidad por asociación principio puede ser muy bien aplicado a la base de datos atlas cerebral, transformándola en una rica fuente para estudios de genómica funcional en neurociencias, además de un repositorio de datos de referencia.

Resultados y discusión
Medir la similitud de dos imágenes del cerebro

El objetivo de este estudio es investigar si los genes con similar espacial expresión mRNA de distribución en el cerebro tienden a ser funcionalmente relacionadas. En primer lugar hay que identificar todos los genes con expresión mRNA similar a una determinada consulta de base genética en el cerebro la imagen en una diapositiva ubicación, y analizar la lista resultante de genes para cualquier estadísticamente significativo enriquecimiento funcional basado en las anotaciones existentes biológicos en la literatura o de genes ontología bases de datos. La medición de la semejanza de dos imágenes del cerebro es un cálculo bastante complicado problema por varias razones. En primer lugar, la base de datos de la ABA, que consiste en un creciente gran número de imágenes del cerebro, hace que sea casi imposible para la inspección manual. En el momento en que este estudio comenzó, los datos de imagen de 6080 se publicaron los genes con docenas de imágenes por los genes correspondientes a diferentes lugares de la anatomía cerebral. Este número está aumentando con mucha rapidez. Por una sola imagen de consultas, más de un millón de pares de imágenes tendrían que ser comparado ahora. En segundo lugar, además de la exigencia de sofisticadas soluciones de gestión de datos, la complejidad de una imagen del cerebro plantea un importante desafío computacional en términos de procesamiento de imágenes y reconocimiento de patrones. Además de estos factores, el cerebro muestras se obtienen a partir de diferentes ratones, lo que resulta en que el cerebro global tamaño y forma, así como el contorno de cada región de la anatomía cerebral, pueden variar significativamente, incluso si uno analiza la misma región del cerebro en la misma sección posición. En tercer lugar, la hibridación con sondas de genes diferentes tienen propiedades bioquímicas heterogéneos, lo que podría dar lugar a la hibridación diferentes niveles de intensidad de la señal y el potencial de hibridación entre los niveles de fondo a través de genes. Uno también debe tener en cuenta los factores técnicos, como muestra de diferentes orientaciones y la digitalización artefactos en el brillo y el contraste. Es evidente cualquier algoritmo que automáticamente mide la similitud de dos imágenes del cerebro debería ser robusto frente a las mencionadas técnicas biológicas y variaciones. Sin embargo, debido a la complejidad del problema, no esperamos tal algoritmo de ser lo suficientemente bueno para reemplazar a la inspección visual humana, sino que debe actuar de forma automática y eficiente de primer paso filtro para resaltar un subconjunto de los genes candidatos diapositivas, que es manejable para el segundo paso refinamiento visual.

El nivel de expresión génica de una hibridación in situ se representa como una imagen RGB en la base de datos de la ABA. La comparación de la expresión espacial entre las distintas imágenes es en realidad un problema de registro de imagen, cuya ejecución depende altamente de la calidad de la distancia métrica para un par de imágenes. Típica imagen de métodos de registro puede tener la intensidad de los píxeles de distribución o calcular el píxel por píxel distancias utilizando distancia euclidiana, coeficiente de correlación de Pearson, etc El enfoque más relevantes para nuestro estudio es el uso de la mezcla de Gaussian modelo para el análisis de la distribución de expresión [ 15]. Pero este método no es aplicable en este caso para analizar imágenes de la ABA, porque carece de la capacidad de manejo de las variaciones anatómicas en regiones diferentes del cerebro a través de diapositivas. Los parámetros utilizados en los planos mundial y local Gaussian mezcla modelo se pongan en venta no reflejan la expresión de genes de propiedad directa. Kumar et al. [16] utiliza la superposición entre binarized imágenes para medir la distancia. Estas cifras se han diseñado para representar la similitud global o local de similitud entre las imágenes para diferentes aplicaciones y son similares a nuestro ingenuo pixel-sabia algoritmo. En este sentido, propuso tres alternativas diferentes a distancia métrica para comparar un par de imágenes del cerebro con aumento de la complejidad, es decir, ingenuo pixel-a distancia prudente métricas, con un ajuste de píxel distancia prudente métricas, y un método basado en la intensidad de los resúmenes de histograma, fila y columna (de modo - El Comité de Derechos Humanos pidió el método). Cabe señalar que la ABA también ha puesto en libertad máscara de imágenes en miniatura junto con el original scans (máscara imágenes tienen todos los antecedentes, brillo, y el contrato factores corregida). En comparación con el original hibridación exploraciones, el uso de máscara de imágenes ha dado lugar a una significativa mejora del rendimiento como se esperaba. Además, al final de nuestro estudio, la ABA sitio web comenzó a proporcionar las características cualitativas de consulta que permiten a los usuarios buscar los genes sobre la base de "baja / media" o "alto" los niveles de expresión en 11 regiones seleccionadas del cerebro. Carson et al. ha publicado recientemente una subdivisión de malla para una mejor técnica de reconocimiento de patrones de regiones cerebrales basado en una serie de diapositivas de referencia; web que proporcionan patrón de herramientas de consulta a través de GenePaint.org [14]. En comparación con estos últimos acontecimientos, nuestro método todavía ofrece la ventaja de descripción cuantitativa de los patrones de expresión en una forma automática. Creemos que ambos aspectos son importantes para el futuro desarrollo de una gran base de datos de imágenes del cerebro tales como la ABA.

Formación de la Comisión de Derechos Humanos factores de ponderación

Un conjunto de pares de imágenes con "verdaderas" las distancias se requiere para capacitar a los factores de ponderación en el método de Derechos Humanos (ver Métodos) y objetivamente punto de referencia para la realización de diversas métricas de distancia. Para construir ese imparcial conjunto de datos, recurrimos al hecho de que se desliza de un determinado gen tienen patrones de textura similar si se obtienen a partir de una estrecha vecindad, mientras se desliza con mayor probabilidad diferente si se toman de regiones cerebrales muy distantes. Por lo tanto, la distancia física entre dos diapositivas de un mismo gen, en cierta medida, representa su "verdadero" similitud.

Un total de 1091 sagital miniatura imágenes de diapositivas para 60 genes fueron descargados de la ABA sitio web; el número de diapositivas por genes oscila entre 15 a 20. Como se describe en Métodos, el Comité de Derechos Humanos factor de ponderación establecido que tiene el mejor promedio de rendimiento en todos los 60 genes es elegida como la final, factores de ponderación óptima. Estamos posteriormente llevó a cabo una recta final de la combinación de todos los 60 genes como el conjunto de capacitación y nuestro final óptimo factores de ponderación son [1,98, 107,39, 11,91] con un promedio de coeficiente de correlación de Pearson de 0,58.

Comparación de los tres parámetros a distancia

Para cada uno de los 60 genes utilizados para la realización de pruebas, primero corrió tanto el ingenuo pixel-sabio y el algoritmo ajustado pixel-sabia algoritmo en todos los pares de diapositivas dentro de cada genes y calculó un coeficiente de correlación de Pearson entre la resultante de diapositivas predijo distancias d y ab su "verdadero" distancias d un b * MathType MTEF @ @ @ 5 + 5 = @ feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaqhaaWcbaGaemyyaeMaemOyaigabaGaey4fIOcaaaaa @ @ 31B1 . Los métodos tienen una media coeficiente de correlación de 0,27 y 0,40 para los 60 genes seleccionados, respectivamente. Por otra parte, con el fin de evaluar el desempeño del Consejo de Derechos Humanos algoritmo, se aplicó la norma k veces método de validación cruzada. Los 60 genes se dividieron en k particiones de igual tamaño (por tanto k = 3 y k = 10 en este estudio), cada combinación de las particiones k -1, a su vez, fue utilizado como la formación conjunto para determinar el mejor conjunto de factores de ponderación y el resto de partición se utiliza como el conjunto de pruebas para evaluar el desempeño del Consejo de Derechos Humanos método (un total de 60 coeficientes de correlación, es decir, uno por cada gen). El procedimiento fue repetido 20 veces para reducir la diferencia estadística (un total de 1200 estimaciones); adicionales permutaciones no dio lugar a grandes cambios en los resultados. En concreto, en tanto los de 3 veces y 10 veces entre estudios de validación, el Comité de Derechos Humanos algoritmo logrado un promedio coeficiente de correlación de Pearson de 0,58 (para ambos conjunto de formación y las pruebas establecidas). Fig. 1 muestra el cuadro de parcela de la distribución de los resultados de correlación. Es evidente que el Comité de Derechos Humanos método supera a los ingenuos y ajustado pixel-sabia algoritmos.

Con el fin de evaluar el desempeño de estos tres algoritmos, pruebas estadísticas se aplicaron a los tres grupos obtenidos de los coeficientes de correlación. Como se muestra en la Tabla 1, tanto paramétricos dos colas "t" de Student y no paramétrica de Wilcoxon test muestran que la mejora de la ajustada método en comparación con el ingenuo es estadísticamente muy significativa (p-valor = 1,5 × 10 -5 y 1,8 × 10 -6, respectivamente). Esto está en consonancia con nuestra expectativa de que la aplicación de base de operaciones de transformación puede mejorar significativamente la precisión en el reconocimiento de imágenes cerebrales similares. Similar pruebas estadísticas muestran que la mejora de la CDH en relación con el ajustado pixel-sabio método también es estadísticamente significativa en ambos casos de 3 - y 10 veces validación cruzada simulaciones (valor de p <10 -12, Tabla 1]. Esto indica que el píxel sabio método es menos robusto frente a variaciones de diapositivas a través de diferentes muestras del ratón, y mediante el uso de un resumen basado en vectores métricas, el Comité de Derechos Humanos algoritmo de hecho se vuelve más sensible y puede reconocer diapositivas en estrecha vecindad.

La aplicación del método de Derechos Humanos

Con base en lo anterior comparaciones, el Comité de Derechos Humanos es nuestro algoritmo final método de elección. Teniendo en cuenta el hecho de que el Comité de Derechos Humanos algoritmo es insensible a los ajustes en la cruz por encima de pruebas de validación, estamos seguros de que, dado un determinado gen de diapositivas de interés de la CDH métricas es capaz de ayudarnos a filtrar un gran número de la expresión génica no vinculados imágenes sin humanos intervención. Hemos aplicado el algoritmo de Derechos Humanos para estudiar varios genes de interés biológico con el fin de evaluar la viabilidad de llevar a cabo un estudio de genómica funcional espacial basado en la expresión génica en el cerebro del ratón.

Desde 6080 la ABA gen imágenes fueron sólo disponible para la navegación en Internet, descargar manualmente 2759 sagital cerebro diapositivas de 145 genes de esta prueba de concepto de estudio. Habida cuenta de un gen de interés biológico, que identificó por primera vez un cerebro diapositiva que muestra interesantes características textuales poco frecuente y se utiliza como consulta nuestra imagen. A continuación se aplica el algoritmo de Derechos Humanos a todas las diapositivas del cerebro que están dentro de 200 diapositivas distancia que les separa de la consulta de diapositivas posición para clasificar estas diapositivas, y localizar los genes con perfiles similares. El Comité de Derechos Humanos algoritmo se aplica recursivamente a la nueva serie de genes que pasan nuestros inspección visual hasta que un grupo básico de los genes del cerebro con similares patrones de expresión atlas se obtuvo (basado en la sentencia visual). Por último, llevamos a cabo el análisis funcional biológica del gen lista, basada en la literatura de búsqueda, así como otras similares, de menor escala cerebro hibridación in situ las bases de datos. Varios ejemplos interesantes se han encontrado que la culpabilidad por asociación principio puede aplicarse con éxito para establecer el vínculo entre un gen característico patrón de distribución espacial y un gen específico categoría funcional. Hemos resumido estas conclusiones en las siguientes secciones.

Tipo 5 adenylyl ciclasa es el principal responsable de isoforma estriatal Adenilato ciclasa actividad

El gen codifica Adcy5 Adenilato ciclasa 5, que se cree es la principal isoforma responsable de la actividad adenylyl ciclasa en cuerpo estriado del ratón y se sugirió a ser un sitio de convergencia para ambos dopamina D 1 y D 2 vías de señalización [17, 18]. El examen de ambas coronal y sagital ABA imágenes de este gen puso de manifiesto que es muy, si no exclusivamente, expresada en la región del estriado del cerebro del ratón, sobre todo caudoputamen (CP), núcleo accumbens (ACB), y el tubérculo olfatorio (OT) (Fig. . 2 y las dos imágenes de referencia Atlas-Sagittal-38 y C-Atlas-coronal-291). Además, hemos examinado otros ratón adenylyl ciclasa isoformas, como Adcy2, Adcy8, y Adcy9, que también son selectivamente expresado en el cerebro. Disponible ABA imágenes para Adcy2, Adcy8, y Adcy9 no muestran similitud en el patrón espacial de expresión en comparación con Adcy5 (Fig. 2], indicando el distintivo isoformas estas funciones pueden desempeñar en el ratón del sistema nervioso central. De hecho, Adcy5 null ratones expresan un fenotipo de motor disfuncionales en consonancia con una ruptura en estriatal de dopamina señalización [17]. N general, los trastornos del aparato locomotor se observó en ratones Adcy8 nula [19]. Ninguna de estas fenotipo se ha descrito para Adcy9 null ratones, y no se disponía de información para Adcy2 ratones nulos [20]. En este caso, fuimos también capaces de referencia las correspondientes hibridación in situ las imágenes de otras dos bases de datos de cerebro de ratón: GenePaint [12] y bases de datos NCBI GENSAT [13]. Las imágenes de estas bases de datos muy bien de acuerdo con los datos de la ABA (Fig. 2]. Sin embargo, no encontramos en los datos relacionados con la genómica funcional Mahoney Atlas de la base de datos del cerebro de ratón [21].

Usando un componente clave Adcy5 neuronal en el AMP cíclico de señalización como un patrón de consulta, la Comisión de Derechos Humanos algoritmo es capaz de identificar otras proteínas que participan en este itinerario

Habida cuenta de su cuerpo estriado-expresión concreta y aparente participación en la importante vía dopaminérgica nigroestriada [17, 18], se aplicó Adcy5 como un patrón de consulta (diapositiva posición sagital 2175) para buscar en todo el conjunto de datos obtenidos anteriormente usando el algoritmo de Derechos Humanos. Se encontró que el mejor clasificado de genes incluyen Pde1b, Gng7, Drd1a, y Drd2 (Cuadro 2 y Fig. 3]. En concreto, Pde1b codifica Ca 2 + / calmodulina dependiente de la fosfodiesterasa 1B, que se encarga de hydrolyzing de nucleótidos cíclicos y por lo tanto, presumiblemente junto con Adcy5, mantiene AMP cíclico (AMPc) en equilibrio cuerpo estriado del ratón. Por otra parte, Drd1a y Drd2 codificar los receptores de dopamina D 1 y D 2, respectivamente, lo que se sabe que están implicados en la señalización neuronal vía cAMP [22]. De hecho, se ha demostrado que disminuye la actividad Pde1b aumentos de señalización cAMP en respuesta a la dopamina D 1 agonista de los receptores y, por consiguiente, mejora la función dopaminérgica, presumiblemente, a través de Darpp32 (también conocido como Ppp1r1b) y las vías [23]. Además, Gng7 codifica la proteína G subunidad γ 7 y un knockout estudio ha demostrado que la supresión de este gen se traduce en disminución de la actividad estriatal adenylyl [24], en consonancia con su presunta implicación en la vía neuronal cAMP. Parece ser que la culpabilidad por asociación principio también es válido en términos de distribución espacial de genes. Por otra parte, tal y como se muestra en la Fig. 3, la ABA datos así también de acuerdo con GenePaint y GENSAT imágenes siempre que se disponga.

Por un lado, nos damos cuenta de Derechos Humanos de hecho, efectivamente algoritmo identifica los genes de los patrones de expresión. Entre los 20 primeros genes en el cuadro 2, cinco son los genes que se sabe están involucrados en Adenilato ciclasa actividad y / o de locomoción comportamiento sobre la base de una anotación de genes existentes base de datos [25]. Además, utiliza ingenio Pathway Análisis (IPA) de software [26] para el estudio de las funciones relacionadas con estos cinco genes, y se constató que todos están implicados en el comportamiento de la función, en su mayoría actividad locomotora del ratón, con un valor de significación de 10 -21 . Además de la validación de la CDH propio algoritmo, el resultado también indica que el patrón de expresión Adcy5 puede ser un patrón de la firma de la señalización neuronal vía cAMP (Fig. 2]. Por otra parte, nuestra inspección ocular comprobó que Ppp1r1b, que codifica la proteína fosfatasa 1 de reglamentación subunidad 1B, también comparte patrón de expresión similar en el cuerpo estriado región en comparación con Adcy5. El Comité de Derechos Humanos algoritmo no es capaz de identificar, a pesar del hecho conocido que está implicado en el AMP cíclico neuronal señalización [22]. Un examen más detenido de la ABA imagen reveló que Ppp1r1b es, en efecto, altamente expresado en el cuerpo estriado como Adcy5 región, mientras que en la actual ABA imagen también es ampliamente expresado en la corteza cerebral. Esto podría impedir que la CDH algoritmo de alto rango de este gen. No obstante, sobre la base de la GENSAT imagen de Ppp1r1b, es altamente expresado principalmente en el cuerpo estriado región, teniendo distribución importante similitud con Adcy5 (Fig. 3]. Gpr88 es conocido por ser un cuerpo estriado específicas G-proteína del receptor acoplado [27], que también comparte gran similitud con la secuencia de 5-HT 1D receptor. Su sorprendentemente similares con la distribución espacial Adcy5 sugiere que también podría ser un uncharacterized de genes implicados en cAMP vía neuronal. Knockout validaciones se están llevando a cabo.

AMP cíclico reguladas phosphoprotein 21 isoforma 1 es el único producto génico de Arpp21 que participan en la estriatal cAMP y Ca 2 + / calmodulina vía de señalización

Un estudio muestra que los genes Arpp21 (AMP cíclico reguladas phosphoprotein 21) codifica una importante proteína reguladora, regulador de señalización calmodulina (RCS), que participa en la señalización celular cAMP vía regulada por la proteína quinasa A (PKA) y de proteínas fosfato 2B (PP2B), en particular en el medio estriatal espinosa neuronas [22]. Sin embargo, nuestra búsqueda inicial no fue capaz de asociar Arpp21 a los demás miembros que participan en el campamento itinerario, como Adcy5, Pde1b, etc A continuación utilizaron la UCSC Genoma navegador de examinar más a fondo la estructura genética de Arpp21. Se nos ocurrió que hay dos variantes de transcripción, es decir, RefSeq adhesión números NM_028755 y NM_033264, que codifican Arpp21 isoformas 1 y 2, respectivamente. Basándose en los datos disponibles de los recursos GNF SymAtlas [28], que consiste en datos de expresión génica en tejidos de ratón 61 [2], encontramos dos conjuntos de sonda en la GNF1M Gene Chip que fueron diseñados a partir de lo anterior isoformas independiente. Probe conjunto gnf1m05729_a_at (NM_028755), muestra alta expresión en straitum dorsal y baja expresión en timo, mientras que gnf1m25842_a_at (NM_033264), muestra en medio de expresión y straitum dorsal alta expresión en el timo (Fig. 4]. Esto sugiere que la sonda Arpp21 original diseñado por el Instituto Allen podría basarse en NM_033264 y una nueva sonda utilizando NM_028755 era conveniente. Los datos sobre ambas variantes de Arpp21 están ahora disponibles de la ABA después de nuestra propuesta inicial, una búsqueda usando repetidas Arpp21 (RefSeq NM_028755) como la consulta de genes en la nueva recopilación de datos encontrado genes como Adcy5, Gng7, y Pde1b se encuentran entre los mejor clasificado de los . Como claramente se muestra en la Fig. 3 y Fig. 4, Arpp21 isoforma 1 (RefSeq NM_028755) está muy localizada en el cuerpo estriado región al igual que otros que participan en la vía cAMP estriatal se ha mencionado anteriormente. La diferencia significativa de la expresión patrón de Arpp21 isoforma 2 (RefSeq NM_033264), que inicialmente apareció como un GBA atípicas, es, de hecho, debido a la variación de empalme.

Principales genes implicados en la vía dopaminérgica nigroestriada y la enfermedad de Parkinson se enriquecen en substantia nigra

El transportador de dopamina (DAT), codificadas por los genes Slc6a3 [soluto familia transportista 6 (transportador de neurotransmisores, dopamina), miembro 3], desempeña un papel crítico en la vía dopaminérgica nigroestriada que participa en el desarrollo patológico de la enfermedad de Parkinson [29, 30 ]. La ABA imágenes muestran que Slc6a3 expresión es altamente enriquecido en la substantia nigra (Fig. 5], de conformidad con diversos estudios previos [2, 14, 31]. A continuación, aplica Slc6a3 (transparencia posición 2050) como el patrón de consulta para la búsqueda de datos utilizando el algoritmo de Derechos Humanos. En los 50 primeros genes con exclusión de Slc6a3, que contiene Lix1, Ptpru (también conocido como Ptprl), Lmx1b, Aldh1a1, Slc18a2, y DDC. Este hallazgo es consistente con un estudio anterior que también se emplea el cerebro del ratón las imágenes la expresión de genes [14]. Además, tres genes, es decir, Aldh1a1, DDC, y Slc18a2, se encuentran para ser funcionalmente anotado como "trastorno neurológico" de API con un importante valor de 10 -4. Se sabe que la CDD, Slc18a2, codificar y Slc6a3 tres grandes jugadores en la vía dopaminérgica nigroestriada, es decir, aromático descarboxilasa de aminoácidos (AADC), transportador vesicular monoamine 2 (VMAT2), y transportador de dopamina, respectivamente, y se han propuesto para actuar como biomarcadores en la evaluación clínica de la enfermedad de Parkinson [29]. Además, la expresión de estos genes se encuentran a disminuir en modelos animales de la enfermedad de Parkinson [31].

Cabe señalar que Slc6a3 y las formas conexas de genes se expresan en una parte muy pequeña, localizada región del cerebro del ratón (Fig. 5]. Esto puede crear dificultades para la Comisión de Derechos Humanos método para llevar a cabo patrones eficaces para una pequeña región, ya que la información de todas las filas y columnas de la imagen de todo el cerebro se utiliza para construir la fila y vectores columna, que pueden introducir ruido en el H, R, C vectores. Una posible mejora de este algoritmo es restringir las filas y columnas utilizadas en la creación de los vectores basados en regiones específicas de interés de una consulta de imagen. Esto puede aumentar la sensibilidad del método para el Comité de Derechos Humanos descubrimiento se pongan en venta las imágenes cerebrales.

La culpabilidad por asociación en un período de tres dimensiones nivel proporciona más información sobre la función de genes

De acuerdo con el ratón GNF tejido atlas, hemos descubierto que los genes AVP (arginina vasopresina), Pmch (pro-melanina-la concentración de la hormona, conocida también como A230109K23Rik), y Hcrt (hypocretin) muestran casi idénticos perfiles de expresión en el hipotálamo y la región de preoptic el hipotálamo disecciones (Fig. 6]. Sin embargo, debido a limitaciones en la muestra de disección, de expresión datos obtenidos en un pañuelo de papel a nivel tienden a medir un "buen promedio" nivel de expresión de un gen en una determinada región cerebral. Por otro lado, la expresión datos obtenidos de la ABA proporcionar imágenes mucho más detalladas sobre la información tridimensional de la distribución de un gen en el cerebro del ratón y, por tanto, nos permite estudiar la función de genes con una mayor confianza sobre la base de la culpabilidad por asociación principio. En efecto, como se destaca en la Fig. 6 fuimos capaces de diferenciar las posibles funciones de Pmch, avp, y Hcrt con mayor resolución. En concreto, coronal diapositivas en la Fig. 6 muestran que Hcrt y Pmch se expresan bastante amplia en el hipotálamo, distintivo de la expresión patrón de AVP. Por otra parte, AVP expresión se concentra en una región llamada hipotálamo periventricular región, en el que ni Hcrt y Pmch son significativamente expresó. Sobre la base de la culpabilidad por asociación principio, es probable que Hcrt y Pmch las funciones relacionadas con la cuota, que son diferentes de la de AVP. Esto está de acuerdo con la literatura disponible que Hcrt / OX (orexin) podría tener un efecto sobre la salud maternoinfantil (melanina de la concentración de hormonas) y de expresión que, posiblemente, interactúan coordinadamente [32]. Además, la última Brain Explorer de ABA es capaz de mostrar dinámicamente la distribución de la expresión génica en un período de tres dimensiones, lo que trae el análisis de la expresión génica a un nuevo nivel y ofrece gran ayuda para el científico.

Direcciones futuras

En la etapa actual, sólo probado cientos de genes en este estudio piloto. Ciertamente hay más temas de investigación en la exploración de esta singular ABA espacial expresión génica conjunto de datos. Por ejemplo, después de filtrar los dissemble imágenes, es muy importante para desarrollar un método más refinado para clasificar las imágenes similares con el fin de identificar genes coregulated. Desde similares imágenes de alta similitud resultados globales con la consulta de imágenes, que podrían centrarse en la investigación de la similitud local y la información espacial para descubrir la mayoría de imágenes relacionadas con confianza. Además, creemos que el control de calidad y muestra la normalización de cerebro de ratón se desliza puede afectar nuestra capacidad en la aplicación de este algoritmo de procesamiento de imagen a los datos, y, por tanto, especial atención debe tenerse en cuenta.

Conclusión

Se estudió la expresión génica a través de la ABA GNF y atlas. With the help of our HRC filtering algorithm, we used the guilt by association approach to both confirm previous gene functional interactions and suggest new ones. Given query expression patterns of interest, we have shown that the HRC algorithm is able to produce a ranked gene list that is significantly enriched in visually confirmed positive hits and facilitates the discovery of signature patterns of important neurobiological pathways. We also highlighted the advantages of using this approach in databases of in situ hybridization images over microarray databases from tissue dissections. We believe a complete set of both coronal and sagittal mouse brain images will significantly facilitate confident (ie with statistical confidence) characterization of gene functions based on the unique information provided by ABA.

Métodos
Image preprocessing

Brain images may have differential background intensities due to both biological and technical variations; therefore, the background effect should be removed before carrying out any meaningful comparison. As the background-subtracted mask images were made available by ABA during this study, they were used for all the calculations presented here and the background correction techniques will not be discussed. The mask brain slides outline the brain boundary, and pixels outside the brain region can be easily identified and their intensities were set to zero. The rest of the image has high contrast levels and can be closely approximated as binary black-and-white bitmap images. We first convert the mask slides into grayscale images and then into bitmap images based on the 128 intensity threshold. The resultant bitmap images led to better query results and were used for this study, although all the methods presented here are applicable to grayscale images as well.

Naïve pixel-wise distance metric

Naive pixel-wise algorithm calculates a distance between two mask slides in a straightforward fashion. Given an image pair a and b , with A and B denoting their binary expression matrices, respectively. Only those pixels considered as foreground in both images ( F a and F b ) are taken into account, when comparing the two matrices. The naïve pixel-wise distance between a and b , denoted as d ab , is defined by the city-block/Manhattan distance as:

d un b = i , j | A i j -- B i j | i , j 1 , ( i , j ) F un F b MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaWgaaWcbaGaemyyaeMaemOyaigabeaakiabg2da9maalaaabaWaaabuaeaadaabdaqaaiabhgeabnaaBaaaleaacqWGPbqAcqWGQbGAaeqaaOGaeyOeI0IaeCOqai0aaSbaaSqaaiabdMgaPjabdQgaQbqabaaakiaawEa7caGLiWoaaSqaaiabdMgaPjabcYcaSiabdQgaQbqab0GaeyyeIuoaaOqaamaaqafabaGaeGymaedaleaacqWGPbqAcqGGSaalcqWGQbGAaeqaniabggHiLdaaaOGaeiilaWIaeeiiaaYaaeWaaeaacqWGPbqAcqGGSaalcqWGQbGAaiaawIcacaGLPaaacqGHiiIZcqWGgbGrdaWgaaWcbaGaemyyaegabeaakiabgMIihlabdAeagnaaBaaaleaacqWGIbGyaeqaaaaa@5974@

where a pixel ( i , j ) is identified by its location at the i th row and the j th column of the image matrix.

Adjusted pixel-wise distance metric

In addition to the basic background subtraction and contrast scaling that have been carried out for the mask slides, image pairs may require certain transformation operations such as translation and scaling in order to become more comparable. In the adjusted pixel-wise distance metric calculation, we address some of these factors, which may lead to an improvement in sensitivity. This method first linearly scales the height of foreground image F b to match the height of F a , then translates image F b horizontally with respect to F a in order to minimize d ab . We observed that for slides around the similar positions of the brain, their orientations are reasonably consistent. On the other hand, both sample size and shape differ significantly for slides with larger distance. Therefore, it is undesirable to perform the rotation optimization for such image pairs.

Histogram-row-column (HRC) distance metric

The above two methods are both pixel-wise. Due to the complexity of the brain image, the adjustments carried out in the adjusted pixel-wise metric approach may not be sufficient and robust enough against various uncertain factors. Here we propose a non pixel-wise distance metric. The algorithm first performs all the steps in the adjusted pixel-wise method to minimize the distance between two mask slides according to Eqn. 1. We then generate three summary vectors to capture both global and local texture features of an image. Binary histogram H , which simply counts the percentage of pixels H k at each value k = 0 or 1, is a well known global summary metric. Sharing of a similar binary histogram is a necessary but not sufficient condition for two images to be considered similar. In order to address the drawback of omitting spatial distribution in the H vector, the binary matrix is further summarized into two additional vectors: a row vector R and a column vector C . Specifically, R i is calculated by summing the bits of all foreground pixels at row i ; C j is calculated by summing the bits of all foreground pixels at column j . H , R , and C can then be treated as time series data, where each time spot corresponds to a binary intensity, a row, or a column. Fig. 7 shows the H , R , and C vectors of three gene slides. It is clear that summary vectors between slide 2175 of Adcy5 and slide 2050 of Pde1b show a great deal of similarities, while those for slide 2275 of Ddc behave quite differently. This illustrates the basic idea of the HRC algorithm in sifting away brain slides that appear significantly different from the query slide. Distances between two images can be defined straightforwardly as:

d un b H = k = 0 , 1 | H k un -- H k b | 2 MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaqhaaWcbaGaemyyaeMaemOyaigabaGaemisaGeaaOGaeyypa0ZaaSaaaeaadaaeqbqaamaaemaabaGaemisaG0aa0baaSqaaiabdUgaRbqaaiabdggaHbaakiabgkHiTiabdIeainaaDaaaleaacqWGRbWAaeaacqWGIbGyaaaakiaawEa7caGLiWoaaSqaaiabdUgaRjabg2da9iabicdaWiabcYcaSiabigdaXaqab0GaeyyeIuoaaOqaaiabikdaYaaaaaa@4742@

d un b R = i | R i un -- R i b | i R i un + i R i b , i all rows MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaqhaaWcbaGaemyyaeMaemOyaigabaGaemOuaifaaOGaeyypa0ZaaSaaaeaadaaeqbqaamaaemaabaGaemOuai1aa0baaSqaaiabdMgaPbqaaiabdggaHbaakiabgkHiTiabdkfasnaaDaaaleaacqWGPbqAaeaacqWGIbGyaaaakiaawEa7caGLiWoaaSqaaiabdMgaPbqab0GaeyyeIuoaaOqaamaaqafabaGaemOuai1aa0baaSqaaiabdMgaPbqaaiabdggaHbaaaeaacqWGPbqAaeqaniabggHiLdGccqGHRaWkdaaeqbqaaiabdkfasnaaDaaaleaacqWGPbqAaeaacqWGIbGyaaaabaGaemyAaKgabeqdcqGHris5aaaakiabcYcaSiabbccaGiabdMgaPjabgIGiolabbggaHjabbYgaSjabbYgaSjabbccaGiabbkhaYjabb+gaVjabbEha3jabbohaZbaa@61A0@

d un b C = j | C j un -- C j b | j C j un + j C j b , j all columns MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaqhaaWcbaGaemyyaeMaemOyaigabaGaem4qameaaOGaeyypa0ZaaSaaaeaadaaeqbqaamaaemaabaGaem4qam0aa0baaSqaaiabdQgaQbqaaiabdggaHbaakiabgkHiTiabdoeadnaaDaaaleaacqWGQbGAaeaacqWGIbGyaaaakiaawEa7caGLiWoaaSqaaiabdQgaQbqab0GaeyyeIuoaaOqaamaaqafabaGaem4qam0aa0baaSqaaiabdQgaQbqaaiabdggaHbaaaeaacqWGQbGAaeqaniabggHiLdGccqGHRaWkdaaeqbqaaiabdoeadnaaDaaaleaacqWGQbGAaeaacqWGIbGyaaaabaGaemOAaOgabeqdcqGHris5aaaakiabcYcaSiabbccaGGqaciab=PgaQjabgIGiolabbggaHjabbYgaSjabbYgaSjabbccaGiabbogaJjabb+gaVjabbYgaSjabbwha1jabb2gaTjabb6gaUjabbohaZbaa@6522@

d un b = w H d un b H + w R d un b R + w C d un b C MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaWgaaWcbaGaemyyaeMaemOyaigabeaakiabg2da9iabdEha3naaBaaaleaacqWGibasaeqaaOGaeyyXICTaemizaq2aa0baaSqaaiabdggaHjabdkgaIbqaaiabdIeaibaakiabgUcaRiabdEha3naaBaaaleaacqWGsbGuaeqaaOGaeyyXICTaemizaq2aa0baaSqaaiabdggaHjabdkgaIbqaaiabdkfasbaakiabgUcaRiabdEha3naaBaaaleaacqWGdbWqaeqaaOGaeyyXICTaemizaq2aa0baaSqaaiabdggaHjabdkgaIbqaaiabdoeadbaaaaa@527A@

where w H , w R , and w C are three weighting factors that can be tuned based on their individual sensitivity in serving as independent distance metrics. Given a gene g of n slides, n 2 pair-wise image comparisons can be made. As mentioned above, when comparing two images the target image is transformed to optimally align with the query image; in this way, the algorithm might in principle perform slightly differently given different orders of two input images, and we count slide pair ( a , b ) and ( b , a ) as two different training instances. If d ab denotes the calculated distance according to Eqn. 5 between slide a and slide b of gene g , and d un b MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaqhaaWcbaGaemyyaeMaemOyaigabaGaey4fIOcaaaaa@31B1@ denotes the real physical distance between the two slides in the brain, the optimal set of weighting factors can then be determined by a global optimization routine:

( w H g , w R g , w C g ) = arg max w H , w R , w C Pearson ( d un b , d un b | un , b all slide pairs for g ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr@873B@

We then apply the weighting factors obtained from a particular gene g to the slides from all the other genes to assess their extrapolating performance. The factor set with the best average performance across the whole training set is then used.

Autores de las contribuciones

ZL developed the algorithm. SFY, JRW, TAZ, and YZ carried out most of the analyses. TJ and JL participated in the design of the study and helped algorithm development. ZL, SFY, and YZ drafted the manuscript. YZ conceived and coordinated the study. All authors have read and approved the final manuscript.