Plant Methods, 2006; 2: 5-5 (más artículos en esta revista)

Una representación flexible micos de los conocimientos para el análisis minucioso de los microarrays de datos

BioMed Central
Yoshikazu Hasegawa (maxwell@gsc.riken.jp) [1], Motoaki Seki (mseki@gsc.riken.jp) [2], Yoshiki Mochizuki (fmoon@gsc.riken.jp) [1], Naohiko Heida (heida @ Gsc.riken.jp) [1], Katsura Hirosawa (hirosawa@gsc.riken.jp) [1], Naoki Okamoto (n-okamoto@pb.jp.nec.com) [3], Tetsuya Sakurai (stetsuya @ psc . Riken.jp) [4], Masakazu Satou (msatou@psc.riken.jp) [4], Kenji Akiyama (kakiyama@psc.riken.jp) [4], Kei Iida (k_iida @ nagahama-i-bio. Ac.jp) [5], Kisik Lee (ekisik@kornet.net) [6], Shigehiko Kanaya (skanaya@gtc.aist-nara.ac.jp) [7], Taku Demura () [demura@riken.jp 8], Kazuo Shinozaki (sinozaki@rtc.riken.jp) [9], Akihiko Konagaya (konagaya@gsc.riken.jp) [10], Tetsuro Toyoda (toyop@gsc.riken.jp) [1]
[1] Phenome Equipo de Informática, Grupo de Investigación en Genómica Funcional, Centro de Ciencias Genómicas, RIKEN, Suehiro, Tsurumi, Yokohama, Kanagawa, Japón
[2] Plantas Equipo de investigación genómica funcional, genómica funcional Grupo de Investigación, Centro de Ciencias Genómicas, RIKEN, Suehiro, Tsurumi, Yokohama, Kanagawa, Japón
[3] NEC Infomatec Systems Ltd, Sakato, Takatsu, Kawasaki, Kanagawa, Japón
[4] Integrada de la Unidad de Investigación del Genoma Informática, Metabolomics Grupo, Plant Science Center, RIKEN, Suehiro, Tsurumi, Yokohama, Kanagawa, Japón
[5] Facultad de Bio-Science, Nagahama Instituto de Bio-Ciencia y Tecnología, Tamura, Nagahama, Shiga, Japón
[6] instituto de investigación de la tecnología de TI, Taehung Telcom co., Ltd, Dangsan-dong 3-ga 402, Youngdungpo-gu, Seúl, Corea del Sur
[7] Laboratorio de Genómica Comparada, Departamento de Bioinformática y Genómica, la Escuela Superior de Ciencias de la Información, NARA Instituto de la Ciencia y la Tecnología, Takayama, Ikoma, Nara, Japón
[8] Morphoregulation Equipo de investigación, la Planta de Productividad de Sistemas de Grupo de Investigación, Centro de Ciencias de Plantas, RIKEN, Suehiro, Tsurumi, Yokohama, Kanagawa, Japón
[9] Plant Science Center, RIKEN, Suehiro, Tsurumi, Yokohama, Kanagawa, Japón
[10] Avanzada Genoma Grupo de Investigación de Tecnología de la Información, Centro de Ciencias Genómicas, RIKEN Suehiro, Tsurumi, Yokohama, Kanagawa, Japón

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Con el fin de comprender los microarrays de datos razonablemente en el contexto de otros conocimientos biológicos existentes, es necesario realizar un examen exhaustivo de los datos utilizando todos los aspectos de los conocimientos disponibles micos bibliotecas. Hasta la fecha, una serie de herramientas de la bioinformática se han desarrollado. Sin embargo, cada uno de ellos se limita a hacer frente a un tipo de conocimiento micos, por ejemplo, las vías, las interacciones o la ontología de genes. Ahora que las variedades de micos están ampliando los conocimientos, herramientas de análisis necesitan una manera de hacer frente a cualquier tipo de conocimiento micos. Por lo tanto, hemos diseñado el Espacio Omic Markup Language (OSML) que puede representar a una amplia gama de conocimientos micos, y además, hemos desarrollado una herramienta llamada GSCope3, que puede analizar estadísticamente los microarrays de datos en comparación con el formato OSML-micos conocimiento de datos .

Resultados

Con el fin de probar la aplicabilidad de OSML para representar una variedad de micos conocimientos especialmente útil para el análisis de datos de microarrays Arabidopsis thaliana, hemos construido un Biológica Knowledge Library (BiKLi) mediante la conversión de ocho diferentes tipos de conocimiento en OSML micos con formato de datos. Se aplicaron GSCope3 y BiKLi comunicados anteriormente A. Thaliana microarrays de datos, a fin de extraer más información a partir de los datos. Como resultado, hemos descubierto una nueva visión de que la formación de lignina se resiste a la sequía y el estrés se activa la transcripción de muchos genes canal de agua para oponerse a la sequía, y la mayoría de los genes de la subunidad 20S proteosoma de manifiesto los mismos perfiles de expresión de las sequías. Además de este novedoso descubrimiento, similares conclusiones de informes anteriores también se confirmó rápidamente utilizando GSCope3 y BiKLi.

Conclusión

GSCope3 puede analizar estadísticamente datos de los microarrays en el contexto de cualquier OSML representados micos conocimiento. OSML no está restringida a un determinado tipo de datos de estructura, pero puede representar una amplia gama de conocimientos micos. Nos permite convertir los nuevos tipos de micos en el conocimiento de datos que se pueden utilizar para análisis de datos de microarrays con GSCope3. Además de BiKLi, mediante la recopilación de diversos tipos de micos OSML conocimiento como las bibliotecas, se hace posible para nosotros para realizar detallados análisis a fondo de diversos puntos de vista biológico. GSCope3 y BiKLi académicas están disponibles para los usuarios en nuestra página web http://omicspace.riken.jp.

Antecedentes

Desde el análisis de microarrays se desarrolló primeramente como una técnica para el análisis de la expresión de genes simultáneamente [1, 2], la investigación de los genes funcionales se ha llevado a cabo activamente utilizando microarrays y nuevos resultados se han obtenido. Sin embargo, siempre hay una posibilidad de que algunas funciones de genes por descubrir son pasados por alto por los biólogos analizar los microarrays de datos, debido a que la suma de la expresión de genes detectados por microarrays de información es tan grande que es difícil analizar los datos obtenidos plenamente. Por lo tanto, los diversos métodos y herramientas para el análisis de datos de microarrays se han desarrollado, especialmente en la comparación de datos con los microarrays conocimientos biológicos [3 - 6]. La importancia de la expresión de genes en redes biológicas (por ejemplo, las vías metabólicas) se observa [7, 8]. Dahlquist et al. [4] han desarrollado una herramienta que puede mostrar los perfiles de expresión génica de los microarrays de datos sobre redes biológicas.

En cuanto a la ontología conceptual estructurado de las funciones de genes, el consorcio de ontología de genes [9] proporciona un conjunto estructurado de vocabularios específicos para los dominios biológicos, que pueden ser utilizados para describir los productos de genes en cualquier organismo. Doniger et al. [5] han desarrollado una herramienta que puede mostrar el perfil de expresión génica de los microarrays de datos en un gráfico dirigido acíclicos de Gene Ontología (GO). Por otra parte, Thimm et al. [6] han desarrollado una herramienta que puede mostrar los microarrays de expresión génica de los datos sobre las vías metabólicas y otros procesos biológicos. GeneSpring (Silicon Genética, Redwood City, CA, EE.UU.) puede mostrar datos de los microarrays en torno a la figura de un gen situado en un genoma. Sin embargo, estas herramientas dan prioridad a la exhibición de un determinado tipo de datos y no puede analizar microarrays datos de múltiples puntos de vista. Se desea que las diversas forma de conocimientos biológicos están representados por un lenguaje flexible y se puede utilizar para análisis de microarrays por un único instrumento universal.

Una serie de herramientas de la bioinformática se han desarrollado. Sin embargo, que se limitan a hacer frente a sólo unos pocos tipos de conocimientos micos, por ejemplo, las vías, las interacciones o la ontología de genes. Ahora que las variedades de micos están ampliando los conocimientos, herramientas de análisis necesitan una manera de manejar cualquier tipo de conocimientos micos. Por lo tanto, hemos diseñado el Espacio Omic Markup Language (OSML) formato que es capaz de transmitir diversos elementos de los conocimientos biológicos [10]. OSML formato es muy flexible, puede describir una amplia gama de conocimientos biológicos, y está diseñado para permitir a los usuarios preparar sus propios datos en el formato OSML [10]. Con el fin de mostrar, a través de ejemplos, que OSML formato de los datos puede expresar la vía metabólica, dirigidos acíclicos gráficos de GO, de genes en el genoma posiciones, y la interacción proteína-proteína, hemos construido un Biológica Knowledge Library (BiKLi) mediante la conversión de diversos biológicos El conocimiento y las fuentes de información en formato OSML (figura 1, figura 2]. BiKLi está disponible con GSCope3 para académicos y sin ánimo de lucro usuarios de http://omicspace.riken.jp. Para confirmar la eficacia de BiKLi y GSCope3, hemos analizado los datos de los microarrays A. Thaliana de las sequías mediante la aplicación de tratamientos BiKLi y GSCope3 [11]. El ranking de la función estadística en GSCope3 siempre es tan útil que la vía metabólica, la zona del genoma, o GO, relativa a un patrón de la expresión de genes específicos pueden ser fácilmente descubierto. Además, los usuarios pueden realizar diversos análisis utilizando GSCope3 utilizando sus propios datos originales representados por OSML.

El crecimiento de las plantas, la viabilidad, y la fertilización son muy afectadas por el estrés ambiental, como la sequía. Plantas responder y adaptarse a estas presiones, a fin de sobrevivir. Estos destaca inducir diferentes respuestas bioquímicas y fisiológicas en las plantas, que son seguidos por un cambio de la expresión génica. Por esta razón, el análisis de la expresión génica en virtud de estrés es importante en la planta de la biología molecular, la bioquímica y la fisiología. Por ello, algunos biólogos han estudiado la expresión de los genes en las plantas bajo estas condiciones estresantes [12 - 15]. Por otra parte, los estudios sobre perfiles de expresión bajo condiciones de estrés utilizando la tecnología de microarrays se han publicado [16 - 18]. Como se ha mencionado anteriormente, el análisis de la expresión de genes bajo condiciones de estrés es muy importante y son muchos los biólogos interesados en este estudio. Por lo tanto, analizamos los datos de los microarrays A. Thaliana bajo estrés.

En este artículo se hace un informe y presentar los resultados de 7 K RIKEN Arabidopsis Full-Longitud (RAFL) cDNA microarray análisis de las sequías tratamientos [18] utilizando BiKLi y GSCope3, y seguir discutiendo la utilidad de la BiKLi microarrays para el análisis de datos.

Resultados y discusión
KEGG tipo vía metabólica

Archivo Adicional 1 muestra una lista de correlaciones significativas entre la "clase funcional" y de las agrupaciones formadas por lotes-aprendizaje de los mapas de auto-organización (BL-SOM) [19] de la expresión de microarrays sondas perfil bajo condiciones de sequía). En este cuadro, los medios de cabecera de la siguiente manera: A es el número de sondas en la vía seleccionada ( "clase funcional") y el grupo seleccionado, B es el número de sondas fuera de la ruta seleccionada y en el grupo seleccionado, C es El número de sondas en la vía seleccionada y fuera del grupo seleccionado, D es el número de sondas fuera de la ruta seleccionada y el grupo seleccionado, P es la función de probabilidad, P 'es de Bonferroni corregido P, y el N es el número de ruta ( "Clase funcional"). El color de los medios de expresión de la siguiente manera: rojo es la regulación a verde mientras se baja regulación. Un mayor croma de color denota mayor valor. La "clase funcional" muestra una sub-itinerario en la ruta metabólica.

Una fuerte correlación entre el descubrimiento de la "vía de la fijación de carbono" y el perfil de expresión génica que redujo la transcripción después de transcurrido cierto tiempo (grupo ID es 0-1 y 0-0) (Archivo Adicional 1], en especial los genes clasificados en el grupo 0 -1 Y se concentraron en el "ciclo de Calvin" (Figura 3]. Esto significa una relación existente entre la "vía de la fijación de carbono" y abajo de los genes regulados bajo condiciones de estrés hídrico. De hecho, Seki et al. [18] han descubierto que muchos de los genes relacionados con la fotosíntesis son las reguladas por la sequía.

Una correlación significativa entre "almidón y sacarosa metabolismo", y el perfil de expresión de genes que el aumento de la transcripción después de un período de tiempo fue revelado (grupo ID es adicional 10-2) (Archivo 1]. Genes comunes entre esta "clase funcional", y este grupo se polygalacturonase, glicosil hidrolasa familia 32 (beta-fructosidase) (EC: 3.2.1.26, At1g62660), la sacarosa sintasa (EC: 2.4.1.13, At3g43190), y la trehalosa-6 - Fosfato fosfatasa (EC: 3.1.3.12, At4g12430). Cushman y Bohnert [20] han sugerido que disacáridos (sacarosa por ejemplo, raffinose, o trehalosa) probablemente como osmolytes función en la protección de las células de la deshidratación. Seki et al. [18] han señalado que galactinol sintasa, raffinose sintasa, la sacarosa sintasa y trehalosa-6-fosfato sintetasa genes están regulados los genes bajo condiciones de estrés hídrico. Además, Seki et al. [18] han examinado la correlación entre los datos y las conclusiones por Cushman y Bohnert [20].

En este estudio, descubrimos que BiKLi y GSCope3 determinará de forma rápida y eficiente las mismas conclusiones que Seki et al. Ha obtenido [18].

AraCyc tipo vía metabólica

El KEGG tipo y AraCyc tipo de vías metabólicas son bioquímicamente diferentes unos de otros. KEGG tipo vía metabólica se centra en todos los organismos. Por otro lado, el tipo de vía metabólica AraCyc se centra en Arabidopsis thaliana. Además, la vía metabólica puede dividir o sucursal en varios patrones. Por lo tanto, las dos vías no son de tipo combinado en este estudio.

Archivo Adicional 2 se muestra una lista de correlaciones significativas entre la "clase funcional", y los grupos formados por BL-SOM de las sondas de microarray de la expresión perfil bajo condiciones de sequía. Similar a la utilización de análisis de la vía metabólica KEGG tipo de datos, una fuerte correlación entre el "ciclo de Calvin", y el perfil de expresión de genes que luego causó baja regulación de la transcripción (grupo ID es 0-1 y 0-0) ( Archivo Adicional 2].

También se informó de correlación significativa entre la "serina-liasa isocitrate vía", y el perfil de expresión génica, que mostró un débil volumen máximo de dos horas después de haber comenzado la sequía condición (grupo ID es adicional 3-0) (Archivo 2]. Cada gen codifica cuatro enzimas: glyoxylate alanina-aminotransferasa (EC: 2.6.1.45, At2g13360), malato deshidrogenasa (EC: 1.1.1.37, At1g04410, At3g47520), phosphoenolpyruvate carboxylase (EC: 4.1.1.31, At2g42600), y glicina hydroxymethyltransferase ( EC 2.1.2.1, At4g32520). Las enzimas actúan en el "serina-liasa isocitrate vía", y clasificadas en el mismo grupo. Sin embargo, el "serina-liasa isocitrate vía" utiliza un compuesto de carbono, como el formaldehído en bacterias [21]. Además, estas enzimas detectadas no actúan como las enzimas regulados, como hydroxypyruvate reductasa (EC: 1.1.1.81), glycerate quinasa (EC: 2.7.1.31), malato-CoA ligase (EC: 6.2.1.9), o malyl - CoA liasa (EC: 4.1.3.24) en el "serina-liasa isocitrate vía". Por lo tanto, la correlación entre "serina-liasa isocitrate vía", y los genes con una débil expresión perfil puede no ser importante. Sin embargo, estas enzimas detectadas producir malato de L-glicina. Quizás, la razón de estos genes están regulados después de la sequía comenzó la sequía se debe a que el estrés induce malato biosíntesis de glicina, la no inducción de la "serina-liasa isocitrate vía".

Otro puesto de manifiesto una correlación significativa entre la "biosíntesis de la lignina" o la "suberin biosíntesis", y el perfil de expresión de genes que culminó dos horas después de la introducción de condiciones de sequía (grupo ID es adicional 6-2) (Archivo 2]. Lignificación de la pared celular secundaria y la formación de la pared celular fuerte [22]. Por lo tanto, se ha sugerido que la transcripción de estos genes es inducida por el estrés debido a la sequía durante la síntesis de la lignina puede causar resistencia a la sequía. De hecho, se observa la formación de lignina en los sitios de heridas o ataque de patógenos, aparentemente en un esfuerzo para reforzar la pared en esos lugares de los daños [23]. Tal vez, la formación de lignina tiene lugar en A. Thaliana para resistir la tensión de la sequía.

En este estudio, descubrimos que BiKLi y eficiente GSCope3 determinado similares conclusiones que Seki et al. Ha obtenido [18]. Además, la detección de la novela información utilizando BiKLi y GSCope3 reveló en la formación de lignina A. Thaliana, a fin de resistir la tensión de la sequía.

Dirigido acíclicos gráficos de términos GO

La Ontología de Genes (GO) Consorcio proporciona gráficos dirigidos acíclicos términos de GO. Sin embargo, estos gráficos son muy grandes, por lo que trató de utilizar la Planta GO delgado datos para el análisis de datos de microarrays. Archivo Adicional 3 se muestra una lista de correlaciones significativas entre la "clase funcional", y los grupos formados por BL-MOS de la Microarrays sondas "Perfil de expresión durante las condiciones de sequía. Una fuerte correlación entre el descubrimiento de los "transportes (GO: 0006810)" (Figura 4] y el perfil de expresión de genes que muestran una fuerte pico después de dos horas de las condiciones de sequía (grupo ID es 8-2) (Archivo Adicional 3] .

En este estudio, muchos genes canal de agua, clasificados como transporte (GO: 0006810), están conectados a la expresión perfil, lo que aumenta la transcripción hasta dos horas después de haber comenzado la sequía, y luego posteriormente disminuye la transcripción. Estos genes son el agua canal membrana plasmática intrínseco proteína 2A (At3g53420), proteína transmembrana (MIP) (At4g00430 familia), proteína de membrana plasmática intrínseco 2C (At2g37180), la membrana plasmática aquaporin putativo (At3g54820), la membrana plasmática, proteínas intrínsecas 1A (At3g61430), Y la membrana plasmática de proteínas intrínsecas 1c (At1g01620). Se cree que la transcripción de estos genes se activa para oponerse a la sequía. Quizás, el máximo volumen de la transcripción de estos genes es de dos horas después de la tensión de la sequía comienza. Se considera que la transcripción de estos genes disminuye y vuelve al estado habitual dos horas después de cambios en las condiciones de sequía debido a la necesidad de que la transcripción se pierde.

Otra correlación significativa entre el "desarrollo (GO: 0007275)" y el perfil de expresión génica, que el aumento de la transcripción dos horas después de la sequía comenzó, se observó (grupo ID es adicional 10-1) (Archivo 3]. Estos genes son abundantes embriogénesis tardía (LEA), la familia de genes de proteínas (At4g02380), una proteína abundante finales de la embriogénesis LEA-como el gen (At5g06760), y no meristemo apical (NAM), la familia de genes de proteínas (At4g27410). Seki et al. [18] encontraron que la proteína LEA genes son inducidos por la tensión de la sequía, que está respaldado por el hecho de que LEA proteínas están involucradas en la protección de macromoléculas [24].

En este estudio, utilizando BiKLi y GSCope3, descubrimos los mismos resultados que Seki et al. Ha obtenido [18]. El resultado fue la activación de los genes de proteínas LEA por la sequía. Además, la novela se detectó información inducida por la transcripción de muchos genes canal de agua para oponerse a la sequía.

Gene posición en el genoma

El análisis de si los genes con similares perfiles de expresión se localizan en los barrios sobre el genoma o no es posible mediante el uso de los datos de la posición de genes en el genoma. Archivo Adicional 4 muestra una lista de correlaciones significativas entre la "clase funcional", y los grupos formados por BL - SOM de las sondas microarrays "Perfil de expresión durante las condiciones de sequía. Un fuerte se encontró correlación entre la zona de 15390001-15420000 pb en el cromosoma 5 y el perfil de expresión de genes de transcripción, que se redujo después de transcurrido cierto tiempo (grupo ID es 0-0) (Archivo Adicional 4]. En este ámbito, tres ribulose 1,5-bisphosphate carboxylase / oxigenasa (RuBisCO) subunidad pequeña existen genes [25]. Es probable que estos genes son RuBisCO co-regulada en la zona de barrio porque tienen similares perfiles de expresión y de la misma forma las enzimas (Figura 5].

La correlación entre el área de 22680001-22710000 pb en el cromosoma 5 y el perfil de expresión de genes, lo que aumentó moderadamente la transcripción después de un período de tiempo, se consideró significativo (grupo ID es 5-0) (Archivo Adicional 4]. Proteína de choque térmico 81,4 (hsp81.4) (At5g56000), la proteína de choque térmico 90 (quizás hsp81.3) (At5g56010), y 81.2 de proteínas de choque térmico (hsp81.2) (At5g56030) existe en esta zona y se clasificaron en la Mismo grupo (Figura 6]. Se ha sugerido que estos genes tienen similares perfiles de expresión y existe la posibilidad de un control similar que afectan a estos genes (Figura 7], aunque Milioni y Hatzopoulos [26] ya puso de manifiesto que estos genes se agrupan dentro de los 15 kb región genómica en el cromosoma 5.

Interacción proteína-proteína y A. Thaliana la expresión de genes

La información de la interacción proteína-proteína es útil para examinar las relaciones entre las unidades de proteínas, y entre el ligando y el receptor. En este estudio, sólo la relación entre las expresiones de los genes 20S proteasoma fue dilucidado, específicamente evidente en A. Thaliana. Sin embargo, utilizando la información sobre la interacción proteína-proteína en otros organismos, a la asociación de las expresiones poco claras entre los genes en A. Thaliana puede aclararse. En este estudio, los detalles sobre la interacción proteína-proteína en Caenorhabditis elegans, así como la interacción proteína-proteína en Saccharomyces cerevisiae se construyeron en BiKLi. Indica que GSCope3 es capaz de organizar la información sobre la interacción proteína-proteína. En este estudio, se presenta el resultado en C. Elegans interacción proteína-proteína (gusano PPI) de datos.

Archivo Adicional 5 muestra una lista de correlaciones significativas entre la "clase funcional", y los grupos formados por BL-SOM de las sondas microarrays "Perfil de expresión durante las condiciones de sequía. Una se encontró correlación significativa entre la "clase funcional", que se centraron en la peptidase (T20F5.2, Y38A8.2) o componente proteosoma (C15H11.7, D1054.2) y el perfil de expresión de genes que muestran una débil pico después de dos Horas de las condiciones de sequía (grupo ID es 4-1). Todas estas sondas incluidas en el grupo funcional de las clases y 4-1 fueron los clones de cDNA subunidad 20S proteosoma genes. Además, la mayoría de clones de cDNA de los genes 20S proteasoma se incluyeron en el grupo 6-1 o 4-1 (Figura 8, 9], que sugiere que los genes de las subunidades del proteasoma 20S tienen similares perfiles de expresión y de recibir semejante control. Excepcionalmente, los perfiles de expresión de PAD1 (At3g51260), PBF1 (At3g60820), y PBG1 (At1g56450), que codifica para la α4, β6 y β7 subunidades, respectivamente, mostraron diferentes perfiles de expresión de la mayoría. Se ha informado de que el proteasoma 20S de la subunidad α4 A. Thaliana complementa la subunidad 20S proteosoma α4 y α3 subunidad de la levadura [27], lo que sugiere una relación de trabajo complementaria de la subunidad α4 con otras subunidades. Por lo tanto, posiblemente PAD1 recibe un control diferente, aunque la mayoría de genes de la subunidad 20S proteosoma recibir un control similar. Sin embargo, es necesaria una investigación más a fondo para determinar si los patrones de expresión de PAD1, PBF1, y PBG1 son diferentes de los patrones de expresión de otros genes 20S proteasoma.

En este estudio, BiKLi y GSCope3 detectado la novela información sobre genes de la subunidad 20S del proteasoma muestra similares perfiles de expresión de las sequías.

Comparación entre la expresión de genes de A. Thaliana y Z. Elegans

Una comparación entre los diferentes microarrays de datos puede facilitarse mediante el uso de GSCope3. Además, si los genes entre diferentes organismos se relacionan, una comparación de los datos entre los microarrays diferentes organismos se hace posible.

Demura et al. [28] trató de comparar las expresiones de genes entre Z. Elegans y Álamo × P. tremula Tremuloides clon T89, donde la A. Thaliana gen correspondía a la Z. Elegans genes. Demura et al. [28] También se examinó el cambio en la expresión de genes en el transdifferentiation mesófilo de las células en células de xilema en Z. Elegans.

Esta prueba es muy difícil de realizar en A. Thaliana. Con el fin de investigar los cambios en la expresión génica en las células transdifferentiation mesófilo de las células de xilema en A. Thaliana, la comparación entre Z. Elegans y A. Thaliana es práctico. En este estudio, la comparación se realizó con el fin de confirmar la relación entre las expresiones de genes en el transdifferentiation mesófilo de las células en células de xilema y de la respuesta contra la sequía. Además, se presenta un ejemplo de una posible comparación de los microarrays experimento utilizando diferentes organismos.

Los perfiles de expresión génica se divide en 24 subgrupos. Estamos frente a la clasificación de los genes por BL-MOS utilizando los datos de los microarrays Seki et al. [18] con los genes sobre la base de los datos de microarrays Demura et al. [28].

6 muestra adicional del archivo una lista de las correlaciones significativas entre la "clase funcional", y los grupos formados por BL-SOM de las sondas microarrays "Perfil de expresión durante las condiciones de sequía. Una correlación significativa fue descubierto entre los perfiles de expresión génica con disminución de la transcripción dos horas después de haber comenzado la sequía condición (grupo ID es 1-2) y la subclase con un máximo de los genes regulados durante la primera etapa (Archivo Adicional 6]. La primera fase corresponde al proceso funcional dedifferentiation mesófilo, en el que las células pierden su capacidad fotosintética y adquirir un nuevo multidifferentiation potencia [27]. Los genes incluidos en la categoría 5-methyltetrahydropteroyltriglutamate homocisteína-S-metiltransferasa (At5g17920), hydroxymethyltransferase (At4g13930), y putativo WD-40 auxina repetir que dependen de la proteína ARCA (At1g48630). Estos genes pueden ser clave de los genes entre la tensión de la sequía y la respuesta transdifferentiation. Lamentablemente, no hay nuevos descubrimientos, porque la A. Thaliana gen y Z. Elegans gen muestran poca asociación. Si más A. Thaliana genes asociados a la Z. Elegans genes, semejanza y la diferencia de la expresión génica mecanismos transdifferentiation entre el estrés y la respuesta podría ser analizado en detalle.

Conclusión

Está demostrado en este estudio, a través de los microarrays experimento, que la relación entre la expresión génica y la biológica fenómeno es fácilmente descubierta por utilizar el BiKLi y GSCope3. Con el fin de especular cualquier relación entre un determinado patrón de expresión del gen y el específico fenómeno biológico, algunos investigadores comparar los genes de un individuo con el fenómeno biológico. Sin embargo, este tipo de comparación no es suficiente debido a que un fenómeno biológico es casi siempre causados por la combinación de dos o más genes.

En el análisis utilizando el BiKLi y GSCope3, utilizamos la tabulación cruzada en la realización de proceso estadístico. Dividimos los genes relacionados con un fenómeno biológico y de otros genes, y los genes específicos que tienen un perfil de expresión de genes y otros. Así, podemos detectar estadísticamente la importancia de un fenómeno biológico y de los genes específicos que tienen los perfiles de expresión. Por lo tanto, la conclusión de que este análisis sea más preciso.

A pesar de que han vuelto a analizar los datos de los microarrays utilizado en otros análisis, esperamos que cuando el nuevo microarray datos se evalúa, muchos de los nuevos hallazgos pueden ser revelado. Al mirar a un análisis más amplio en el futuro, tenemos previsto aumentar el contenido de la BiKLi.

Además, estamos desarrollando Genoma-Phenome Superautopista (GPS) [29] y TraitMap sistema [30], que pueden utilizar el BiKLi. El GPS tiene un biológica de los datos de la red y ofrece un entorno en el que la información genética puede ser recuperada. Esta red de datos contiene datos biomoleculares relación que se genera a partir de co-citación frecuencias de los nombres de genes y de la arbitrariedad-concepto clave en términos de literatura. Planeamos agregar los datos de la BiKLi al GPS, a fin de fortalecer el sistema GPS y TraitMap en el futuro.

Métodos
La construcción de los conocimientos biológicos biblioteca
Microarray datos

Se utilizó el microarray datos generados por Seki et al. [18]. En la investigación que analizó los perfiles de expresión génica, mRNAs fueron aislados de A. Thaliana, que fueron sometidos a la deshidratación, el frío, o de alta salinidad de los tratamientos de estrés como "experimental" y ningún grupo de los tratamientos para la "referencia". Hemos utilizado los datos de los tratamientos de deshidratación estrés experimento. Se utilizó un tipo de Stanford microarrays, que consta de 7000 en representación de las secuencias de cDNA RIKEN A. Thaliana de larga duración (RAFL) cDNA clones [46] aisladas de cDNA de longitud completa bibliotecas [47]. En este trabajo, los datos de microarrays que se obtuvo fue procesada por los métodos siguientes: Antecedentes de fluorescencia se calculó sobre la base de la señal de fluorescencia de control negativo genes. Spots mostrando una señal de bajo valor el valor de la señal de fluorescencia de control negativo genes (+ desviación estándar (DE)), en tanto la Cy3 ( "referencia" muestra) y Cy5 ( "experimental" muestra) los canales no se consideraron para el análisis . Luego, cada mancha de Cy5/Cy3 valor se calculó. Para normalizar la hibridación de diferentes señales generadas muestras, controles externos fueron usados. Por último, el diario de 2 valores de cada terreno y de los valores medios de cada sonda se calcularon.

Dirección de GSCope3

Un programa producido por GSCope3 Toyoda et al. Se utiliza para el análisis de microarray de datos [11]. GSCope3 está programado en JAVA, por lo tanto, puede ser utilizado en varias plataformas como Windows y Mac OS. Abrimos este programa para el público a través de un sitio web [11] y académicos los usuarios pueden descargar gratuitamente y utilizar este programa. GSCope3 BL-SOM puede agrupar los datos de microarray que está en formato cdt [48]. En la actualidad, el manual de GSCope3 es que se están realizando, sin embargo los métodos de utilización de los microarrays GSCope3 y análisis de datos se describen en el tutorial en línea de GSCope3 [49]. En pocas palabras, uno OSML en el archivo de datos se abre BiKLi por GSCope3. Cada sub-red en el conjunto de datos se expresa como una "clase funcional". Por ejemplo, cada sub-itinerario está categorizada por "la clase funcional", en la vía metabólica de datos y cada GO plazo se clasifica por "la clase funcional", en el dirigido acíclicos gráficos de la GO términos de datos. Entonces, un adecuado apéndice archivo se abre por GSCope3. Cada microarrays sonda se muestra por la forma correspondiente a cada gen, la proteína, GO plazo, o de genes posición en el conjunto de datos mediante el uso de un apéndice archivo [35], en la que los microarrays sondas están escritos y comparación. Después, si los datos de los microarrays en cdt [48] o formato cdtx formato [35] se abre por GSCope3, la asociación entre los datos de los microarrays y microarrays sondas en el conjunto de datos (archivo OSML y apéndice) y se analiza el valor de datos se muestra correspondiente A la sonda (Figura 2].

Clase funcional (red), que se sitúan por GSCope3

Después de las sondas son seleccionados, la correlación de las sondas y de la "clase funcional" puede ser examinado en GSCope3. La clasificación de la serie de sondas, que es analizada por la tabulación cruzada utilizando el test de Fisher y se incluye en la "clase funcional", se clasifica en cuatro grupos: objetivo, que no objetivo, seleccionados y no seleccionados.

La "clase funcional", que incluye el seleccionado sondas, es catalogado por los GSCope3. Además, el grado de correlación entre el seleccionado y sondas "clase funcional" se revela (Archivos adicionales 1, 2, 3, 4, 5, 6]. En el presente trabajo se han examinado la correlación entre las sondas de cada grupo después de BL-SOM agrupaciones y cada "clase funcional".

Batch-aprendizaje de auto-organización de los mapas (BL-MOS), agrupación por GSCope3 y el procedimiento para decidir la mejor clasificación valor de la agrupación BL-MOS

BL-MOS es un método mejorado de la SOM original [50] en relación con el hecho de que el peso inicial de los vectores son establecidos por el análisis de componentes principales. El proceso de aprendizaje está diseñado para ser independiente de la orden de los vectores de entrada, por lo tanto, el resultado es reproducible [18]. Por lo tanto, es aplicable a muchos campos de la bioinformática [51, 52].

La figura 10 muestra la apariencia de BL-SOM agrupación de los datos de microarrays. El primer ingrediente principal de BL-ID SOM grupo se muestra como un número de 0 a 10 de la izquierda horizontal. The second principal ingredient ID is the number from 0 to 3 vertically from the upper part. The cluster ID is described in the order of first principal ingredient ID then -second principal ingredient ID. For example, the section first from the left and second from the top is shown as cluster ID 0-1 (Figure 10 ).

To decide the best classification value of BL-SOM clustering, the following procedure was done: The microarray data was clustered by GSCope3 using the number of the first principal ingredient, ranging from three to twenty. The mean value of each cluster's average radius, which is the squared distances of the points from the centre of the cluster [ 53 ], and the explained variability [ 54 ] were calculated and plotted ( Additional File 7 ). We decided that the eleven first principal ingredients were the best classification values because the mean value of each cluster's average radius was comparatively small and the explained variability was comparatively large.

Competing interests

The author(s) declare that they have no competing interests.

Authors' contributions

YH created and supervised the Biological Knowledge Library (BiKLi). YH analyzed the microarray data by using BiKli and GSCope3. YH is the overall author of this paper. MS, and KS provided the microarray data of Arabidopsis thaliana . They also reviewed and revised this paper. YM, and KH participated in the conception of Omic Space Markup Language (OSML) and designed a part of BiKLi, especially the KEGG type metabolic pathway. NH developed websites for the tutorial of GSCope3 and GSCope3. NO participated in the creation of OSML and developed GSCope3. TS, MS, KA, and KI provided the microarray data of A. thaliana and modified the data. KL created a part of BiKLi, especially the Directed acyclic graphs of GO terms. SK provided the program of Batch-leaning self-organizing maps (BL-SOM) clustering. TD provided microarray data of Zinnia elegans and the correlation to Zinnia elegans and A. thaliana genes. AK managed the writing of the manuscript. TT is the chief of the OSML creation. In addition, he participated in the design and coordination of the study, supervised in writing the manuscript, and wrote a part of the abstract and background.

Supplementary Material
Additional File 1
Supplementary Table 1
Ranking result of significant correlations between the "functional Class" of the KEGG type metabolic pathway and clusters formed by BL-SOM of the expression profile of microarray probes under drought conditions by using GSCope3
Additional File 2
Supplementary Table 2
Ranking result of significant correlations between the "functional Class" of the AraCyc type metabolic pathway and the clusters formed by BL-SOM of the microarray probes of expression profile under drought conditions
Additional File 3
Supplementary Table 3
Ranking result of significant correlations between the "functional Class" of the Directed acyclic graphs of GO terms and the clusters formed by BL-SOM of the microarray probes of expression profile under drought conditions
Additional File 4
Supplementary Table 4
Ranking result of significant correlations between the "functional Class" of the Gene position on genome and the clusters formed by BL-SOM of the microarray probes of expression profile under drought conditions
Additional File 5
Supplementary Table 5
Ranking result of significant correlations between the "functional Class" of the "Protein-protein interaction and
Arabidopsis thaliana
gene expression" and the clusters formed by BL-SOM of the microarray probes of expression profile under drought conditions
Additional File 6
Supplementary Table 6
Ranking result of significant correlations between the "functional Class" of the "Comparison between gene expression of
Arabidopsis thaliana
Y
Zinia elegans
" and the clusters formed by BL-SOM of the microarray probes of expression profile under drought conditions
Additional File 7
The relationship between the number of the first principal ingredient in the BL-SOM clusters and the index of clustering
The first principal ingredient = 3 to 20 (clustering 3 to 120) of BL-SOM clustering of the microarray data under drought stress and the index of clustering (the "mean value of each cluster's average radius" and "explained variability") is plotted. It is used for analysis because the cluster with X = 11, clustering = 33, separated enough.