BMC Systems Biology, 2007; 1: 15-15 (más artículos en esta revista)

Simultánea agrupación de datos de expresión génica con la química clínica y patológica revela evaluaciones fenotípicas prototipos

BioMed Central
Pierre R Bushel (bushel@niehs.nih.gov) [1], Russell D Wolfinger (Russ.Wolfinger @ sas.com) [2], Greg Gibson (ggibson@ncsu.edu) [3]
[1] Centro Nacional de toxicogenómica, Instituto Nacional de Ciencias de Salud Ambiental, Research Triangle Park, Carolina del Norte, EE.UU.
[2] SAS Institute, Cary, North Carolina, EE.UU.
[3] Departamento de Genética, North Carolina State University, Raleigh, Carolina del Norte, EE.UU.
[4] Programa de Bioinformática, North Carolina State University, Raleigh, Carolina del Norte, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Comúnmente empleado para agrupar los métodos de análisis de la expresión génica datos no directamente fenotípica incorporar datos sobre las muestras. Por otra parte, la agrupación de las muestras con fenotipos es conocido normalmente realiza de una manera informal. La incapacidad de los algoritmos de agrupación para incorporar datos biológicos en el proceso de agrupación puede limitar la interpretación adecuada de los datos y su biología.

Resultados

Se presenta un enfoque más formal, el mod k-prototipos algoritmo, para agrupar las muestras biológicas sobre la base de considerar simultáneamente los microarrays de expresión génica y las clases de datos conocidas fenotípica de variables como la química clínica y las evaluaciones histopatológicas observaciones. La estrategia implica la construcción de una función objetivo con la suma de los cuadrados de las distancias de Euclides numérico de microarrays y química clínica y los datos se pongan en venta simple para histopatología categórico valores con el fin de medir disimilitud de las muestras. Separe los términos de ponderación se utilizan para los microarrays, química clínica y la histopatología mediciones para controlar la influencia de cada uno de los datos de dominio en la agrupación de las muestras. La dinámica validez índice de los datos numéricos se modificó con una categoría de utilidad medida para determinar el número de clusters en los conjuntos de datos. Un prototipo del grupo, formado a partir de la media de los valores numéricos de las características y el modo de los valores categórico de todas las muestras en el grupo, es representante del fenotipo de los miembros de la agrupación. El enfoque está demostrado que funciona bien con una mezcla de simulación de conjunto de datos y dos reales los datos numéricos que contiene ejemplos y tipos de datos categóricos. Uno de un estudio de las enfermedades del corazón y otro de acetaminofeno (un analgésico) la exposición en el hígado de la rata que causa la necrosis centrolobulillar.

Conclusión

El mod k-prototipos particionado el algoritmo de simulación de los datos en grupos con muestras en sus respectivas clases y el grupo de enfermedades del corazón las muestras en dos grupos (enfermos y buff que denota las muestras que tengan dolor tipo representante de la angina y no la angina de pecho, respectivamente) con una precisión de 79 %. Esto es a la par con, o mejor que la cesión exactitud de las enfermedades del corazón las muestras de varias conocidas y exitosas agrupaciones algoritmos. A raíz de mod-k prototipos de la agrupación acetaminofeno-muestras expuestas, informativo genes de la agrupación se identificaron los prototipos que son descriptivos de, y anclada a fenotípicamente, los niveles de necrosis centrolobulillar de la región del hígado de la rata. Los procesos biológicos crecimiento celular y / o mantenimiento, aminas metabolismo, el estrés y la respuesta se muestra a discernir entre moderados y no los niveles de acetaminofeno inducida por necrosis centrolobulillar. La utilización de conocidos y tradicionales mediciones directamente en la agrupación ofrece alguna garantía de que las agrupaciones resultantes serán interpretables de manera significativa.

Fondo

La agrupación de muestras biológicas sobre la base de microarrays de expresión génica de datos es ahora una práctica habitual en clínicas, biológicas, farmacológicas y toxicológicas estudios [1 - 4]. Sin embargo, hay limitaciones a diversos algoritmos de agrupación. Por ejemplo, el clásico de k-means clustering algoritmo [5, 6] utiliza la distancia euclidiana para medir la disimilitud y agrupar los objetos mientras que el k-modos algoritmo [7] sólo admite categórico o cualitativo de datos a través de una simple función objetivo se pongan en venta como una medida de disimilitud. La incapacidad de los algoritmos de agrupación para incorporar datos biológicos en el proceso de agrupación puede limitar a fondo la interpretación de los datos y su biología.

Varios enfoques para incorporar datos biológicos asociados con las muestras en el análisis de la expresión génica de datos se han propuesto recientemente. Shannon et al. [8] Mantel utilizaron las estadísticas para correlacionar la expresión de genes con mediciones clínicas covariables. Las correlaciones se basan en distintas matrices de distancia calculada utilizando la expresión de genes y datos clínicos covariables. Correlación de Pearson se utiliza para evaluar los efectos principales, mientras que los coeficientes de correlación parcial se utilizan para evaluar la correlación entre la expresión de genes y un subconjunto de la muestra covariables acondicionado en otra muestra covariables. Otro enfoque presentado por Sese et al. [9] describe un itemset limitado método de agrupación donde el grupo óptimo que maximiza el interclass diferencia de la expresión de genes con características patológicas entre los grupos se calcula. Informativo la expresión génica agrupaciones anotado con descripciones de enfermedades del hígado fueron revelados. Kasturi y Acharya [10] propuso un modelo de libre agrupación método denominado fusión de información, que utiliza soms Kohonen aprendizaje para actualizar las ponderaciones de los grupos de países y fundamentalmente a correlacionar los microarrays de expresión génica con patrones repetidos motivos en la región aguas arriba de los genes. Una posible limitación de este enfoque es que la red de los nodos de la SOM tiene que ser definido de antemano y los resultados de la agrupación dependen de la geometría de la red. El desarrollo de nuevos métodos, al mismo tiempo, el grupo basado en muestras de microarrays de expresión génica asociados con datos de información biológica es razonable esperar para mejorar la agrupación de las muestras y para mejorar el descubrimiento de los procesos biológicos que se correlacionan con fenotípica final de puntos.

Trabajos recientes han demostrado que una mejor inferencia de genómica indicadores de resultado se obtiene mediante la integración de la expresión génica con datos clínicos o fenotípicas de datos. Por ejemplo, Gevaert et al. [11] demostraron que la integración parcial de las mediciones clínicas con los datos de expresión génica a través de distintas redes bayesianas que están unidas por un mismo fenotipo variable, la mejora de la predicción del pronóstico del cáncer de mama. Otros han utilizado análisis de componentes principales con un análisis de varianza o parcial de mínimos cuadrados para la expresión de genes asociados con los datos clínicos mediciones para mejorar la clasificación o la predicción de un resultado [12, 13]. Además, un nuevo enfoque de la agrupación que incorpora epigenéticos (genes seguimiento de hipermetilación de acuerdo con un binario [0,1] estado) y fenotípicas de datos (mediciones clínicas codificadas como ordinal variables categóricas), fue mostrado al grupo muestras tumorales suficientemente lo suficientemente bien como para el descubrimiento de vías informativas que se adhieren a un estricto heredabilidad en el cáncer de mama [14]. El enfoque, llamado hereditarios agrupación, se sugirió a ser un marco para integrar a otros datos biológicos. Sin embargo, la extensión del algoritmo para el análisis dimensional de alta expresión de genes de datos integrada con los datos clínicos como mediciones continuas y fenotípica de datos categóricos como los valores al mismo tiempo no se ha investigado.

Dado que el k-k medios y modos de algoritmos son eficientes para el procesamiento numérico y grandes conjuntos de datos categóricos, respectivamente, la combinación de funciones objetivo para medir la disimilitud se ha aplicado en el k-prototipos algoritmo como un enfoque práctico para ampliar el k-means - como algoritmo de clustering para grandes conjuntos de datos categóricos con los valores [7]. Para probar la utilidad de la k-prototipos algoritmo de clustering basado en muestras numérico microarrays de expresión génica de datos y las evaluaciones de química clínica histopatológico con observaciones como categórica valores, introducir un mod k-prototipos algoritmo. El enfoque sigue el k-means paradigma con la aleatorización de inicialización del algoritmo y se evalúa inicialmente mediante dos conjuntos de datos. Un conjunto de datos simulados y una cardiopatía mixta tipo conjunto de datos de prueba de principio. La estrategia implica la construcción de una función objetivo de la suma de los cuadrados de Euclides distancias para datos numéricos con una simple adecuación de los valores categóricos con el fin de medir disimilitud de las muestras. Separe los términos de ponderación se utilizan para controlar la influencia de cada uno de los datos de dominio en la agrupación de las muestras. La dinámica validez índice de los datos numéricos se modificó con una categoría de utilidad medida con el fin de determinar el número óptimo de las agrupaciones en los datos de tipo mixto. Un grupo del prototipo está formado a partir de la media de los valores numéricos de las características y el modo de los valores categórico de todas las muestras en el grupo. El grupo del prototipo se toma como una representación de la función de los valores que representa el fenotipo de las muestras en el grupo.

Más rigurosa investigación de los mod-k prototipos agrupación método se persigue mediante la aplicación a los datos de expresión génica y las evaluaciones fenotípicas de acetaminofeno-expuestos muestras de hígado de rata. El acetaminofeno, que es un analgésico, las causas centrolobulillar necrosis en el hígado de ratas a altas dosis de exposición. Utilizando una prueba de ji al cuadrado y GO anotaciones de determinados genes, lo que distingue las diferencias entre prototipos de las agrupaciones de acetaminofeno el conjunto de datos a través de los tres dominios de datos, fenotípica prototipos que se obtuvieron fueron de descriptivo, y anclada a la necrosis de la región de centrolobulillar el hígado de la rata. Este es un punto final se manifiesta de altas dosis de exposición de acetaminofeno en el hígado de la rata.

Resultados
La agrupación de tipos de datos mixtos

Los conjuntos de datos utilizados para la creación de agrupaciones y los componentes del mod k-prototipos algoritmo se muestran en la Figura 1a. Los α, β y γ ponderación de los términos de influencia la cantidad de datos de cada dominio contribuye a la agrupación de las muestras. Una función objetivo con la suma de los cuadrados de Euclides distancias para datos numéricos y simple equiparación de valores categóricos se utiliza para medir la disimilitud de las muestras. Las muestras se han agrupado utilizando k-means clustering numérico basado en los atributos y los modos de k-agrupación de atributos con los valores categóricos. El DVI y CU medidas consisten en el DVI_CU puntuación que mide la validez de la agrupación. El mod k-prototipos algoritmo se muestra en la Figura 1b y es una modificación del original k-prototipos algoritmo [15]. Para k = 2 para N número de muestras y para el B iteraciones, la asignación de cada una de las muestras se realiza a uno de los k clusters basados en la mínima distancia de la muestra a los prototipos de los grupos. Los prototipos se actualizan y las muestras son reasignadas en repetidas ocasiones hasta que no haya más cambios en el grupo de asignación. El Resultado DVI_CU se calcula para la asignación final de las muestras. El número de clusters en los datos se calcula mediante la búsqueda de la cesión de las muestras, a lo largo de todos los B Inicialización y todos los k particiones, dado que la validez Resultado óptimo.

Validación inicial del mod k-prototipos algoritmo se realizó mediante la evaluación de la agrupación de las muestras en la simulación y la Cleveland Clinic cardiopatía mixta conjuntos de datos. La agrupación de la simulación de datos se realizó con el coeficiente de adaptación de los numéricos y los datos categóricos. Después de 50 intentos de juicio la agrupación de más de 2 k posible a las agrupaciones en los datos, el mod k-prototipos algoritmo de particionado los datos en 3 grupos con las muestras en sus respectivos grupos de clase (es decir, las muestras # s 12-22, 33-43 y 44 -54 Junto respectivamente). Figura S3 adicionales en el archivo 1 ilustra la reducción al mínimo del índice DVI_CU a k = 3.

La agrupación de la Cleveland Clinic enfermedades del corazón datos se realizó con la misma ponderación de dominio. Una parcela de la validez DVI_CU medida a todos los valores de k muestra un mínimo en k = 2, lo que implica que el número estimado de las agrupaciones es de dos (figura 2a]. De ficheros adicionales 2 muestra la asignación de las muestras a cualquiera de los dos grupos, junto con el valor categórico para el dolor de pecho tipo atributo. Grupo 1, dispone de 169 muestras de pacientes agrupados junto con el dolor de angina de tipo sugestivo de tener enfermedades del corazón (enfermos), mientras que la Categoría 2 tiene 134 muestras de pacientes agrupados de manera similar junto con la angina de pecho no representativo de ser sin la enfermedad del corazón (buff). La precisión de la agrupación de los pacientes en los dos grupos fue del 79%. Esto es a la par con, o mejor que la exactitud de clasificación de las muestras de la NTGrowth, C4 y CLASSIT, la agrupación conceptual y algoritmos de clasificación que se comunicaron a la Universidad de California en Irvine repositorio para máquinas de aprendizaje como el 77%, 74,8% y 78,9%, respectivamente. Este análisis indica que el mod-k prototipos algoritmo puede efectivamente el grupo mixto tipos de datos que conduzcan a relativamente exacta cesión de las muestras a las agrupaciones con la etiqueta clínica adecuada.

Del mismo modo, la aplicación de los mod-k prototipos algoritmo de dominio con la misma ponderación para el acetaminofeno mixta datos indican un valor mínimo para el DVI _CU validez a medida k = 3 (figura 2b], lo que implica que hay tres grupos en los datos. Diez muestras fueron agrupadas en Grupo 1, nueve en el Grupo 2 y 45 en la Categoría 3 (archivo adicional 3]. Las muestras en el Grupo 3 integrado en su mayor parte son de baja dosis (50, 150 mg / kg) y muestras de alta dosis (1500 y 2000 mg / kg) en muestras de 6 horas a excepción de 5 animales (ratas # s 405, 406, 423, 518 y 520) que había bajo ALT y AST los niveles de enzimas (Servicio de archivo 4]. Niveles elevados de ALT y AST se correlaciona con daño hepático. Grupo 2 contiene todas las muestras expuestas a una alta dosis de acetaminofén para el 18 o 24 hrs. Grupo 1 tiene muestras expuestas a altas dosis de acetaminofeno durante 48 horas, con excepción de las ratas de respuesta moderada # s 407, 416 y 420, que se dosifican para el 18 o 24 horas y ha moderadamente elevados de ALT y AST niveles de la enzima.

Validación de agrupar los datos mixtos acetaminofeno

A continuación se evaluó la capacidad del algoritmo para agrupar las muestras de acuerdo con el nivel de necrosis hepática. A dosis tóxicas de acetaminofén, glutatión se agota conducen a la formación de un intermedio reactivo que se une covalentemente a sulfhydryl grupos de varias proteínas celulares [16]. Estos aductos se cree que contribuyen a la necrosis de tejidos [17]. El indicador que representa la variable histopatológico las observaciones formuladas por los certificados por la Junta patólogos en la región centrolobulillar del hígado fue retirado de la serie de datos antes de ejecutar el mod k-prototipos algoritmo. Esta variable fue entonces utilizado como un indicador externo para validar la asignación de muestras que los tres grupos. Esta observación tiene cuatro valores característica de todas las muestras expuestas no denota ya sea, mínima, leve, moderada o severidad de la necrosis de la región centrolobulillar del hígado. Utilizando el mod k-prototipos con el algoritmo k fijado en 3 y la igualdad de ponderación de los microarrays, química clínica y la histopatología de datos de dominio, el 90% del grupo de tareas el acetaminofeno tratada con muestras tenía una ajustada Rand Índice R 'valor superior a 0,64 cuando en comparación con los grupos de muestras de acuerdo con el nivel observado de necrosis (Figura 3]. Dado que hay tres grupos generados por la mezcla de datos y, sin embargo, cuatro clases de acetaminofeno-expuestos centrolobulillar necrosis del hígado, perfecto acuerdo no fue posible, pero la agrupación se acercó alcanzado el máximo dada la validez de la clasificación (Figuras 2b y 3].

Ponderación esquemas para agrupar los datos mixtos acetaminofeno
Fenotípica Prototipos
Discusión

La agrupación de microarrays de expresión génica de datos ha madurado en virtud del creciente número de enfoques analíticos para el particionamiento de datos. K-medios es uno de los más utilizados sin agrupar los métodos de datos de expresión génica. Por desgracia, k-means clustering, y otros enfoques como el de soms no garantizan óptima de particionamiento a nivel mundial, exigen que especifique el número de grupos o la configuración de la estructura subyacente de clasificación, y sufren de rigidez con respecto a la incorporación de datos biológicos asociados. Más importante aún, la mayoría de los algoritmos de agrupación de apoyo sólo cuantitativa o cualitativa de los datos pero no ambos simultáneamente. Huang [15] presentó el k-prototipos algoritmo que utiliza la función objetivo la agrupación de k-means para mediciones numéricas y k-modos de valores categóricos a la partición de datos. Hemos propuesto la modificación de este algoritmo mediante la adición de una función objetivo de apoyar y peso multi-dominio, tipo mixto datos biológicos en el k-means clustering paradigma. La ventaja de nuestro mod-k prototipos algoritmo es que la agrupación simultánea de la expresión génica de datos con las evaluaciones de química clínica y la histopatología observaciones en los resultados informativos grupos que se forman con prototipos de los genes y los valores de punto final las variables que están anclados a los fenotipos de las muestras con similares resultados biológicos.

Nuestro método es uno de una clase de enfoques que tratan de incorporar datos biológicos directamente en el proceso de agrupamiento [9, 14]. El uso de necrosis centrolobulillar de la región del hígado de rata tras la exposición acetaminofeno como un punto final a la pareja con los perfiles de expresión génica, las evaluaciones de química clínica e histopatología observaciones, simultánea agrupación de los datos con los mod-k prototipos algoritmo reveló fenotípica prototipos que son capaces de no distinguir entre, leves y moderados niveles de necrosis del hígado (cuadros 3 a 5; Figura 4]. Por ejemplo, no o moderadamente-en respuesta a las ratas acetaminofeno exposición fueron claramente diferente de su homólogo de dosis-tiempo-grupo de sujetos. Por otra parte, la alta dosis 6 horas frente a las ratas dosis altas 18, 24 y 48 hrs ratas difieren de un pequeño grupo de genes implicados en la transducción de señales y regulación del crecimiento. No es de extrañar que los genes del citocromo P450 y hemo oxigenasa 1, que tienen funciones en la desintoxicación y la regulación redox en respuesta a estrés oxidativo, se consideraron los indicadores de toxicidad en el componente de la expresión génica de los prototipos que fenotípicas diferenciadas entre los niveles de necrosis de la centrolobulillar región del hígado de rata (Cuadro 5]. Varios informes publicados de la expresión génica de datos generados a partir de tratamiento de muestras biológicas con agentes tóxicos describir la expresión alterada de genes, como en estos biológicas bien conocidas las vías que están perturbados a raíz de la toxicidad incipiente [19 - 24].

Ponderación de los términos en los mod-k prototipos algoritmo ofrece la flexibilidad necesaria para equilibrar la influencia de cada dominio de los datos, al mismo tiempo, la agrupación de datos mixtos (ver ecuación 1). Esto es ventajoso para la semi-supervisada cuando la agrupación objetivos diferentes para analizar los datos están en la mente. El interés podría ser al grupo muestras biológicas sobre la base de datos de expresión génica con las mediciones de química clínica y la histopatología observaciones con el fin de encontrar marcadores biológicos relacionados con los cambios histopatológicos, o que la identificación de los procesos biológicos y las rutas están relacionadas con la fenotípica de punto final. Desde el análisis empírico de acetaminofeno-el hígado de ratas tratadas muestra los datos mediante la ponderación de adaptación o diferentes sistemas de ponderación, dando peso a algunos histopatología observaciones y por lo menos la mitad del peso para el conjunto de datos de microarrays es ventajosa para el agrupamiento de datos (cuadro 2]. Curiosamente, a pesar de aplicar todo el peso a los datos de química clínica dio el mejor ajuste entre el grupo de asignación y evaluación de histopatología necrosis centrolobulillar, el número de clusters en los datos fue sobrestimado. Esto indica que la inadecuada ponderación de los datos de dominio pueden llegar a la agrupación de sesgo de las muestras. Además se está trabajando para el peso de dominio heuristically datos.

La alta dimensionalidad de los datos ha cuestionado la eficacia y la fiabilidad de los algoritmos de agrupación para bastante tiempo. En el espacio dimensional de alta, los puntos de datos se toma la escasa utilización de medidas a cierta distancia de sentido. Sin embargo, los resultados de experimentos en el mundo real de alta dimensional de datos han puesto de manifiesto la distancia que las medidas basadas en las Minkowski L métrica d, donde d es 1 o 2, aumenta o permanece constante, ya que la dimensionalidad de los datos aumenta [25]. Nuestro mod k-prototipos algoritmo se basa en la de Euclides (L 2) la distancia métrica para la alta dimensional microarrays de datos de química clínica y los datos. Habida cuenta de la mencionada labor teórica más nuestra propia simulación de un pequeño conjunto de datos a escala y la reducción de las dimensiones de alta los datos numéricos (véase la disposición 1], estamos convencidos de que la agrupación de las muestras usando el mod-k prototipos algoritmo no depende de la escala o la dimensionalidad de los datos. Los resultados de la simulación también aportar pruebas de que el algoritmo es al menos capaz de encontrar un pequeño número de verdadero / agrupaciones conocidas, cuando existan. Por otra parte, el fenotípicamente anclado genes que fueron adquiridos de los prototipos de los grupos de la acetaminofeno-muestras expuestas sugieren que el mod-k prototipos algoritmo formas grupos de muestras que son biológicamente significativos. Nuevas aplicaciones del método a una variedad de reales y simuladas, los conjuntos de datos están en marcha. Estos también debería ayudar a determinar su utilidad en una gama de escalas y dimensiones de datos.

A medida que más se convierte en datos biológicos disponibles, métodos avanzados para la agrupación integrada de datos será necesario, a fin de recopilar más información significativa acerca de la biología subyacente de las muestras. Esfuerzos como integradora de la genómica, la biología de sistemas, toxicogenómica, la farmacogenómica y la informática biomédica están generando volúmenes de datos biológicos y de información que abarca transcriptomics, la proteómica, la metabolómica, la toxicología, farmacología clínica, la biología y la genética para aprovechar cada dominio de datos para un mayor conocimiento de evaluación biológica resultados [12, 26 - 30]. Caso en punto, la labor de Baskin et al. [31] para analizar colectivamente los microarrays, los datos clínicos y patología observaciones revelaron que los patrones de expresión génica fueron muy coherentes con los resultados clínicos, la patología en cifras brutas y la histopatología de la gripe infectados por el virus pigtailed primates macacos. Sin embargo, los grupos identificados no pueden contener genes que están directamente asociados con la aparición de signos clínicos o patológicos indicios de infección de los tejidos debido a los dominios de los datos fueron analizados independientemente.

El mod k-prototipos algoritmo se adapta bien como una agrupación método para agrupar las muestras biológicas limitadas por datos integrados y de la característica que los valores. Se rendimientos representantes de los grupos (los prototipos) que pueden proporcionar una idea inicial para la conducción mecanismo biológico las similitudes de las muestras y los fenotipos asociados con la expresión génica. Este concepto de anclaje fenotípica se ha propuesto y comprobado como un medio para vincular la causa de una enfermedad o respuesta con los patrones de expresión génica y la alteración de los procesos biológicos que siguen el efecto observado [32 - 34]. Proponemos que el mod-k prototipos método de agrupación ofrecerá una alternativa viable computacional para embarcarse en puente multi-dominio de análisis de datos para los marcos de integración genómica, la biología de sistemas, farmacología y toxicología.

Conclusión

Muchos de los métodos existentes para agrupar los datos de expresión génica no incorporan los datos sobre fenotípica de las muestras. Hemos desarrollado el mod k-prototipos utilizando un algoritmo de la función objetivo con la suma de los cuadrados de Euclides distancias y se pongan en venta simple para agrupar las muestras biológicas sobre la base de datos numéricos y categóricos valores, respectivamente. Se trata de un planteamiento formal al grupo de datos de expresión génica con datos fenotípicos. El algoritmo se basa en el original-k algoritmo de prototipos, pero se ha adaptado a lo largo de la k-means paradigma, que contiene los términos de ponderación de microarrays, clínicas e histopatológicas de datos, y está diseñado para determinar el número de clusters en los datos de minimizar una medida DVI_CU sobre todos los posibles números de las agrupaciones y la aleatorización de la inicialización del algoritmo.

La ventaja de la agrupación simultánea de la expresión génica de datos con las evaluaciones de química clínica y la histopatología observaciones es que las agrupaciones informativo se forman con prototipos de los genes y el punto final características que están ligados a la fenotipos de muestras biológicas con similares resultados. A raíz de mod-k prototipos agrupación de los datos con acetaminofeno ponderación de los datos de dominio, informativo genes de la agrupación se identificaron los prototipos que son descriptivos de, y anclada a fenotípicamente, los niveles de necrosis centrolobulillar de la región del hígado de la rata. Desde el análisis empírico de acetaminofeno-el hígado de ratas tratadas muestra los datos mediante la ponderación de adaptación o diferentes sistemas de ponderación, después de haber dado algún peso a la histopatología observaciones y peso del conjunto de datos de microarrays> 0,5, son ventajosas para la agrupación de las muestras. La agrupación de los tipos de datos mixtos de esta manera fue mejor que el típico k-significa el estilo de una u otra agrupación de microarrays o de química clínica por sí sola los datos numéricos (es decir, los otros conjuntos de datos pesos fijado en 0) y mejor que el k-modos de agrupamiento de las muestras basadas únicamente en la histopatología de datos. Hemos encontrado que la expresión perfiles de varios genes del citocromo P450 y hemo oxigenasa 1 fueron importantes en su diferenciación entre los niveles de necrosis centrolobulillar del hígado de la rata. Citocromo P450 genes se encuentran en alta proporción en el hígado y producir las enzimas de desintoxicación para metabolizar sustancias tóxicas. Por otra parte, la alta dosis 6 horas frente a las ratas dosis altas 18, 24 y 48 hrs ratas difieren de un pequeño grupo de genes que contiene un activador de la c-Jun N-terminal quinasa vía, un transactivator de tirotropina y una versión beta regulador de diferenciación neuronal y el desarrollo. Pero en general, el crecimiento celular y / o mantenimiento, el metabolismo de aminas y el estrés fueron la respuesta que los procesos biológicos no discernir entre moderada y los niveles de acetaminofeno inducida por la necrosis de la región centrolobulillar del hígado de la rata. La utilización de conocidos y tradicionales mediciones directamente en el proceso de agrupación ofrece alguna garantía de que las agrupaciones resultantes serán interpretables de manera significativa. Sin embargo, nos damos cuenta de que el peso inadecuado para el dominio de datos puede sesgo la agrupación de las muestras. En el futuro el trabajo, vamos a investigar la ponderación de dominio heuristically datos.

Métodos
Las enfermedades del corazón datos mixtos

Las enfermedades del corazón datos de la Cleveland Clinic cardiopatía de base de datos mantenida en la Universidad de California en Irvine repositorio para el aprendizaje de máquina fue utilizada como un conjunto de datos con características mixtas para evaluar la capacidad del algoritmo de clustering para agrupar muestras sobre la base de mezcla de tipos de datos. El conjunto de datos consta de 303 pacientes definido por las características clínicas 13, cinco de los cuales son numéricos y ocho categórica o nominal. Los datos dispone de dos clases: 165 personas que no tienen las enfermedades del corazón (buff) y 138 individuos con cardiopatía (enfermedad).

El acetaminofeno microarrays de expresión génica y análisis de datos

Microarrays de expresión génica de datos se elaboró a partir de lóbulo izquierdo del hígado del mRNA muestras recogidas a partir del 4 de sexo masculino Fischer F344 / N ratas por grupo de dosis o bien expuestas a 50 mg / kg, 150 mg / kg (dosis bajas), 1500 mg / kg o 2000 mg / kg (dosis alta) de peso corporal acetaminofeno durante un período de luz (entre las 12 del mediodía y de 1 pm), así como el hígado mRNA recogida de control (vehículo de tratados) las ratas macho [35]. Los animales fueron sacrificados y mRNA extraído de muestras de hígado 6, 18, 24, o 48 horas después del tratamiento. Cada muestra de RNA de un animal tratado se comparó con un grupo de tiempo con ajuste de control de mRNAs y analizados por duplicado (tinte inversión experimentos) en Agilent-011868 (G4130A) microarrays de ADN de la rata (Agilent Technologies, Palo Alto, CA). El acetaminofeno exposición al hígado de rata a 50 y 150 mg / kg es subtoxic. Sin embargo, 1500 y 2000 mg / kg dosis inducir toxicidad grave que picos de 24 horas después de la exposición, pero las ratas muestran signos de recuperación 48 horas después de la exposición.

Escaneo de los microarrays y chips de adquisición de datos de imágenes escaneadas son los descritos anteriormente [22]. En resumen, los antecedentes resta pixel valores de intensidad se registro transformado, normalizado y evaluaron la importancia de de expresión (valor de p <0,05, Bonferroni corregido) utilizando un modelo de ANOVA comparando las muestras tratadas con el tiempo, con ajuste los controles. Los aproximadamente 3100 genes importantes' pixel ratio de valores de intensidad colorante de inversión hibridaciones se combinaron (mismos temas sólo) a través de Rosetta Resolver versión 5.1.0.1.23 (Rosetta Biosoftware, Seattle, WA) modelo de error en un promedio ponderado [36, 37]. Dos características genéticas (A_43_P22641 y A_43_P22629), que había todos los valores que faltan, se eliminaron del análisis. Los datos utilizados para la agrupación está en archivo adicional 6.

El acetaminofeno histopatología observaciones y evaluaciones de química clínica

48 histopatológico observaciones del acetaminofeno-el hígado de ratas tratadas muestra las diapositivas y 10 de química clínica en las mediciones biológicas de los animales tratados fueron recogidos tal como está descrita anteriormente [35]. Las observaciones incluyen: infiltración de células inflamatorias de la región centrolobulillar o región que no se especifique lo contrario, la necrosis de la región o centrolobulillar de hepatocitos, hiperplasia de la centrolobulillar hepatocitos, el agotamiento de glucógeno, la degeneración o regeneración de los hepatocitos o la región centrolobulillar, la congestión o el agotamiento de glucógeno la región centrolobulillar o sinusoid y la hiperplasia de la vía biliar. Microscópico calificadores fueron categorizados como no, mínima, leve, moderada o marcada. Las discrepancias en histopatología observaciones fueron resueltas por un equipo de certificados por la Junta patólogos [38].

Las evaluaciones de química clínica de muestras de suero se realizaron utilizando una Roche Cobas Fara analizador de química (Roche Diagnostic Systems, Westwood, NJ) para medir numéricamente los niveles séricos de la enzima. Estos incluyen indicadores de lesión hepática (alanina aminotransferasa [ALT] y aspartato aminotransferasa [AST]), Sorbitol deshidrogenasa [SDH], los niveles de colesterol, la indicación de lesión renal (nitrógeno ureico [BUN]), la evaluación de colestasis - interrupción del flujo biliar (en total los ácidos biliares [TBA], Creatina [crear], fosfatasa alcalina [ALP]), proteínas totales (PT) y albúmina (ALB). Niveles elevados de ALT y AST se correlaciona con daño hepático [39]. Faltan valores fueron imputados por ratas # s 308 y 309, ya sea con el grupo o la media global de valor medio para cada evaluación.

Simulación de datos para agrupar usando el mod-k prototipos algoritmo
Modificado k (mod k)-prototipos algoritmo

El Huang [15]-k prototipos algoritmo que combina el k-medios y los modos de k-objetivo para agrupar las funciones de datos numéricos y categóricos valores, respectivamente, se modificó para seguir el k-means algoritmo de paradigma, y también fue optimizado para buscar grupos formó más cercano al mundial de los mínimos de la función objetivo. In addition, a separate numeric objective function was utilized for the microarray and the clinical chemistry data resulting in the following mod k -prototypes objective function:

d ( X i , Q l ) = α j = 1 m r ( x i j r q l j r ) 2 + β j = 1 m s ( x i j s q l j s ) 2 + γ j = 1 m s δ ( x i j c , q l j c ) ( 1 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr@89A4@

where X i is the i th sample, for i = 1 to N number of samples, Q l is the l th prototype, for l = 1 to k number of clusters, m r is the number of microarray numeric attributes, m s is the number of clinical chemistry numeric attributes, m c is the number of histopathological categorical attributes, α , β and γ denote the weights ( W ) for the microarray, clinical chemistry and histopathology data domain dissimilarity measures, respectively. The weights for data domain d at the n th step ( W d [ n ]) are adapted (for controlling how much each data domain contributes to the clustering of the samples) as follows:

W d [ n ] = { 1 3 n = 0 ( 1 τ ) × W d [ n 1 ] + τ × a v e c o r r ( X d , Q d ) o t h e r w i s e ( 2 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGxbWvdaWgaaWcbaGaemizaqgabeaakiabcUfaBjabd6gaUjabc2faDjabg2da9maaceqabaqbaeqabiGaaaqaamaaliaabaGaeGymaedabaGaeG4mamdaaaqaaiabd6gaUjabg2da9iabicdaWaqaaiabcIcaOiabigdaXiabgkHiTGGaciab=r8a0jabcMcaPiabgEna0kabdEfaxnaaBaaaleaacqWGKbazaeqaaOGaei4waSLaemOBa4MaeyOeI0IaeGymaeJaeiyxa0Laey4kaSIae8hXdqNaey41aqlcbaGae4xyaeMae4NDayNae4xzauMae43yamMae43Ba8Mae4NCaiNae4NCaiNaeiikaGIaemiwaG1aaWbaaSqabeaacqWGKbazaaGccqGGSaalcqWGrbqudaahaaWcbeqaaiabdsgaKbaakiabcMcaPaqaaiab+9gaVjab+rha0jab+HgaOjab+vgaLjab+jhaYjab+Dha3jab+LgaPjab+nhaZjab+vgaLbaaaiaawUhaaiaaxMaacaWLjaWaaeWaaeaaieqacqqFYaGmaiaawIcacaGLPaaaaaa@711F@

where tau ( τ ) is the exponential weighting update factor in the range [0,1] and avecorr( X d , Q d ) is the average correlation coefficient (Pearson for numeric data, Jaccard for categorical data) between the samples and the prototypes based on the feature values from domain d .

a v e c o r r ( X d , Q d ) = { ( 1 N ) i = 1 , X i d C l N ( cov ( X i d , Q l d ) s X i d s Q l d ) 2 i f domian d is numeric ( 1 N ) i = 1 , X i d C l N ( p ( X i d , Q l d ) p ( X i d , Q l d ) + 2 q ( X i d , Q l d ) ) i f domian d is categorical MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr=LgaPjab=zgaMjabbccaGiabbsgaKjabb+gaVjabb2gaTjabbMgaPjabbggaHjabb6gaUjabbccaGGqaciab+rgaKjabbccaGiabbMgaPjabbohaZjabbccaGiabb@E9AE@

where cov is the sample covariance, s is the sample standard deviation, N is the number of samples, p is the number of features that match and q is the number of features that do not match. The value of τ was set to 0.05 in order to adjust the weight of each domain by 5% at each iteration. The weights are non-negative and their sum is constrained to equal 1. The weights could potentially go to the boundaries [0,1] depending on the data. However, they can easily be constrained to always be above some lower bound, eg 0.05, or even fixed at proportions that are appropriate or reasonable to a domain expert.

Letting z represent r for microarray numeric data or s for clinical chemistry numeric data, the distance between X i z MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGybawdaqhaaWcbaGaemyAaKgabaGaemOEaOhaaaaa@30EA@ y Q l z MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaqhaaWcbaGaemiBaWgabaGaemOEaOhaaaaa@30E2@ containing missing values is defined as:

d j = { 0 i f x i j z o r q l j z i s m i s s i n g x i j z q l j z o t h e r w i s e . ( 3 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceqabaqbaeaabiGaaaqaaiabicdaWaqaaGqaaiab=LgaPjab=zgaMHqaciab+bcaGiab+Hha4naaDaaaleaacqGFPbqAcqGFQbGAaeaacqGF6bGEaaGccqqGGaaicqGFVbWBcqGFYbGCcqqGGaaicqWGXbqCdaqhaaWcbaGaemiBaWMaemOAaOgabaGaemOEaOhaaOGaeeiiaaIae8xAaKMae83CamNaeeiiaaIae8xBa0Mae8xAaKMae83CamNae83CamNae8xAaKMae8NBa4Mae83zaCgabaGaemiEaG3aa0baaSqaaiabdMgaPjabdQgaQbqaaiabdQha6baakiabgkHiTiabdghaXnaaDaaaleaacqWGSbaBcqWGQbGAaeaacqWG6bGEaaaakeaacqWFVbWBcqWF0baDcqWFObaAcqWFLbqzcqWFYbGCcqWF3bWDcqWFPbqAcqWFZbWCcqWFLbqzcqWFUaGlaaGaaCzcaiaaxMaadaqadaqaaGqabiab9ndaZaGaayjkaiaawMcaaaGaay5Eaaaaaa@71CC@

Then the distance between X i z MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGybawdaqhaaWcbaGaemyAaKgabaGaemOEaOhaaaaa@30EA@ y Q l z MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaqhaaWcbaGaemiBaWgabaGaemOEaOhaaaaa@30E2@ is:

d ( X i z , Q l z ) = p p p 0 j = 1 p d j 2 ( 4 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazcqGGOaakcqWGybawdaqhaaWcbaGaemyAaKgabaGaemOEaOhaaOGaeiilaWIaemyuae1aa0baaSqaaiabdYgaSbqaaiabdQha6baakiabcMcaPiabg2da9maalaaabaGaemiCaahabaGaemiCaaNaeyOeI0IaemiCaa3aaSbaaSqaaiabicdaWaqabaaaaOWaaabCaeaacqWGKbazdaqhaaWcbaGaemOAaOgabaGaeGOmaidaaaqaaiabdQgaQjabg2da9iabigdaXaqaaiabdchaWbqdcqGHris5aOGaaCzcaiaaxMaadaqadaqaaGqabiab=rda0aGaayjkaiaawMcaaaaa@4F07@

where d is the Euclidean distance, p is the number of numeric features and p 0 is the number of numeric features with missing values in X i z MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGybawdaqhaaWcbaGaemyAaKgabaGaemOEaOhaaaaa@30EA@ y Q l z MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaqhaaWcbaGaemiBaWgabaGaemOEaOhaaaaa@30E2@ or both.

For categorical ( c ) feature values, the dissimilarity measure between X i c MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGybawdaqhaaWcbaGaemyAaKgabaGaem4yamgaaaaa@30BC@ y Q l c MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaqhaaWcbaGaemiBaWgabaGaem4yamgaaaaa@30B4@ is defined by the total number of mismatches of the corresponding histopathologic features from the sample and the prototype X i c MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGybawdaqhaaWcbaGaemyAaKgabaGaem4yamgaaaaa@30BC@ y Q l c MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGrbqudaqhaaWcbaGaemiBaWgabaGaem4yamgaaaaa@30B4@ respectively such that

d ( X i c , Q l c ) = j = 1 m c δ ( x i j c , q l j c ) ( 5 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGKbazcqGGOaakcqWGybawdaqhaaWcbaGaemyAaKgabaGaem4yamgaaOGaeiilaWIaemyuae1aa0baaSqaaiabdYgaSbqaaiabdogaJbaakiabcMcaPiabg2da9maaqahabaacciGae8hTdqMaeiikaGIaemiEaG3aa0baaSqaaiabdMgaPjabdQgaQbqaaiabdogaJbaakiabcYcaSiabdghaXnaaDaaaleaacqWGSbaBcqWGQbGAaeaacqWGJbWyaaGccqGGPaqkcaWLjaGaaCzcamaabmaabaacbeGae4xnaudacaGLOaGaayzkaaaaleaacqWGQbGAcqGH9aqpcqaIXaqmaeaacqWGTbqBdaWgaaadbaGaem4yamgabeaaa0GaeyyeIuoaaaa@559E@

where

δ ( x i j c , q l j c ) = { 0 i f x i j c = q l j c 1 i f x i j c q l j c . ( 6 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWF0oazcqGGOaakcqWG4baEdaqhaaWcbaGaemyAaKMaemOAaOgabaGaem4yamgaaOGaeiilaWIaemyCae3aa0baaSqaaiabdYgaSjabdQgaQbqaaiabdogaJbaakiabcMcaPiabg2da9maaceqabaqbaeaabiGaaaqaaiabicdaWaqaaGqaaiab+LgaPjab+zgaMjabbccaGiabdIha4naaDaaaleaacqWGPbqAcqWGQbGAaeaacqWGJbWyaaGccqGH9aqpcqWGXbqCdaqhaaWcbaGaemiBaWMaemOAaOgabaGaem4yamgaaaGcbaGaeGymaedabaGae4xAaKMae4NzayMaeeiiaaIaemiEaG3aa0baaSqaaiabdMgaPjabdQgaQbqaaiabdogaJbaakiabgcMi5kabdghaXnaaDaaaleaacqWGSbaBcqWGQbGAaeaacqWGJbWyaaGccqGGUaGlaaaacaGL7baacaWLjaGaaCzcamaabmaabaacbeGae0NnaydacaGLOaGaayzkaaaaaa@6584@

For B (typically set to 100) times, the mod k -prototypes algorithm initialization is seeded by the domain data vector of a randomly selected sample for each of the k clusters. For adaptive clustering, recursion was used to update the prototypes in order to find the configuration of the initial k -prototypes which ultimately results in the reduction of the objective function closest to the global minimum. Matlab code and a stand-alone executable program for the mod k -prototypes algorithm to simultaneously cluster gene expression data with clinical chemistry and pathological evaluations are available [ 48 ].

Determination of cluster number ( k ) and validation of cluster assignment

To determine the number of clusters in a data set, the DVI of Shen et al. [ 40 ] was used. The DVI is based on an intra/inter ratio validity index that also includes scaling of the intra- and the inter-cluster distances.

D V I k = { i n t r a ( k ) max i = 2 , ... , N { i n t r a ( i ) } + i n t e r ( k ) max i = 2 , ... , N { i n t e r ( i ) } } MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaieaacqWFebarcqWFwbGvcqWFjbqsdaWgaaWcbaGae83AaSgabeaakiabg2da9maacmqabaWaaSaaaeaacqWFPbqAcqWFUbGBcqWF0baDcqWFYbGCcqWFHbqycqGGOaakcqWGRbWAcqGGPaqkaeaadaWfqaqaaiGbc2gaTjabcggaHjabcIha4bWcbaGaemyAaKMaeyypa0JaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOta4eabeaakiabcUha7jab=LgaPjab=5gaUjab=rha0jab=jhaYjab=fgaHjabcIcaOiabdMgaPjabcMcaPiabc2ha9baacqGHRaWkdaWcaaqaaiab=LgaPjab=5gaUjab=rha0jab=vgaLjab=jhaYjabcIcaOiabdUgaRjabcMcaPaqaamaaxababaGagiyBa0MaeiyyaeMaeiiEaGhaleaacqWGPbqAcqGH9aqpcqaIYaGmcqGGSaalcqGGUaGlcqGGUaGlcqGGUaGlcqGGSaalcqWGobGtaeqaaOGaei4EaSNae8xAaKMae8NBa4Mae8hDaqNae8xzauMae8NCaiNaeiikaGIaemyAaKMaeiykaKIaeiyFa0haaaGaay5Eaiaaw2haaaaa@7E0F@

where

i n t e r ( k ) = M a x i , j ( Q i Q j 2 ) M i n i j ( Q i Q j 2 ) i = 1 k ( 1 j = 1 k ( Q i Q j 2 ) ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr@7E43@

k is the number of clusters, N is the number of samples and intra is the average Euclidean distance between samples and the prototype Q of the cluster each sample is assigned to.

For mixed data with numeric and categorical values, the DVI was modified to include a CU measure [ 41 ] that defines the probability of matching a categorical feature value given a cluster versus the probability of the categorical feature value given the entire data set

C U m = 1 m k = 1 m P ( C k ) [ i j P ( A i = V i j | C k ) 2 i j P ( A i = V i j ) 2 ] ( 7 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr@70BA@

where P ( A i = V ij ) is the unconditional probability of feature A i taking on the value V ij , P ( A i = V ij | C k ) is the conditional probability of A i = V ij given cluster C k , and k is the cluster number from 1 to m . The DVI modified with CU

DVI_CU = (DVI + 1/CU) (8)

is minimized over all k sets for each run of the mod k -prototypes clustering algorithm. Validation of cluster assignment was carried out using R', the adjusted Rand index [ 42 - 44 ]. When two partitions agree totally, R' is 1 and when the partitions are selected by chance, R' is 0.

Generation of phenotypic prototypes

A cluster's prototype is formed from the mean of the values for numeric features and the mode of the categorical values of all the samples in the group. Hence, the cluster's prototype is taken as a representation of the feature values that depicts the phenotype of the samples in the group. The process for obtaining phenotypic prototypes is to extract all the histopathologic feature value labels and clinical chemistry measurements as well as significant genes from the prototypes of the clusters that can distinguish between pathological outcomes and best represent the underlying biology of the group of samples. Let the observed difference between the expression ratio of the g th gene ( p in total) from the gene expression component of prototype q for i th and j th ( i not equal to j ) cluster ( k in total) be observed g = ( q gi - q gj ) and the expected change in expression be

e x p e c t e d = g = 1 p i = 1 k 1 j = i + 1 k ( q g i k q g j k ) ( k 2 ) p MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr@64EE@

Averaging over all the genes gives an estimate of the expected difference between a gene's ratio values in the prototypes of two clusters being compared. Assuming independence and an approximately normal distribution of differences, genes which have expression ratios which significantly distinguish between prototypes of clusters are evaluated using a standard chi-square ( X 2 ) goodness-of-fit test [ 45 ]:

χ c 2 = 2 ( o b s e r v e d g e x p e c t e d ) 2 e x p e c t e d χ α , 1 2 ( 9 ) MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWFhpWydaqhaaWcbaGaem4yamgabaGaeGOmaidaaOGaeyypa0ZaaSaaaeaacqaIYaGmcqGGOaakieaacqGFVbWBcqGFIbGycqGFZbWCcqGFLbqzcqGFYbGCcqGF2bGDcqGFLbqzcqGFKbazdaWgaaWcbaGaem4zaCgabeaakiabgkHiTiab+vgaLjab+Hha4jab+bhaWjab+vgaLjab+ngaJjab+rha0jab+vgaLjab+rgaKjabcMcaPmaaCaaaleqabaGaeGOmaidaaaGcbaGae4xzauMae4hEaGNae4hCaaNae4xzauMae43yamMae4hDaqNae4xzauMae4hzaqgaaiabgwMiZkab=D8aJnaaDaaaleaacqWFXoqycqGGSaalcqaIXaqmaeaacqaIYaGmaaGccaWLjaGaaCzcamaabmaabaacbeGae0xoaKdacaGLOaGaayzkaaaaaa@647B@

where the null hypothesis is that the expression value of the g th gene does not distinguish between prototypes of a pair of clusters that are compared. The null hypothesis is rejected at a level of α , the probability of a type I error, if χ c 2 MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqaHhpWydaqhaaWcbaGaem4yamgabaGaeGOmaidaaaaa@30D1@ χ 2 (1, α ) where χ 2 (1, α ) is the α -level critical value of a χ 2 -distribution with 1 degree of freedom. An α of 0.05 gives reliable results. Genes from a comparison of two prototypes which significantly distinguish the clusters are annotated for biological function and process(es) using the GO database [ 46 , 47 ].

List of abbreviations used

mod k -prototypes, modified k -prototypes; ALT, Alanine aminotransferase; AST, Aspartate aminotransferase; SDH, Sorbitol dehydrogenase; BUN, blood urea nitrogen; TBA, total bile acids; Creat, Creatine; ALP, Alkaline Phosphatase; TP, total protein; ALB, albumin; DVI, dynamic validity index; CU, category utility; R', Adjusted Rand Index; DVI_CU, dynamic validity index with category utility; SOM, self organizing map; HMM, hidden Markov model; GO, Gene Ontology.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

PRB performed the analysis of the gene expression data, considered the utilization of the DVI_CU measure and the k -prototypes algorithm for gene expression and phenotypic data, implemented the mod k -prototypes clustering algorithm and DVI_CU, applied them to the mixed type data and wrote the paper. RDW provided statistical guidance for the work. GG provided advice and guidance throughout the project. Both GG and RDW assisted in the evaluation of results. Todos los autores leído y aprobado el manuscrito final.

Supplementary Material
Additional file 1
Generation and clustering of simulated mixed data and real data with reduced dimensions of the microarray data
Supplemental_materials.pdf is a pdf file to be viewed with Adobe Acrobat.
Additional file 2
Cluster assignment of the heart disease samples using equal weights
Table_S1.txt is a tab-delimited text file to be opened and viewed with any standard spreadsheet software.
Additional file 3
Cluster assignment of the acetaminophen-treated samples using equal weights
Table_S2.txt is a tab-delimited text file to be opened and viewed with any standard spreadsheet software.
Additional file 4
Histopathology observations and clinical chemistry measurements
Table_S3.txt is a tab-delimited text file to be opened and viewed with any standard spreadsheet software.
Additional file 5
Significant and unique genes that distinguish between levels of centrilobular necrosis of the rat liver
Table_S4.txt is a tab-delimited text file to be opened and viewed with any standard spreadsheet software.
Additional file 6
Approximately 3100 genes determined to be significantly differentially expressed by ANOVA modelling
DEGs.txt is a tab-delimited text file to be opened and viewed with any standard spreadsheet software.
Additional file 7
Simulated mixed data of different types (numeric and categorical)
sim_mixed_data.txt is a tab-delimited text file to be opened and viewed with any standard spreadsheet software.
Agradecimientos

We give thanks to Gary Boorman and Rick Irwin of the NIEHS/National Toxicology Program (NTP) for the design of the acetaminophen study and for generation of the gene expression, clinical chemistry and the histopathology data. The data is publicly available at the Chemical Effects in Biological Systems (CEBS) database , accession number 002-00001-0011-000-5. Thanks to Robert Detrano, MD, Ph.D., VA Medical Center, Long Beach and Cleveland Clinic Foundation for generation of the heart disease data. The data is available at the University of California at Irvine repository for machine learning web site . Many thanks to the NIEHS/National Center for Toxicogenomics Toxicology-Pathology group, other scientists and especially Alexandra Heinloth and Richard S. Paules for their advice on weighting schemes and the biology for different domains of toxicogenomics data. We greatly appreciate Judong Shen for the computation for the Dynamic Validity Index and Pablo Tamayo for R code to simulate numeric data. Thanks to Shuangshuang Dai and Yohan Jin for their critical review of the manuscript. This research was supported, in part by, the Intramural Research Program of the NIH and NIEHS.