BMC Bioinformatics, 2005; 6: 76-76 (más artículos en esta revista)

Entropía basado en un método de selección de genes para cáncer de clasificación utilizando microarrays de datos

BioMed Central
Xiaoxing Liu (xiaoxing@bii.a-star.edu.sg) [1], Arun Krishnan (arun@bii.a-star.edu.sg) [1], Adrian Mondry (adrian@bii.a-star.edu . Sg) [1]
[1] Instituto de Bioinformática, 30, Biopolis Street, # 07-01, (S) 138671, Singapur

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Precisa el diagnóstico de los subtipos de cáncer sigue siendo un problema difícil. Edificio clasificadores basados en la expresión de genes de datos es un enfoque prometedor, sin embargo, la selección de los no redundante, pero los genes es difícil.

El conjunto de genes seleccionados deben ser lo suficientemente pequeño para permitir el diagnóstico, incluso en los laboratorios clínicos y regular idealmente identificar genes implicados en cáncer de las vías reglamentarias específicas. Aquí un método basado en la entropía se propone que selecciona genes relacionados con el cáncer de diferentes clases y al mismo tiempo reducir la redundancia entre los genes.

Resultados

En el presente estudio se identifica un subconjunto de características por aumentar al máximo la pertinencia y minimizar la redundancia de los genes seleccionados. Un mérito llamado normalizado de información mutua se emplea para medir la pertinencia y la redundancia de los genes. Con el fin de encontrar un subconjunto más representativo de las características, un procedimiento iterativo es aprobado, que incorpora una primera agrupación seguido de partición de datos y la aplicación del algoritmo para cada una de las particiones. Una licencia de un enfoque a cabo luego selecciona a los más comúnmente genes seleccionados a través de todas las diferentes carreras y la selección de genes algoritmo se aplica de nuevo a pare abajo en la lista de genes seleccionados hasta un mínimo subconjunto se obtiene que ofrece una satisfactoria exactitud de la clasificación.

El algoritmo se aplicó a tres diferentes conjuntos de datos y los resultados obtenidos fueron comparados con la labor realizada por otras personas que utilizan el mismo conjunto de datos

Conclusión

Este estudio presenta una entropía iterativo basado en el algoritmo de selección de datos de los microarrays de genes que son capaces de clasificar los diversos sub-tipos de cáncer con una alta precisión. Además, el conjunto de características que se obtiene es muy compacto, es decir, la redundancia entre los genes se reduce en gran medida. Esto implica que los clasificadores pueden ser construidos con un pequeño subconjunto de los genes.

Antecedentes

DNA microarrays se han convertido en omnipresentes en el análisis de los perfiles de expresión de los genes en la esperanza de distinguir entre los diversos tipos de enfermedades, como el cáncer de discriminación entre los distintos sub-tipos. Expresión diferencial de genes se analizaron estadísticamente y los genes están asignados a distintas clases que pueden (o no) mejorar la comprensión de los procesos biológicos. Alternativamente, en un conjunto reducido de genes puede ser señalado y utilizados como biomarcadores para el diagnóstico y pronóstico.

Microarray de datos por lo general se usa tanto para descubrir nuevas clases, así como la predicción de la clase. Descubrimiento de nuevas clases [1 - 4] se alcanza generalmente con la ayuda de técnicas de clustering como agrupación jerárquica [5], k-means clustering [6] y de la libre organización de los mapas (SOM) [7]. Predicción de la clase, con la participación de la asignación de etiquetas de las muestras sobre la base de sus patrones de expresión, es, por lo general sobre la base de estadísticas o de los métodos de aprendizaje supervisado máquina. Estos van desde la aplicación de técnicas sencillas, como de vecinos más cercanos algoritmos [8] a los métodos clásicos, como el análisis discriminante lineal [9] a técnicas más avanzadas, tales como redes neuronales [10], las máquinas de vectores soporte [11 - 13], la lógica difusa [14] y árboles de decisión [15]. El reto en el tratamiento de los microarrays de datos radica en el hecho de que hay órdenes de magnitud de las diferencias entre el número de muestras (en general, menos de un centenar) y el número de genes (típicamente a decenas de miles) que se estudian. Las mediciones también suelen contener tanto la medición del ruido, así como el ruido sistémica. Esto podría tener un impacto significativo en la precisión de clasificación. Clasificación, por lo tanto, debe ser precedida por un paso conocido como característica de selección cuando un subconjunto de las características es identificado.

Hay una serie de ventajas al conjunto de características de la selección. La primera radica en la reducción de los gastos de diagnóstico clínico. Es mucho más barato para centrarse sólo en la expresión de unos pocos genes más que en miles de genes para el diagnóstico [16]. Conjunto de características de selección también puede conducir a una reducción de coste computacional, como resultado de una reducción en el problema de la dimensionalidad. Además, el conjunto de características de la selección a menudo da lugar a una mucho más pequeña y más compacta de genes. Esto podría facilitar la identificación de los genes de particular importancia para el problema en estudio. Además, dada la disparidad en la magnitud de los números y muestras de los genes, es difícil justificar el desarrollo de un clasificador basado en un conjunto de genes que el número de genes es mayor que el número de muestras.

Una forma de clasificar los criterios de selección de conjunto de características es clasificarlos ya sea como filtro (por ejemplo, los basados en pruebas estadísticas como la t de Student, F-test, etc) o envoltorio de los métodos [17]. Estos métodos tienen la ventaja de tener muy baja complejidad computacional, así como mejores posibilidades de generalización, ya que no están al método de aprendizaje.

Wrapper tipo de enfoques son aquellos en los que la característica método de selección que se incluye junto con el método de aprendizaje. Esto implica que la utilidad de una función está validado por la estimación de la precisión de método de aprendizaje. En consecuencia, a menudo, un pequeño subconjunto del conjunto de características de muy alta precisión de la predicción se puede obtener, porque las características de las características coinciden perfectamente con las características del método de aprendizaje.

Otra forma de clasificación de conjunto de características de los enfoques de selección es univariado como multivariado o [18]. Univariado métodos [1, 19] en cuenta las contribuciones de cada uno de los genes a la clasificación independiente. En cambio los métodos multivariantes como función recursiva eliminación (RFE) [12], la licencia de uno (LOO) método [13], métodos basados en la información mutua [20], etc, medida de la contribución relativa de un gen a la clasificación mediante la adopción de la Efecto de otros genes en consideración al mismo tiempo.

Una grave deficiencia de los enfoques utilizados actualmente multivariante conjunto de características para la selección es que se basa en la selección de genes que son pertinentes con el máximo respeto a las clases. El problema con este enfoque es que aún cabría genes entre los que puede optar son fuertemente correlacionadas entre sí y, por tanto, que conduzca a un despido en el conjunto de características seleccionadas. Ding et. Al. [20] han utilizado la información mutua para la selección de genes que tiene la máxima relevancia con un mínimo de redundancia por la solución de un sencillo de dos objetivo de optimización.

En el estudio que aquí se presenta, un enfoque similar se ha seguido para el conjunto de características de la selección por tratar de maximizar la relevancia y minimizar la redundancia de los genes seleccionados. Sin embargo, la información mutua normalizada se ha utilizado en lugar de la información mutua. Además, ambos Battiti codiciosos selección del algoritmo [21], así como un enfoque basado en recocido simulado [22] se han utilizado. Con el fin de encontrar un subconjunto más representativo de las características, un procedimiento iterativo que se aprobó incorpora una primera agrupación seguido de partición de datos y la aplicación del algoritmo para cada una de las particiones. Una licencia de un enfoque a cabo luego selecciona a los más comúnmente genes seleccionados a través de todas las diferentes carreras y la selección de genes algoritmo se aplica de nuevo a la lista pare de determinados genes hasta que un subconjunto mínimo que da una satisfactoria exactitud de la clasificación se obtiene. El algoritmo se aplicó a tres diferentes conjuntos de datos y los resultados obtenidos fueron comparados con la labor realizada por otras personas que utilizan el mismo conjunto de datos. Además, el algoritmo también en comparación con el trabajo realizado por Ding y Peng [20] para tres diferentes conjuntos de datos.

Resultados
Conjuntos de datos

Tres público microarrays conjuntos de datos se utilizarán para evaluar el desempeño del algoritmo.

Resultados

Los resultados de la aplicación de la totalidad de algoritmo usando el algoritmo codicioso selección, así como el algoritmo de recocido simulado para la solución del problema 2 se muestran en la Tabla 1. La agrupación asociada dendrogramas se muestran en las figuras 1, 3 y 5, respectivamente. Para todos los dendrogramas, las muestras se presentan a lo largo del eje "x" con el gen de la serie a lo largo de eje de las ordenadas. Orange refleja hasta en tanto expresión de amarillo representa poca o ninguna expresión.

Los resultados de SRBCT fueron los mejores con un 100% de precisión obtenida. El número de genes seleccionados en este caso fue de 58 frente a los 96 genes seleccionados por Khan et al. [10]. Es interesante observar que cuando el binario algoritmo de optimización se utilizó para seleccionar los genes de la SRBCT datos, el 50 de los genes seleccionados fueron los mismos que los seleccionados con el algoritmo codicioso. El índice de exactitud de los datos de cáncer de mama fue similar en ambos casos, con alrededor de 5 muestras están mal clasificados. El último conjunto de genes para este conjunto de datos figuran 31 genes. Para el cáncer de colon de datos, hubo 6 errores clasificaciones, con un índice de exactitud de 90,3%. Existen 29 genes seleccionados en la final de genes.

No parece que sea cuantitativa o cualitativa diferencia al utilizar los codiciosos o los binarios de selección de algoritmo de optimización. Por otra parte, desde el recocido simulado procedimiento requiere una cantidad excesiva de tiempo de cálculo (del orden del día) en comparación con el algoritmo de selección codiciosos (del orden de un par de horas), el procedimiento iterativo se puso en práctica con el algoritmo codicioso. El enfoque iterativo mostrado en la Figura 8 se utilizó para los tres conjuntos de datos y la agrupación dendrogramas con la función de la reducción de conjuntos se muestran en las figuras 2, 4 y 6, respectivamente. Es interesante observar que la clasificación de la precisión no se ve afectada por utilizar un conjunto de características muy reducida. De hecho, para el cáncer de colon de datos, la mejora de la exactitud de 91,9%.

Una de las principales preocupaciones en tanto que la realización de un multi-objetivo es la optimización de la presencia del factor de peso β. La selección de β suele heurístico. Battiti se sugiere en [21] que el valor de β entre 0,5 y 1,0 es apropiado para la mayoría de los casos. El efecto de las variaciones de β se estudió mediante la modificación de su valor de 0 a 1 en pasos de 0,2. Utilizando el conjunto de datos de cáncer de colon y de la clasificación de la precisión de cálculo (Cuadro 2]. Un valor de (0,5 - 1,0) para β parece apropiado. Asimismo, el orden de selección de los primeros 10 genes se examinó (Tabla 3]. Parece que diversos β afecta a la selección de genes para un determinado grado. Por ejemplo, la comparación de los genes de selección de pedidos para β = 0,6, el 0,8 revela que los genes de 267 y 513 plazas de intercambio en tanto que los genes 1256 (para β = 0,6) y 1727 (para β = 0,8) no son comunes para ambos casos. Sin embargo, hay que tener en cuenta que la orden de selección en este caso no es indicativo de la importancia relativa de los genes, ya que un algoritmo codicioso se está utilizando.

También nuestra metodología en comparación a la de Ding y Peng [20] para tres diferentes conjuntos de datos. El primer conjunto de datos es el cáncer de colon de datos [24]. El segundo conjunto de datos es la leucemia de datos [1]. El tercer y último conjunto de datos utilizado fue el Instituto Nacional de Cáncer de datos [25]. Los resultados son tabulados en la Tabla 4. Como se puede comprobar, basado en la Uncertainity (UB) método (nuestro método) parecía hacer mejor que la DP (Ding y Peng) método de los dos puntos de datos. Por otra parte, para la leucemia de datos, AD resultó superior a nuestro método. Para el Instituto Nacional de Cáncer de datos, tanto con métodos poco eficaz método de la AD con una ligera ventaja. Sin embargo, cabe señalar que el Instituto Nacional de Cáncer de datos consta de 9 clases y sólo 60 muestras. Como resultado, el conjunto de datos con la clasificación de muy pequeño tamaño de la muestra en 9 diferentes clases y uso de sólo 15 genes es muy difícil.

Otra dificultad en la comparación de diferentes metodologías radica en el hecho de que la inicial de tratamiento previo paso también podría desempeñar un papel en la clasificación precisiones. A falta de una uniformidad de preprocesamiento de las bases de datos, es difícil sacar conclusiones generales acerca de la relación de dos actuaciones distintas metodologías.

Como comúnmente observadas cuando se comparan los algoritmos de análisis, el rendimiento muestra resultados mixtos. Aunque Ding y Peng algoritmo superaron a la que se presenta aquí (véase cuadro 4], cabe señalar que la descripción de los métodos en su artículo no nos permiten comparar los dos algoritmos, en igualdad de condiciones ya que no se proporcionó el ranking de genes, y por lo tanto la biológica Importancia de sus conclusiones no pueden ser evaluadas.

Una comparación entre la precisión obtenida por los trabajos originales (de la que se obtuvieron los datos) y de la aplicación de este método se da en la Tabla 5. La lista de genes seleccionados para cada conjunto de datos y sus filas en los trabajos originales que se dan en el ámbito de la disposición.

Discusión

Los detalles de los genes seleccionados y la comparación con los datos originales figuran en el material suplementario para los tres conjuntos de datos. En esta sección se presenta una discusión de la comparación de los genes seleccionados por el algoritmo presentado en este trabajo con las presentadas en anteriores trabajos (o como en el caso del cáncer de mama y SRBCT datos, en la obra original).

SRBCT conjunto de datos

Hubo un total de 41 genes que se superponen entre los métodos de selección presentados en este trabajo y los que por [10]. Los genes son comunes de todos los niveles de la jerarquía método original. Izquierda a cabo los genes codificados menudo, pero no siempre para las proteínas de un sistema funcional similares a los seleccionados aún aquí, como en el caso de no. 233721 insulina factor de crecimiento similar a la proteína de unión (aquí no seleccionadas) y no. 296448 (factor de crecimiento tipo insulina 2) y 207274 (factor de crecimiento tipo insulina 2, el exón 7 y adicionales ORF), que fueron seleccionadas por ambos métodos. Curiosamente, dos oncogén viral secuencias no fueron seleccionados (n º 417226 y 812965, v-myc avianmyelocytomatosis oncogén viral homólogos), ni fueron algunos matriz extra celular-genes asociados (nn: 122159 y 809901, collagens tipo III y XV), ambos sin reposición De genes similares. Los diecisiete recién seleccionado los genes que no fueron parte de la selección original provienen de diversos sistemas funcionales. De interés aquí es que mientras que el gen original no. 245.330 (krueppel Humanos relacionadas con el dedo de zinc proteína H-plk) quedó fuera, no de genes. 767495 (GLI-Krueppel miembro de la familia GLI3) fue recientemente seleccionado. Estas "señales de localización nuclear" se ha demostrado que los procesos involucrados en la determinación de la localización adecuada nucleares [26], pero también pueden ser factores determinantes de la progresión hacia el cáncer [27].

El cáncer de mama conjunto de datos

, De los 31 genes seleccionados aquí, 16 no fueron seleccionados en la publicación original [23], que seleccionaron 60 genes. Los 45 genes que no han sido seleccionadas por el actual método que abarca una gran variedad de funciones fisiológicas, sin convertirse en una modalidad concreta evidente. Dos genes ligados a la ILGF quedaron fuera (no: s37730 y m62403), sin reemplazo. ILGF está relacionada con el desarrollo de varios tipos de cáncer (en la revisión [28]]. El hecho de que ILGF-genes están vinculados a la izquierda aquí puede discutirse en dos formas diametralmente opuestas. Por una vez, dejando a estos genes de la clasificación puede causar un descuido de los tejidos del potencial para inducir mayor crecimiento canceroso. Más probable, sin embargo, parece que todo lo fisiológico papel juegan estos genes en el tejido, que no contribuyen a distinguir entre los diversos tipos de cáncer.

El cáncer de colon conjunto de datos

Contrariamente a los otros dos conjuntos de pruebas, en el caso del cáncer de colon, la publicación original no fueran recuperados el conjunto de genes, por lo que una comparación directa de resultados no era posible. El mismo conjunto de datos, sin embargo, ha sido re-analizados previamente por Silvio Bicciato [29], la utilización de un auto modelo de redes neuronales asociativas, que arrojó una lista de ranking de genes. Con la excepción de Tetraspan-1, que encabeza la lista con un rango de peso de 0,9391, la parte superior de los genes que se encuentran Bicciato para la reconstrucción de la clase normal de acuerdo con el rango lista presentada aquí, mientras que sólo un gen (Heat shock 60 kD proteína 1) es seleccionado por ambos métodos cuando se comparan con la lista de genes en [29] para la reconstrucción de la clase de tumor. Tetraspan Esta familia de proteínas está involucrada en los procesos de adhesión celular en la brecha de enlaces relacionados y una proteína es mayor en el cáncer gástrico metastásico altamente [30].

Conclusión

En comparación con los métodos de clasificación se describe en los artículos originales o de terceros análisis anterior, el algoritmo se describe aquí se compara favorablemente en su capacidad de seleccionar los pequeños conjuntos de genes que distinguir entre los diversos tipos de cáncer. La observación de que se deja fuera de varios genes que se sabe están involucrados en el desarrollo del cáncer puede indicar que la ventaja de este método radica más en la buena clasificación, pero no en la detección de nuevos mecanismos de regulación disfuncional.

Aunque los resultados preliminares usando un algoritmo de selección codiciosos son alentadoras, un trabajo adicional que hay que hacer con el fin de desarrollar metodologías alternativas para la optimización multi-objetivo que puede seleccionar un representante más óptimo y conjunto de genes para discriminar entre los distintos sub-tipos de cáncer.

Métodos

Algoritmos para análisis de datos de microarrays suelen concentrarse en la obtención de un conjunto de genes que permitan distinguir entre las diferentes clases en un determinado conjunto de muestras. Así, la principal preocupación es asegurar la pertinencia de los genes a las clases que se examina.

Dado un conjunto de datos de microarrays con m muestras pertenecientes a conocidos k clases y los genes n, queremos seleccionar a los genes que son capaces de predecir las diferencias en los patrones de la expresión génica en las diferentes clases de prueba. Definir ; | C | = k, el vector como el etiquetado de las muestras y clases ; In como el perfil de expresión génica de los genes i. Vamos Ser el conjunto de características de todos los genes y dejar que sea S el conjunto de los genes seleccionados. Entonces, el conjunto de características de la selección problema puede definirse de la siguiente manera:

Problema 1

Seleccione un conjunto de los genes S, S Tal que ∀ gen sS la pertinencia de s con Se maximice.

Sin embargo, el conjunto de características de los genes seleccionados se incluyen una serie de genes redundantes a veces con poca relación con las clases. Esto se debe al hecho de que la presencia de genes que están estrechamente relacionados entre sí implica que existe una posibilidad de que los genes orthoganal a los del conjunto seleccionado de quedar fuera de la final conjunto de características. Además, la presencia de genes con poca relevancia para las clases conduce a una reducción de la "información útil".

Idealmente, debería haber seleccionado los genes de alta pertinencia con las clases mientras que la redundancia entre los genes seleccionados es baja. La mayoría de los estudios anteriores hizo hincapié en la selección de los genes de gran relevancia. Ding et. Al. [20] se refirió a la cuestión de los despidos entre los genes seleccionados. Los genes con alta pertinencia se espera que sean capaces de predecir las clases de las muestras. Sin embargo, el poder de predicción es reducido si muchos de los genes se seleccionan redundante. En cambio, un conjunto de prestaciones que contiene los genes no sólo con una alta pertinencia con respecto a las clases, pero con baja redundancia mutua es más eficaz en su capacidad de predicción.

Formulación de problemas

Para evaluar la eficacia de los genes, tanto de la pertinencia y la necesidad de redundancia que se mide cuantitativamente. Una medida de la entropía basado correlación es elegido aquí. Según Shannon, la teoría de la información [31], la entropía de una variable aleatoria X puede definirse como:

Entropía medidas de la incertidumbre de una variable aleatoria. Para la medición de la interdependencia de dos variables aleatorias XeY, algunos investigadores [20, 21] utiliza la información mutua, que se define como:

I (X, Y) = H (X) + H (Y) - H (X, Y) (2)

Con el fin de asegurar que los distintos valores son comparables y tienen efectos similares, normalizado de información mutua se utiliza como una medida y se define como:

U (X, Y) es simétrica y oscila entre 0 y 1, con el valor 1 que indica que el conocimiento de una variable totalmente predice la otra (alta relevancia mutua), mientras que el valor 0 indica que XeY son independientes (baja pertinencia mutua ).

La relevancia mutua entre Y Puede ser modelado por U ( ), Mientras que la dependencia entre dos genes es U ( ).

El total de la pertinencia de todos los genes seleccionados se da por

El total de la redundancia entre los genes seleccionados se da por

Por lo tanto, el problema de la selección de genes puede reformularse de la siguiente manera:

Problema 2

Seleccione un conjunto de los genes S, S G tal que ∀ i ∈ S, la total pertinencia de todos los genes seleccionados con , J 1, al tiempo que se maximiza la importancia total entre todos los genes seleccionados g i ∈ S, J 2, se reduce al mínimo.

Este es un objetivo de dos problema de optimización. Para solucionarlo, de forma muy sencilla consiste en combinar estos dos objetivos en uno:

Donde β es un parámetro de peso.

Subsección * Algoritmo

Para resolver el problema anterior, Battiti [21] propuso un algoritmo codicioso. El procedimiento puede describirse de la siguiente manera (ver figura 7):

1. Inicialización: Fallgenes, S ← ∅.

2. Primera gen: seleccionar i gen que tiene mayor relevancia U ( ). G iS, M \ i.

3. Resto de los genes: de: F, seleccione gen j que maximiza .

4. Repita el paso anterior hasta que el número deseado de genes que se obtienen.

El problema de la maximización (6) también se puede volver a formularse en un problema de optimización binario. Vamos x i ser una variable binaria con valor 1 para la selección de genes i mientras que el valor 0 para no. Así, la ecuación (6) puede ser reescrito en:

Se puede seguir reescrito en forma de matriz:

C T U max x - x β T U p x (8)

U donde c es la pertinencia de vectores, U p es la matriz de pairwise redundancia.

Beasley et al. [32] examinó varios algoritmos heurísticos para resolver esos problemas de programación cuadrática binario. Un método heurístico recocido simulado fue empleada para resolver el problema. El pseudo códigos de recocido simulado se puede obtener de [32].

No obstante, existen limitaciones a los dos enfoques. Existe la posibilidad de que la solución obtenida para el Problema 2 puede llevar a un óptimo local. Esto podría dar lugar a un sub-óptimo conjunto de características que ello afecte a la exactitud de la predicción. Con el fin de ampliar el espacio de búsqueda, un procedimiento iterativo se aprobó. Los datos fueron inicialmente agrupados y dividirse en grupos K, C 1, C 2 C K ,..., k-mediante el uso de medios de agrupaciones. La idea era que en el grupo de genes con similares patrones de expresión. Los codiciosos o heurísticos recocido simulado procedimiento se aplica para seleccionar un subconjunto de los genes, S k, de cada partición, k, de modo que los genes seleccionados tenían bajo interés mutuo con respecto a unos de otros pero al mismo tener la máxima relevancia con los diferentes Clases. Los genes seleccionados de cada subconjunto se combinan para obtener un único conjunto de genes, es decir, S = S 1S 2S 3 ,..., S K ⋃.

El último conjunto de genes es seleccionado por la realización de un dejar-uno-a la validación cruzada (LOOCV). Para cada plazo, se celebrará una muestra para el resto de las pruebas whilei N - 1 muestras se utilizan para entrenar el clasificador. Los genes son seleccionados por el algoritmo usando las muestras de la formación y, a continuación, se utilizan para clasificar las muestras para la prueba. El índice de exactitud se calcula sobre la base de la corrección de las clasificaciones de cada una de las muestras para la prueba. Con el fin de obtener una comprensión más profunda de los genes seleccionados, los genes que se encuentran en común para todos los N diferentes carreras de la LOOCV experimento finalmente se enumeran a cabo para proseguir la investigación. El proceso de selección genética se repite por la selección de un subconjunto de los genes de este conjunto de características, que le proporciona una clasificación de error que es definida por el usuario por debajo de un umbral ε. Barrio más cercano (k-NN) método de clasificación se utiliza para evaluar el poder discriminante de los genes seleccionados por el método. El proceso se detiene cuando el error pasa a ser mayor que ε. El algoritmo completo se presenta en la figura 8.

Contribuciones de los autores

LXX fue responsable del desarrollo y aplicación del algoritmo, así como para la redacción de partes del documento. AK algoritmo participó en el desarrollo, así como en la escritura manuscrita. AM fue responsable de los análisis de los resultados, así como la preparación manuscrito. Todos los autores leído y aprobado el manuscrito.

Material suplementario
Archivo Adicional 1
Los genes seleccionados para Todos Conjuntos de datos. El archivo contiene la lista de los genes de cada uno de los tres conjuntos de datos utilizados en este estudio, así como las correspondientes filas de los genes seleccionados en el original de los documentos.
Agradecimientos

Los autores desean agradecer a los revisores anónimos por sus sugerencias y comentarios críticos del documento.