Correlación y predicción de la expresión de genes a nivel de aminoácidos y dipeptide composición de su proteína
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.
Un gran número de documentos han sido publicados en el análisis de microarray de datos con especial hincapié en la normalización de los datos, la detección de genes expresados diferencialmente, el agrupamiento de los genes y de reglamentación red. Por otra parte, hay muy pocos estudios sobre la relación entre la expresión nivel y la composición de nucleótidos / secuencia de la proteína, usando los datos de expresión. Existe la necesidad de entender por qué los genes / proteínas expresar más en condiciones particulares. En este estudio, se analizan los genes de 3468 obtenidos a partir de Saccharomyces cerevisiae Holstege et al., (1998) para entender la relación entre el nivel de expresión y composición de aminoácidos.
Estamos calcular la correlación entre la expresión de un gen y la composición de aminoácidos de sus proteínas. Se observó que algunos residuos (como Ala, Gly, Arg y Val) han significativa correlación positiva (r> 0,20) y algunos otros residuos (igual Asp, Leu, y Asn Ser) tienen correlación negativa (r <-0,15) Con la expresión de los genes. Una significativa correlación negativa (r = -0,18) también se encuentran entre la longitud y la expresión de los genes. Estas observaciones indican por ciento la relación entre la composición y la expresión de los genes. Así pues, se han hecho intentos de desarrollar un Programa de apoyo Vector Machine (SVM) que se basa el método para predecir el nivel de expresión de genes de la secuencia de la proteína. En este método la SVM es entrenado con proteínas de la expresión de genes cuyos datos se conoce en una determinada condición. Luego capacitado SVM se utiliza para predecir la expresión de genes de otras proteínas del mismo organismo, en la misma condición. Un coeficiente de correlación r = 0,70 se obtuvo entre predicho y determinado experimentalmente expresión de los genes, lo que mejora de r = 0,70 a 0,72 cuando dipeptide composición se utilizó en lugar de la composición de residuos. El método fue evaluado utilizando 5 veces la validación cruzada prueba. También demuestran que la composición de aminoácidos de información junto con la expresión de los genes se pueden utilizar los datos para mejorar la función de la clasificación de las proteínas.
Existe una correlación entre la expresión génica y la composición de aminoácidos que pueden ser utilizados para predecir el nivel de expresión de los genes, hasta un cierto punto. Un servidor web basándose en la mencionada estrategia se ha desarrollado para el cálculo de la correlación entre la composición de aminoácidos y de la expresión génica y la predicción de expresión http://kiwi.postech.ac.kr/raghava/lgepred/ nivel. Este servidor permitirá a los usuarios para estudiar la evolución de los datos de expresión.
El uso de las tecnologías de microarrays para controlar la expresión de genes en organismos modelo, líneas de células y tejidos se ha convertido en una parte importante de la investigación biológica en los últimos años. A pesar de una serie de documentos han sido publicados en el análisis de microarray de datos, en particular sobre la normalización, la clasificación y agrupación de datos en los últimos años [1, 2], la escasa relación entre el trabajo y la expresión de la secuencia de genes. En el pasado se han hecho intentos de establecer relación entre la expresión y la secuencia de nucleótidos de los genes [2 - 8]. Hay estudios que muestran la relación entre la expresión génica y el codón sinónimo sesgo [9]. En el pasado, se han desarrollado métodos para predecir el nivel de expresión de genes de sus secuencias de nucleótidos que se basa en la observación de que el codón sinónimo de uso general muestra un sesgo hacia algunos llamados codones principales codones [9 - 11]. Cogan y Wolf 2000 estudió la relación entre la concentración de ARNm y el codón sesgo en detalle y encontró fuerte correlación (r = 0,62) entre el índice y el codón adaptación de la expresión génica [9]. Recientemente, Jansen et al. 2003 [11], estudiaron los dos índices numéricos utilizados comúnmente para medir la expresión de los genes; i) «índice de adaptación codón" (CAI), y ii) «codón de uso" (CU). Ellos mejorar el rendimiento de los dos índices de utilización de la expresión del genoma de levadura amplia de datos (15), y lograr la correlación de r = 0,63 a 0,70 y r = 0,63 a 0,71 y de la CAI CU con nivel de la expresión génica, respectivamente. Estos estudios indican que es posible predecir la expresión de genes con razonable precisión de su secuencia de nucleótidos. Hay estudios, lo que indica, directa o indirectamente, la correlación entre la composición de aminoácidos y de la expresión de genes [6 - 9, 12 - 14]. Se plantea la cuestión de si existe una correlación que se puede utilizar este conocimiento para predecir el nivel de expresión de genes de la secuencia de aminoácidos de sus proteínas, como la secuencia de nucleótidos.
El objetivo de este estudio es de dos veces, a fin de comprender la correlación entre el nivel de expresión de genes y estructura primaria de proteínas en el genoma nivel, y examinar si la correlación entre la composición de aminoácidos y de la expresión de genes es suficiente para derivar reglas de predicción de la expresión de genes De la composición de aminoácidos de una proteína. Un intento sistemático se ha hecho para analizar los datos de expresión de genes de Saccharomyces cerevisiae (Holstege et al., 1998) para detectar la relación entre la composición de proteínas y nivel de expresión de genes [15]. Seleccionamos estos datos, ya que fue analizado y utilizado en una serie de estudios en el pasado a fin de la validación y la comparación es fácil [9, 11 - 14]. Se computa por ciento correlación entre la composición y la expresión de los genes, para cada una de residuos y observó correlación significativa entre la composición y la expresión por ciento. Esto significa que es posible derivar normas de proteínas cuyo nivel de expresión se conoce y esas reglas pueden ser utilizados para predecir el resto de la expresión de otras proteínas en el mismo organismo, en la misma condición. Similar tendencia se observó la expresión de genes en los datos obtenidos de Jelinsky y Sansón, estudio de 1999 [16].
En este estudio se utilizó una Máquina de Vectores Soporte (SVM) para aprender de los datos y la conocida expresión para predecir la expresión de genes de las proteínas restantes de un organismo en el mismo estado utilizando composición de la proteína [17 - 21]. Inicialmente tomamos composición de aminoácidos de entrada como vector de una proteína que tiene 20 elementos. Luego hemos intentado dipeptide composición de vectores, como aporte para la SVM total de las características que son 400. Estas características proporcionan locales de orden de sucesión con la composición [18, 21]. El método es más preciso cuando dipetide composición fue utilizada como una característica en lugar de la composición de aminoácidos. El rendimiento fue casi el mismo momento en que intentamos relativa composición y dipeptide composición (en referencia a la composición general del genoma), en lugar de absoluta composición.
Una de las principales aplicaciones de la tecnología de microarrays es clasificación funcional de los genes patrón de la expresión de genes, donde se utiliza para reconocer la clase funcional de los genes [8, 10]. Se basa en el hecho de que los genes de función similar rendimiento similar patrón de expresión génica. Brown et al., 2000 SVM desarrollado un método de predicción basado en cinco clases funcionales de los genes sobre la base de su expresión génica en 79 diferentes condiciones [19]. También desarrolló un método basado en SVM para el reconocimiento de los genes pertenecientes a citoplásmica ribosomas (Uno de la clase utilizada por Brown et al., 2000) a través de i) los datos de expresión génica (79 funciones), ii) la composición de aminoácidos de las proteínas (20 Características), y iii) la combinación de dos. El rendimiento global en términos de costo total de ahorro [S (M)] fue 226, 199 y 234 de la expresión génica de datos, composición de aminoácidos y la combinación, respectivamente. Esto demuestra que la composición de aminoácidos adicionales de la información puede mejorar el rendimiento de los métodos de clasificación funcional basada en la expresión génica de datos. Hemos desarrollado también un servidor web que permite a un análisis de datos de expresión de genes para deducir la relación entre la expresión y la composición de los residuos en la proteína. Este servidor permite a entrenar y probar la SVM sobre su propia expresión génica de datos.
Hemos examinado la correlación entre la duración de la expresión génica y de su nivel. Una significativa correlación negativa r = -0,18 se encontró entre la expresión y la extensión de los genes. Esto significa que a corto secuencias se expresan más en comparación con secuencias largas. Con el fin de comprender la relación entre el nivel de expresión y la duración, la media calculada expresión de los genes de diferente longitud de su secuencia de la proteína (Cuadro 1]. El promedio de expresión es casi inversamente proporcional a la duración media de los genes. Una tendencia similar se observó en dos conjuntos de datos alternativo, en donde la longitud de correlación fue de r = -0,15 y -0,18 para set1 y set2, respectivamente. Estos resultados coinciden con observaciones anteriores en que los investigadores han demostrado que los sistemas metabólicos prefieren expresar los genes que son menos costosos [14, 24]. Como se muestra en la Tabla 1, los genes de proteínas longitud tener menos de 100 aminoácidos han promedio expresión [e = 15,58]. No fue ligeramente mayor expresión [e = 2,13] en los genes de longitud superior a 1200 en comparación con la longitud de los genes en el rango de 800-1200. [Sin embargo, el número de genes era sólo 168 en este rango.] El medio de expresión de los genes que tengan un máximo de 200 residuos es demasiado alta en comparación a largo genes. Como se muestra en el gráfico de dispersión entre la expresión génica y la longitud de la proteína (Figura 1], la mayoría de los genes cuya expresión es superior a la media son pequeñas proteínas.
En el primer paso, hemos calculado el porcentaje de composición de cada proteína correspondiente a los genes en nuestra base de datos de referencia (3462 genes), utilizando la ecuación 1. Por lo tanto tenemos 20 valores (uno para cada tipo de aminoácido) para cada proteína. En el siguiente paso, se calculó la correlación entre la composición del residuo y el nivel de expresión de genes, para cada tipo de residuo. Se observó que algunos tipos de residuos tienen correlación positiva significativa, mientras que algunos otros han negativos (Cuadro 2]. También computa sólo la correlación de los genes cuyas proteínas son más de 100 los residuos, a fin de ver el efecto sobre la longitud de correlación. Una tendencia similar se observó la salvedad de que mejora aún más la correlación de los residuos que tienen correlación positiva y ligeramente disminución de los residuos que tengan correlación negativa. Es interesante observar que la correlación (negativos / positivos) no muestra ninguna relación con la composición general de residuos en todo el genoma (Tabla 2]. Lo que sigue es un breve análisis de ambos tipos de residuos.
Los resultados que se muestran en la Tabla 1 para el cuadro 5 demuestran que existe una fuerte relación entre la estructura primaria de proteínas y el nivel de expresión de sus genes. Sobre la base de la observación anterior, hicimos un intento sistemático para desarrollar un método para predecir el nivel de expresión de un gen de la proteína de la secuencia; microarrays de datos del mismo organismo en una determinada condición. Sobre la base de las proteínas características, hemos desarrollado dos tipos de métodos de predicción; uno de la composición de aminoácidos y el otro de dipeptide composición.
En primer lugar hemos desarrollado un método basado en SVM para predecir la clase funcional de los genes de sus datos de expresión (79 características). Hemos adoptado la misma estrategia descrita por Brown et al., 2000, salvo que sólo se aplica por una clase (frente al citoplasma de los ribosomas) en lugar de cinco clases. Se utilizó el paquete SVM_light que usan su paquete GIST. El desempeño de la aplicación de este método en el plazo de TP (verdaderos positivos), FP (falsos positivos), TN (True Negativos) y el costo de ahorro de S (M) [8] sobre citoplásmica ribosomas se muestra en la Tabla 11. El costo total de ahorro de valor S (M), de nuestro método es 226 mientras que Brown et al. 2000 lograrse S (M) valor en el rango de 224 a 229 utilizando diversos modelos. El S (M) el valor alcanzado por nuestro método es ligeramente inferior a su modelo más alto, ya que utilizan el ajuste de los parámetros modificados y la SVM que usamos SVM con la norma estándar RBF núcleo. También desarrolló un método para clasificar los genes sobre la base de su relativa amino (Ver Materiales y Métodos) composición de ácidos (20 funciones), y logró el valor total de ahorro de costes S (M), de 190 (Ver Cuadro Cuadro 11]. Es interesante observar que según el sistema composición de aminoácidos se puede lograr tan alto valor que es incluso mejor que algunos modelos basados en la expresión de genes de datos tales como juzgados por Brown et al., De 2002. Logramos costo total de ahorro de valor S (M) de 234 cuando simplemente el resultado combinado de dos métodos SVM se ha descrito anteriormente. Aquí no hemos sintonizado cualquier parámetro. Simplemente añadir la SVM Resultado de los dos métodos. Esto indica claramente que la composición de aminoácidos de información pueden desempeñar un papel vital en el mejoramiento del desempeño de los métodos de clasificación sobre la base de datos de expresión génica.
Basándose en el método descrito en este estudio, hemos desarrollado un servidor que proporciona diversos servicios para el usuario a través de Internet.
Oligonucleótido es una poderosa matriz técnica que permite a un estudio de la expresión de gran número de genes de forma simultánea [1, 2]. Aunque se trata de un potente y permite un enfoque para estudiar el comportamiento de los genes de un organismo en condiciones diferentes, tiene sus propias limitaciones es caro, consume tiempo y tiene problemas en la gestión y el análisis de datos. A pesar de todos los avances de la técnica es difícil de estudiar simultáneamente todos los genes de un organismo que tienen un gran número de genes como el del Genoma Humano. También es difícil obtener valores consistentes en repeticiones, en particular de aquellos genes cuya expresión se acercan a los límites de resolución [1, 11, 17]. En cambio, todas las secuencias de proteínas de un gran número de organismos están disponibles en la actualidad. Las preguntas que se plantea si es posible que el estudio sólo número limitado de genes [o tomar los genes de un oligonucleótido serie de datos cuyo valor son coherentes en todas las muestras (duplicado o triplicado)], y utilizar estos datos para predecir el nivel de expresión de los restantes Las proteínas del organismo, en la misma condición. Esto puede ahorrar una gran cantidad de investigadores "tiempo y esfuerzo en el estudio de todo el conjunto de genes de un organismo, en particular como el genoma humano. Aunque hay muchos estudios en el pasado análisis de la matriz de datos, no existe un método para predecir el nivel de expresión de los genes. Recientemente, un documento que se ha aparecido en el que describen el procedimiento para predecir la expresión de los genes [10]. En este trabajo, que predecir la clase de genes (genes que tienen el mismo tipo de conductas de expresión se mantienen en la misma clase). Se dividieron los genes en 49 clases y predijo clase con 73% de precisión utilizando microarrays de las secuencias de datos en los 800 pb aguas arriba de los genes. De lo mejor de los conocimientos del autor, no hay estudio, que describe la predicción de la expresión de genes de la secuencia de aminoácidos de sus proteínas.
Este estudio es el primer intento en este sentido para predecir el nivel de expresión de genes de las proteínas de sus secuencias. En este estudio se tomó Holstege et al. Datos de 1998 como referencia porque es bien estudiados, y limpia [11 - 15, 24 - 28]. A pesar de que, indirectamente, estudios previos indican la correlación entre la composición de aminoácidos y de expresión, detallada correlaciones directas no se muestra [3 - 9]. Se estudió la correlación entre la composición de aminoácidos y de expresión en el nivel de detalle. Curiosamente, algunos residuos mostró correlación positiva y la mayoría de ellos fueron pequeños residuos. Esto de acuerdo con el concepto de metabolismo eficiente donde los investigadores demostraron que las proteínas que tengan mayor composición de aminoácidos menos costosos son preferibles [12 - 14]. Como se indica en el cuadro 5, esta tendencia se demostró correlación de toda la gama de composición de aminoácidos. Los genes que tengan mayor gama de composición de los residuos correlación positiva también tienen mayor nivel medio de expresión. También se observó una alta correlación entre la composición y la expresión por ciento el nivel de residuos de Ala, Gly Val y, según estudios previos donde encontraron alta composición de los residuos de codón GNN altamente expresado en los genes [14]. Hubo algunas excepciones en el caso de la gama más baja, donde el promedio de nivel de expresión fue más alto que el de los genes en la próxima gama más alta. De hecho, la mayoría de los genes, que se encuentran en el rango más bajo composición, pertenecen a la categoría de los pequeños genes. Como se muestra en el Cuadro 1, el nivel de la expresión génica tiene correlación negativa con la duración de la secuencia, en que los genes más pequeños tienen mayor nivel promedio de expresión (véase el cuadro 1 y 2]. Esta es la razón por la cual los genes que tengan por ciento inferior composición de los residuos tienen una correlación positiva inusualmente alto nivel de expresión. La correlación se incrementó cuando se considera sólo las grandes secuencias de residuos (> 100). En caso de los residuos correlacionó negativamente tendencia fue más uniforme incluyendo menor rango debido a baja composición de estos residuos y los pequeños son a la vez la secuencia preferida. La misma tendencia se observa cuando se realizó el análisis de correlación de nuestros conjuntos de datos alternativos.
Aunque el objetivo de este estudio es comprender la relación entre el nivel de expresión y composición de residuos en condiciones normales, efecto que también estudió en la correlación si sus condiciones se modifiquen. En este sentido, calculó el nivel de correlación entre la expresión de residuos y composición de datos sobre los suplentes 2, que proporciona el nivel de expresión de los genes cuando las muestras son tratadas con alkylated. A pesar de que la correlación observada entre la expresión y la composición de la secuencia de un gen no puede ser descrito como regla general, curiosamente, la misma tendencia de correlación; ambos tratados y no tratados conjuntos muestran la misma relación con excepción de los cambios en la magnitud de Correlación. Esto es, los residuos de alta positivo / negativo en la correlación de datos de 1 mostró la misma tendencia en el conjunto de datos y 2, son iguales, sólo fue diferente magnitud. Se analizaron también los genes cuyo nivel de expresión cambia significativamente. Es interesante que algunos residuos mostró alta correlación con el pliegue del cambio de expresión. Esto indica que en el futuro sería posible predecir el nivel de la expresión de genes de las proteínas en condiciones diferentes si entendemos de una determinada condición de que los residuos están a favor. Estas observaciones sugieren más estudios en este sentido para comprender la relación entre la expresión génica y de nivel primaria de la estructura de las proteínas.
El análisis de correlación realizado en este estudio indican que la composición de aminoácidos tiene correlación con la expresión. Esto también indica que la secuencia similar tendrá similar nivel de la expresión génica. Ahora, la pregunta es cómo utilizar estas observaciones para predecir la expresión de genes de las proteínas de origen desconocido al mismo organismo. Una de las prácticas estándar de similitud es utilizar herramientas de búsqueda como BLAST y FASTA para la búsqueda de secuencias similares en el conjunto de datos de proteínas conocidas (cuyo nivel de expresión se conoce) [29]. Los principales problemas con que estas herramientas son i) no en la ausencia de similitud significativa, ii) es difícil obtener similitud cuando la duración de la consulta y la meta de secuencias son muy diferentes, y iii) es difícil predecir el nivel de expresión Similitud resultados. La máquina de aprendizaje de las técnicas (como la ANN y SVM) se puede utilizar para aprender la relación entre la secuencia y el nivel de expresión. El principal problema de estas técnicas es que no pueden ser utilizados directamente, porque hay muchas variaciones en la longitud de secuencias de proteínas y estas técnicas requieren patrones de longitud fija. Por otra parte, se necesita para generar patrones de longitud fija de estas proteínas para aprender la relación (o se derivan de las normas) en los datos conocidos para predecir el nivel de la expresión de genes de otras proteínas del mismo organismo. Se ha demostrado en el pasado que la composición, el pseudo composición, y dipeptide composición de la proteína puede ser utilizado como entrada de longitud fija pautas para la clasificación de proteínas utilizando las técnicas de aprendizaje a máquina [21, 31, 32]. En este estudio, en primer lugar hemos utilizado la composición de aminoácidos como la expresión del gen de entrada y de salida, como para desarrollar un método basado en SVM para predecir el nivel de expresión génica forma secuencia de aminoácidos de las proteínas. Como se muestra en el Cuadro 10, se logró una correlación significativa de 0,66 (SVM con kernel RBF) entre predicho y observado valores de la expresión cuando se evaluó usando nivel 5 veces la validación cruzada. Es bien sabido que SVM funciona mejor cuando su salida de los valores se normalizan. Aquí hemos utilizado dos funciones (logaritmo natural y raíz cuadrada) para normalizar el nivel de expresión (la producción). Estas funciones de normalización, logaritmo y raíz cuadrada, el aumento de la correlación de 0,66 a 0,67 y de 0,70 respectivamente.
Se ha observado en estudios anteriores de la clasificación de proteínas que mejora la precisión de la clasificación dipeptide composición significativamente cuando se utiliza como entrada en lugar de un solo residuo (o aminoácidos) composición [18, 21, 23]. También observó tendencias similares en este estudio, la correlación entre los valores observados y predice el aumento del 0,66, 0,67 y 0,66 a 0,66, 0,68 y 0,72, respectivamente, para sin normalización, la normalización con logaritmo y raíz cuadrada, cuando dipeptide composición se utilizan como insumos en lugar de Composición de aminoácidos. Esto se debe a que dipeptide proporciona información sobre el orden de secuencia entre los residuos vecino en lugar de simple composición. También tripeptide intentado, pero los resultados no mejoraron aún más debido a que un cierto número de patrones nunca fueron observadas. Nuestros resultados concuerdan con observaciones anteriores en que se dieron cuenta de que es mejor dipeptide característica de la composición de aminoácidos de SVM basada en la clasificación [18, 21, 23].
Los resultados indican que existe una correlación entre el nivel de expresión y la composición de aminoácidos de las proteínas, que pueden ser explotadas para predecir el nivel de expresión de los genes. La correlación entre el nivel y la composición de expresión es dependiente de las condiciones, que explican el fracaso de los anteriores métodos de predicción de genes basados en el uso de codones y CAI índice [11]. En estos métodos que calcular los parámetros de expresión y en una condición para la aplicación de todas las condiciones. En nuestro caso hemos propuesto condición específica de predicción de que la formación y el ensayo se realiza en el mismo estado y organismo. La expresión de datos se utiliza comúnmente para clasificar los genes [8, 10]. En lo que respecta a los autores saben no hay estudio, que utiliza la expresión génica y de la composición de aminoácidos de la clasificación de la información o de la agrupación de genes. Hemos hecho el primer intento en este estudio y encontró que funciona mejor método combinado de los distintos métodos (Cuadro 11]. Creemos que este enfoque mejorará el rendimiento de los métodos existentes en la clasificación y agrupación de los genes.
El servidor web LGEpred desarrollados en este estudio no sólo nos permite predecir el nivel de la expresión de genes de las proteínas del mismo organismo, en las mismas condiciones de su secuencia de aminoácidos, pero también permite entender la relación entre la secuencia de la proteína y de expresión. El servidor permite al usuario calcular el tipo de correlaciones siguientes: i) correlación entre la duración y el nivel de expresión; ii) el medio de expresión de los genes que tiene una serie de residuos de proteínas en sus gamas específicas (como de 100 a 200), iii) La lista de residuos que han positivos, negativos y neutrales correlación con el nivel de expresión; iv) coeficiente de correlación entre la composición y la expresión de residuos de nivel, y v) el nivel medio de expresión de cada composición de residuos cuando se encuentra en un rango especificado. A pesar de que el nivel de cálculo no es muy complejo o nuevo, los autores creen que puede ser muy útil para la investigación experimental de trabajo en el ámbito de la expresión génica, ya que permite computar las diversas relaciones / correlación entre la secuencia de proteínas y nivel de expresión conocida expresión de datos. Esto ayudará a los usuarios a detectar, que se prefieren los residuos y que no son sus preferidas en la expresión de genes de datos, o la condición en que medida la expresión. Entendemos que la aplicación de este método en Holstege datos para la predicción de la expresión de genes de proteínas secuencia sólo será válido para los genes del mismo organismo, en las mismas condiciones. Como el nivel de expresión depende de la condición y organismo «no es posible desarrollar un método general de la predicción de la expresión génica. Por lo tanto nuestro servidor permite a los usuarios desarrollar sus propias SVM método basado en su conocida expresión de los datos que pueden ser utilizados para predecir la expresión de los genes del mismo organismo, en la misma condición. Se trata de un estudio primario en datos limitados. Con el fin de comprender la relación en profundidad en los diversos organismos en diversas condiciones, es necesario analizar todos los datos disponibles microarrays. A fin de ayudar a los investigadores que trabajan con temas relacionados, hemos diseñado LGEpred servidor por el que se pueden realizar diversos estudios sobre la expresión de genes de sus datos.
En este estudio, la expresión de los datos Holstege et al. (1998) se utiliza como referencia de datos, ya que sus resultados se obtienen a partir de un promedio de cuidado de muchos experimentos [1, 11, 14, 17]. Todos los genes cuya expresión nivel es inferior al 0,5 copias / célula fueron excluidos, ya que son cerca de los límites de la resolución. La última referencia de datos contiene 3462 genes, cuyas proteínas secuencias están disponibles en Saccharomyces Genome Database (SGD).
Además de los datos de referencia, también realizó análisis en un conjunto de datos obtenidos de suplentes Jelinsky y Samson (1999). En este conjunto de datos se examinan unos 6200 Saccharomyces cerevisiae transcripción de genes con dos niveles diferentes condiciones ambientales. Utilizamos 2693 genes cuyo nivel de expresión es más de 0,5 copias / célula en una condición normal y la correspondiente secuencia de la proteína está disponible en SGD. Este conjunto de datos consta de dos grupos, uno constituido por los datos de expresión génica en condiciones normales y la otra después de la exposición al agente alquilante metilo methanesulfonate. También utiliza un subconjunto de 325 genes cuyo nivel de expresión cambia significativamente durante el tratamiento con agentes alquilantes.
Para el desarrollo de un método de clasificación, se obtuvieron datos de Brown et al., De 2000 [19]. Esta información consta de un conjunto de 79 elementos para la expresión de los genes del vector 2467 genes de la levadura. En nuestro estudio hemos utilizado 2465 genes cuya secuencia de la proteína estaban disponibles en Saccharomyces Genome Database (SGD). En este sentido, el trabajo sólo una clase de proteínas citoplasmáticas ribosomas, que tienen el máximo número de genes 121. Por lo tanto nuestra base de datos final consta de 121 genes pertenecientes a cytoplamic ribosomas como ejemplos positivos y de descanso 2344 genes como ejemplos negativos.
La ejecución de un algoritmo computacional a menudo se prueba por la cruz a la validación o método jackknife [21, 22]. Debido a las limitaciones de tiempo que evaluar el desempeño de nuestro método a través de 5 veces procedimiento de validación cruzada. En este procedimiento de validación, el conjunto de datos fue dividido al azar de tamaño igual a 5 sets. La formación y las pruebas de cada clasificador se llevó a cabo en cinco ocasiones distintas utilizando una serie de ensayos y cuatro para el resto de capacitación.
La información de una proteína puede ser encapsulada en un vector de 20 dimensiones utilizando composición de aminoácidos de la proteína. La composición se utilizan como insumos en el presente estudio, que proporciona la información mundial características de la proteína en forma de vectores de longitud fija. La composición de aminoácidos es la fracción de cada tipo de aminoácidos en una proteína. Las fracciones de los 20 aminoácidos naturales se calcularon utilizando la siguiente ecuación
Donde comp (i) es la fracción de residuos o la composición de los residuos de tipo i. Ri y N son el número de residuos de tipo i, y el número total de residuos en la proteína i (duración de la proteína), respectivamente. Se calculará multiplicando por ciento composición de la fracción de residuos comp (i) por 100.
Dipeptide composición se utilizó para transformar la longitud variable de longitud fija a las proteínas característica de los vectores. Dipeptide composición ya ha sido utilizado por Bhasin y Raghava (2004) para la clasificación de proteínas [18, 21]. Hemos adoptado el mismo enfoque basado en dipeptide composición en el desarrollo de SVM método para predecir el nivel de expresión de genes de las proteínas. La composición dipeptide dio una pauta fija la duración de 400 (20 × 20) posibles dipeptides (por ejemplo, Ala-Ala, Cys-Aal, Ala-Asp, etc.) La composición dipeptide encapsula información acerca de la fracción de aminoácidos, así como su orden local. El dipeptide composición se calculó utilizando la siguiente ecuación.
Donde dpep (i) es la fracción o de composición de tipo i dipeptide. Di y N son el número de dipeptide de tipo i y el número de residuos en la proteína i, respectivamente. Calculamos ciento dipeptide composición multiplicando dpep fracción (i) por 100.
La composición (aminoácidos y dipeptide) se ha descrito anteriormente es absoluta composición de las proteínas. Además de la composición absoluta, también trató la composición familiar. En este caso, en primer lugar, se computa la composición general (en todas las proteínas de Saccharomyces) cada tipo de residuo. Luego, calcular la composición relativa (en referencia a la composición general) de cada gen mediante la siguiente ecuación,
Donde rcomp (i), ocomp (i) y comp (i) son relativas, en general y absoluto de la composición de aminoácidos tipo i, respectivamente. Del mismo modo rdpep (i), (i) odpep y dpep (i) son relativas, en general y absoluta dipeptide composición de dipeptide i respectivamente.
El nivel de la expresión de genes se normalizó para representar en una escala de 0 a 10. Hemos utilizado dos funciones siguientes a cambiar el valor i) la función de registro, registro natural donde se utilizó para cada nivel de la expresión génica y ii) tipo función, en donde raíz cuadrada de cada nivel de expresión se calculó. Esta normalización es muy importante en la formación y las pruebas de SVM para una mejor precisión.
En este estudio, SVM simulación se logró mediante el uso de la SVM_light paquete [20]. Este paquete permite al usuario definir una serie de parámetros y para seleccionar una opción del núcleo de las funciones incorporadas, incluyendo Polynomial, RBF, lineal, y Sigmoid. En este estudio el modo de regresión SVM se utilizó.
Supongamos que tenemos N genes xi xi ∈ R (i = 1, 2 ,..., N) con el correspondiente valor objetivo yi ∈) (valor objetivo (i = 1,2 ,..., N). La xi xi corresponde a la representación de la secuencia de aminoácidos de las proteínas a la SVM. Aquí, el valor objetivo es un valor real (nivel de la expresión de genes) que corresponden a las proteínas. La dimensión de los vectores de entrada es de 20 para la composición de aminoácidos, y 400 para dipeptide composición. La función de la decisión aplicada por la SVM puede escribirse de la siguiente manera:
El valor de la α i está dado por la tarea de programación cuadrática tarea, maximizar sujeto a 0 ≤ α i ≤ C, donde C es el parámetro de control de la reglamentación del comercio entre la formación y el margen de error. Elección de un núcleo K para SVM es análogo al problema de la elección de la arquitectura de red neuronal. En el presente trabajo, SVM todos los parámetros fueron fijados por defecto, excepto la función del núcleo.
En caso de la clasificación funcional de los genes, los vectores de entrada constará de 79 elementos, cada elemento representa la expresión de genes en un solo estado. El conjunto de datos consta de 121 ejemplos positivos (frente al citoplasma de los ribosomas) y 2344 ejemplos negativos (no citoplásmica ribosomas). Los ejemplos positivos son muy pocos en comparación con el total de datos que conduce al desequilibrio en el número de positivos y negativos ejemplos de formación. Por lo tanto, es difícil para la SVM para clasificar correctamente estos genes. Con el fin de manejar este problema que repetir los ejemplos positivos a la altura con ejemplos negativos durante el entrenamiento de la SVM. Brown et al 2000 modificó la SVM para manejar este problema.
El rendimiento del método ha sido evaluado por calcular el coeficiente de correlación entre el valor real de la expresión génica (determinado experimentalmente) y predijo el valor de la expresión genética [23]. Hemos calculado el coeficiente de correlación de Pearson (r), que es la proporción de la covarianza entre la predicción y los valores experimentales para el producto de las desviaciones estándar en los dos.
Donde, XeY son experimentales y predice el valor de la expresión génica, respectivamente. N es el número total de genes en el conjunto de datos.
GPSR el proyecto concebido y desarrollado los programas de ordenador para el cálculo de correlación entre la expresión de genes y proteínas secuencia de composición. GPSR desarrollado también método de predicción y escribió el manuscrito. JHH coordinó el proyecto, el análisis de los datos y refinado el manuscrito escrito por GPSR.
Agradecemos a los árbitros anónimos por sus sugerencias. La investigación que aquí fue financiada en parte por: el Ministerio de Información y Comunicación (MIC) [Invitación Programa Académico de Relaciones Exteriores], el Ministerio de Ciencia y Tecnología (MOST) [Nacional de I + D Programa - Fusion Estrategia de Tecnologías Avanzadas], y Corea Investigación Fundación [BK21 Program], de la República de Corea.