Un método para la predicción de los GPCRs especificidad de acoplamiento a proteínas G-utilizando refinados perfil Modelos Ocultos de Markov
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.
G-Protein receptores acoplados (GPCRs) comprenden el grupo más grande de los receptores de la superficie de células eucarióticas con gran interés farmacológico. Una amplia gama de ligandos nativos interactuar y activar GPCRs, dando lugar a la transducción de señales en las células. La mayor parte de estas respuestas están mediadas a través de la interacción de los GPCRs con heterotrimeric proteínas que unen GTP (G-proteínas). Debido a la explosión de información en las bases de datos de secuencias biológicas, el desarrollo de algoritmos de software que puedan predecir las propiedades de los GPCRs es importante. Los datos experimentales en la literatura sugieren que heterotrimeric G-proteínas interactúan con partes de la activada del receptor transmembrana en la hélice-bucle intracelular interfaz. Utilizando esta información y la topología de la membrana de información, hemos desarrollado un intenso enfoque exploratorio para generar un refinado biblioteca de modelos estadísticos (Modelos Ocultos de Markov) que predicen la preferencia de los GPCRs acoplamiento a heterotrimeric G-proteínas. El método predice el acoplamiento de las preferencias de los GPCRs a s G, G i / o q/11 y G, pero no G 12/13 subfamilias.
Usando un conjunto de datos de 282 GPCR secuencias conocidas de acoplamiento preferencia a G-proteínas y la adopción de un quinto del procedimiento de validación cruzada, el método 89,7% obtuvo una clasificación correcta. En un conjunto integrado de validación de todos los receptores de las secuencias que son homólogos de las especies conocidas de acoplamiento con GPCRs preferencias, con exclusión de las secuencias utilizadas para capacitar a los modelos, la aplicación de este método produce una clasificación correcta de la tasa de 91,0%. Además, promiscuo acoplamiento propiedades fueron correctamente predijo para el 6 de los 24 GPCRs que se sabe que interactúan con más de una subfamilia de las proteínas-G.
Nuestro método demuestra alta tasa de clasificación correcta. A diferencia de los métodos publicados anteriormente realizar la misma tarea, que no requiere ninguna topología transmembrana de la predicción en un paso anterior. Un servidor web para la predicción de los GPCRs especificidad de acoplamiento a proteínas G-disponibles para los usuarios no comerciales está situado en la http://bioinformatics.biol.uoa.gr/PRED-COUPLE.
G-receptores acoplados a proteínas son importantes receptores de la información de entrada a las células eucarióticas. Ellos comparten un pliegue de siete hélices transmembrana organizada como un siete α-hélice paquete, como lo confirma el análisis de la estructura cristalina de Rhodopsin [1] que ha sido ampliamente usado como modelo para homología basadas en el modelado de GPCRs [2 - 4] . Una colección de mensajes de la extrema diversidad nativa incluidos los fotones y los agonistas, como iones, olores y feromonas, aminoácidos, nucleótidos, péptidos, aminas biógenas, y prostaglandines glicoproteína hormonas [5] interactuar con diferentes extracelular y / o dominios transmembrana de los GPCRs, Con el fin de transmitir sus mensajes al interior de la célula [2, 6]. Basado principalmente en la secuencia de motivos compartidos, seis familias de los distintos GPCRs son tradicionalmente definidos: A, B, C, D, E y la frizzled / smoothened familia, que se resumen en el sistema de clasificación GPCRDB [7]. Varios métodos han sido desplegados para la clasificación de más alto nivel de GPCRs incluidos perfil Modelos Ocultos de Markov [8, 9], el apoyo de máquinas de vectores [10] Posición y Matrices de puntuación específicos [11].
La respuesta fisiológica de la interacción entre un GPCR y uno de sus ligandos se juzga por el subconjunto de los inactivos heterotrimeric (αβγ) G-proteínas en la célula que interactúan con el receptor activado complejo, a pesar de que muchos receptores de mediar sus acciones a través de la proteína G - Vías de señalización independientes [2]. Diferentes agonistas Mayo estabilizar los complejos de GPCRs con G-proteínas pertenecientes a diferentes subfamilias (s G, G i / o, o q/11 G G 12/13) resulta en la activación de las diferentes vías de señalización [12].
G-heterotrimeric proteínas son complejos, el nombre de sus subunidades α. Sobre la base de la secuencia de identidad, por lo menos 16 subunidades α discretos han sido identificados y clasificados en cuatro subfamilias: G s y G i / o, que estimulan e inhiben ciclasa adenylate respectivamente, G q/11 que estimular la fosfolipasa C, y la menos Caracterizado G 12/13 subfamilia que activar la Na + / H + intercambiador de vía [13 - 17]. Debemos mencionar en este punto, que en el gpDB clasificación [18], el término "familia" se ha reservado para este nivel de la jerarquía de las proteínas G, sin embargo en lo sucesivo, se utilizará el término "subfamilias".
Agonista vinculante para GPCRs conduce a la asociación de los heterotrimeric G-proteína con el receptor, que provoca el intercambio de la guanosina difosfato (PIB), vinculado a la α-subunidad de la proteína G con guanosina trifosfato (GTP). Estos eventos promueven la disociación de la subunidad α de la proteína G del receptor y el complejo βγ. El disociarse subunidades puede activar o inhibir varias proteínas efectoras, como adenylyl ciclasa 1-9, PLC PLC β β 1-4, tirosina quinasas, canales de iones y moléculas de la mitogen-activated vía de la proteína quinasa, lo que resulta en una gran variedad de funciones celulares que dependen En la especificidad biológica de las subunidades disociadas [17, 19]. G-α subunidades de proteínas poseen una actividad intrínseca GTPasa, lo que les permite actuar como interruptores de tiempo: La hidrólisis de la GTP vinculado al PIB promueve la re-asociación de la subunidad α con el dímero βγ y deja el G-proteína en una forma inactiva .
Debido a la falta de datos estructurales para activar GPCR complejos, varios enfoques complementarios se han utilizado para descifrar el moleculares acontecimientos que dieron lugar a la activación de proteína-G, y para identificar las regiones que determinan la especificidad de acoplamiento de un GPCR a un subconjunto de la piscina de G-proteínas intracelulares. Estos enfoques bioquímicos, que se centraron principalmente en un GPCRs, sitio incluyen estudios de mutagénesis dirigida [20], los receptores de ingeniería quimérico [21, 22], la utilización de péptidos sintéticos que imitan la GPCR regiones que activan las proteínas G-[23] y Anticuerpos para neutralizar GPCR sitios de unión en el G-proteínas [24, 25]. Estos estudios revelaron la función importante de GPCR bucles intracelulares, especialmente la segunda y la tercera, y el C-terminal de la región, como los principales factores determinantes de la especificidad de acoplamiento GPCR. Además, los datos estructurales de alta resolución de la difracción de rayos X de la luz con sensor de GPCR rhodopsin, así como los métodos complementarios (Resonancia Magnética Nuclear Spectroscopy, Electron Spin Resonance Spectroscopy, ingeniería de proteínas, aminoácidos fluorescentes sustitución) [26 - 28] han indicado Ligando vinculante que induce grandes cambios conformacionales. Estos cambios conformacionales revelan GPCR regiones enterrado dentro de la membrana que podrían interactuar con la proteína G [5]. A través de una combinación de la entropía y la variabilidad de las parcelas correlación mutación análisis, la clave de residuos para una variedad de funciones GPCR de acoplamiento a proteínas G-, y se puede identificar un mecanismo de activación de GPCR se ha propuesto [29 - 31].
Debido a su papel de los receptores de la información de las células eucarióticas, GPCRs son muchos fisiopatológicos implicados en las respuestas. Ellos comprenden las metas de drogas atractivo para una variedad de enfermedades, incluyendo el cáncer [32], el síndrome de la enfermedad de Alzheimer [33] y el SIDA [34]. De hecho, más del 50% de todos los fármacos prescritos en GPCRs objetivo [35]. Además, la explosión de información en las bases de datos de secuencias biológicas ha dado lugar a muchas entradas de GPCR desconocido ligando propiedades vinculantes, conocidos como los receptores huérfanos. Con el fin de pantalla de estos receptores huérfanos con bibliotecas de los posibles ligandos, los investigadores deben estar en condiciones de ensayo de la interacción ligando GPCR-aguas abajo a través de un evento. Este tipo de acontecimientos son la transcripción de un gen reportero o aumento de la concentración segundo mensajero, que depende de la interacción de los GPCR en estudio con los miembros de una determinada proteína G subfamilia. Así, a sabiendas o ser capaz de predecir, la especificidad de acoplamiento huérfano GPCRs a proteína G subfamilias, es esencial para la adecuada elección de las líneas celulares para la expresión heteróloga, y cualquier in vitro e in vivo en los estudios de los posibles objetivos de la droga [36]. Mientras tanto, un conjunto de datos de GPCRs conocidos de acoplamiento existe especificidad [37], lo suficientemente grandes como para guiar una base de datos in silico enfoque de la minería que podrían ayudar a seguir vivo en la investigación GPCR. Además, en un trabajo publicado recientemente, muchos GPCRs y su interacción con las proteínas G-se han resumido en la gpDB sistema [18].
Como en cada interacción biológica, la especificidad de GPCR acoplamiento a proteínas específicas G-está determinado por componentes estructurales encuentra en contacto con las regiones de las moléculas. Desde la arquitectura tridimensional de una proteína está codificada en la secuencia de proteínas, GPCR acoplamiento especificidad podría definirse por sí sola secuencia. Sin embargo, la secuencia GPCRs con baja similitud mayor a los miembros de la misma subfamilia de G-proteínas, mientras que los miembros de una misma GPCR subfamilias mayor frecuencia a los miembros de las distintas subfamilias G-proteína [38]. Además, GPCR acoplamiento no es uno por uno, ya que muchos función GPCRs, conocido como promiscuo GPCRs, han demostrado mayor a los miembros de más de una proteína G subfamilias. Debido a estas limitaciones, GPCR acoplamiento especificidad en la predicción de un paso utilizando métodos de comparación de secuencias como el BLAST [39] o CLUSTALW [40] algoritmos es insuficiente [36]. Sin embargo, una secuencia señal débil puede detectarse entre los receptores de subfamilias donde proteína G selectividad es un proceso evolutivo reciente, tales como los receptores de las aminas biógenas [41].
Anterior métodos computacionales de GPCR especificidad de acoplamiento a la proteína G-subfamilias que se han aplicado a priori sobre determinadas regiones intracelulares de los GPCR secuencias. Un modelo Ingenuo Bayes [42] se obtiene un 72% la tasa de clasificación correcta, mientras que un enfoque de minería de datos que combinado con el patrón de descubrimiento de la topología de predicción de la membrana [43] También se ha aplicado en un esfuerzo por GPCR modelo de las regiones que determinan la especificidad de acoplamiento. Sin embargo, los enfoques anteriores son o bien dependientes de contexto en el que el conocimiento a priori GPCR acoplamiento especificidad se rige por toda la secuencia de las regiones intracelulares o limitada por la naturaleza no probabilística y limita el poder descriptivo de las pautas como expresiones regulares, que no puede aplicar a diferentes pesos Variación de secuencias. El enfoque de este estudio es exploratorio relativas a la duración y localización de la determinación de las regiones de acoplamiento entre las secuencias de las regiones intracelulares y reclutas perfil Modelos Ocultos de Markov (pHMMs) como altamente discriminativa de los modelos biológicos secuencias que tienen una base probabilística formal [44]. Los resultados obtenidos por este método, se presenta a continuación, justificar el método elegido.
Nuestro principal objetivo era desarrollar una amplia gama de sistema predictivo que se puede aplicar con el mismo poder discriminatorio a nivel mundial, para los tres principales grupos de acoplamiento GPCR, siendo también capaz de modelo promiscuo receptor de enganche. Nuestro método demostró ser libre compatibles: El uso de un conjunto de 282 GPCR secuencias de acoplamiento identificado experimentalmente propiedades, de acuerdo a las tendencias de la nomenclatura farmacológica Ciencias suplemento de los receptores y los canales iónicos (TiPS) [37], que se utilizaron para capacitar a los modelos Y la adopción de un quinto del procedimiento de validación cruzada, los métodos de 89,7% arrojó una tasa de clasificación correcta. Cuando ensayado en 479 secuencias de GPCRs (recuperados también de la base de datos UniProt [45]] que son homólogas a las secuencias utilizadas para capacitar a los modelos de acoplamiento y cuyas propiedades también están resumidas en [37], a un subtipo nivel, la aplicación de este método se obtiene un 91,0% tasa de clasificación correcta (Tabla 1]. Por último, el método predice correctamente el acoplamiento especificidad de 25 de las 30 GPCRs derivados de la base de datos gpDB [18] que no se incluyeron en [37] (Tabla 2].
Con el fin de evaluar la eficiencia del mismo método entrenado a menor y no redundante de datos, el mismo procedimiento fue aplicado a un conjunto de datos que sólo contiene los GPCRs humanos en la formación original de la serie. Alternativas pHMMs se generaron y se integran en un segundo sistema predictivo que resultó ser también auto-consistentes. El ser humano sólo este conjunto de datos, clasificación correcta en una tasa de cinco veces la validación cruzada, es del 86% (datos no presentados). Cuando estos modelos se aplicaron a los 479 secuencias de la validación establecidos, la correcta clasificación tasa fue 88,9%, mostrando una disminución insignificante, como sería de esperar para un no-overfitted método. Además, cuando el modelo que se formó sobre las secuencias, se aplicó a los restantes 178 no humanos derivados de las secuencias [37], los rendimientos también una alta tasa de clasificación correcta de 88,8%.
Debido a la insuficiencia de los datos experimentales, lo que provocó incertidumbre acerca de si o no la mayoría de los receptores que se conocen a la pareja con una determinada proteína G grupo joven con G-proteínas de la subfamilia otro bajo diferentes condiciones fisiológicas, no podemos estimar si todas las predicciones de la promiscua Son correctas o no. Por ejemplo, un GPCR de que se informa, a la pareja sólo G-miembros de las proteínas G i / o subfamilia, puede probarse que las parejas también a los miembros del G s subfamilia. También es bien sabido que la misma también puede GPCR pareja a diferentes subfamilias G-proteína en diferentes sistemas de expresión heterogénea. Promiscuo de acoplamiento se predijo correctamente para 6 de cada 24 GPCRs conocidos promiscuo acoplamiento de las propiedades de acuerdo a la información en [37], como se puede observar en la Tabla 3. Nosotros no trató de formar cualquier pHMMs de secuencias que se han demostrado ser promiscuo, a fin de evitar la complejidad innecesaria y la desigualdad en la distribución de la serie de capacitación a los tres principales grupos de acoplamiento de GPCRs.
La razón principal de que no se han construido pHMMs que indican acoplamiento a proteínas G 12/13 es la limitada cantidad de datos disponibles para el acoplamiento de las propiedades de esta subfamilia de las proteínas-G. Por esta razón, esta característica no está previsto por ninguna de las ya publicadas métodos que realizan la misma tarea. Por otra parte, al conocimiento de los autores no promiscuo GPCRs se incluyen en el conjunto de capacitación (es decir, que los GPCRs par a los miembros de varias subfamilias de las proteínas-G), y no los receptores que preferentemente joven, sólo los miembros del G 12/13 han subfamilia Sido identificadas [2]. Por lo tanto, que la construcción de pHMMs clasificar G 12/13 junto GPCRs con alto poder discriminativo, en este momento, es prácticamente imposible. Una vez que los conjuntos de datos más grandes se han establecido en el futuro, los receptores promiscuos podrían incluirse en el conjunto de capacitación, lo que permite predicciones de los receptores acoplados G 12/13.
Nuestro enfoque exploratorio resultado en el descubrimiento de sub-regiones dentro de los dominios intracelulares GPCR que desempeñan un papel clave en la determinación de la especificidad GPCR acoplamiento a proteínas G-. El aporte de esas regiones al régimen general de acoplamiento de GPCRs pueden surgir a través de corto alcance de las interacciones proteína-proteína estructural con sus homólogos en el G-proteínas, es decir, a través de interacciones estabilización de las interacciones que permiten varias regiones de la molécula de GPCR para interactuar con G - Proteínas. La conformación de las regiones intracelulares de los GPCRs se rige por intramolecular interacciones entre segmentos de la intracelular [38]. Además, cada una de ellas en contra de la biblioteca de refinado pHMMs revela identidad de las regiones de alta a los perfiles que, en caso de existir en la secuencia objeto. Residuos en estas regiones identificadas intracelular podría ser objeto de sitio de mutagénesis dirigida enfoques a fin de aclarar las características estructurales de GPCR - G-proteína de acoplamiento.
Nuestro método sólo puede predecir el potencial de la interacción entre un GPCR y una proteína G subfamilia, ya que su única aportación es la secuencia de GPCR. Así, común en vivo reguladores de GPCR acoplamiento especificidad, incluidos mecanismos como la selección de GPCRs a determinadas regiones de la membrana celular, después de la traducción modificaciones [46, 47] o los efectos de accesorio / andamio de las proteínas que interactúan con GPCRs (revisado en [2] ) No puede ser modelado por nuestro sistema de predicción. Asimismo, GPCR-homo o hetero-dimerización, que parece ser una característica común de muchos GPCRs, necesarios para la activación de la proteína G-[48 - 50] no puede ser incluido directamente en nuestro sistema de predicción.
PHMMs derivados de este estudio han sido entrenados para modelo sub-regiones dentro de los dominios intracelulares GPCR en lugar de las secuencias de todo el GPCR. El conocimiento a priori de que una consulta secuencia pertenece a un GPCR sería valioso en el fortalecimiento de la capacidad de predicción del método. Cuando el método se aplica a la falta de GPCR del receptor y la de proteínas globulares no redundante de prueba, que produce falsos positivos con una tasa de 19,2% y 6,4%, respectivamente. Sin embargo las secuencias de filtrado de la consulta, mediante el uso de 7-dominio transmembrana pHMMs derivados de la base de datos Pfam Version 14,0 [51] en un paso anterior, disminuye completamente por encima de los falsos positivos, sin afectar la sensibilidad del método. Los seis pHMMs para el 7 de receptores transmembrana que figura en la base de datos Pfam Version 14,0 se han integrado en nuestro método a disposición del público. En conclusión, el método podría ser utilizado en combinación con los actuales 7-receptor transmembrana de los sistemas de predicción de todo el genoma aplicaciones.
En comparación con otros métodos publicados anteriormente, realizar la misma tarea, nuestro método no sólo realizar significativamente mejor en términos de la cantidad total exactitud, sino que también emplea otras características superiores. En primer lugar, no se basa en la identificación de los bucles intracelulares como lo hace el método Bayes Ingenuo en [42]. Nuestro método fue entrenado usando las anotaciones de la transmembrana de las regiones (que en la mayoría de los casos proceden de métodos de predicción), pero en la fase de prueba no se requiere esa información, por lo tanto, opera únicamente utilizando como entrada la secuencia. En comparación con el método de descubrimiento de patrones [43], nuestro método utiliza un sistema más sofisticado de toda la secuencia de puntuación que tiene una interpretación probabilística formal. Hay que señalar, sin embargo, que la mayoría de los patrones descubiertos por [43] fueron capturados por nuestra pHMMs (Figura 1], pero de una forma más racional y matemáticamente explotables. Además, en [43] general de las medidas no se informó de la precisión con el fin de evaluar una comparación equitativa. Por último, la aplicación de este método es el único método informó de que hasta ahora, que está a disposición del público a través de un servidor web. En la URL: http://bioinformatics.biol.uoa.gr/PRED-COUPLE, el usuario puede presentar una secuencia en formato Fasta, y recibir la predicción. El método es bastante rápido, produciendo una auto-exposición de la producción, y, por lo tanto, puede ser utilizado tanto por los biólogos moleculares que pedía información para un solo GPCR, y por el desempeño de bioinformaticians gran escala de análisis computacional.
En la etapa final de preparación de este manuscrito, otro método desarrollado independientemente por Sreekumar y compañeros de trabajo, se ha publicado [52], que utiliza también pHMMs. Sin embargo, el método de Sreekumar y compañeros de trabajo, no es un tratamiento para los múltiples intracelular de los bucles de un determinado GPCR independiente, pero en cambio concatenates ellos en una única secuencia. Concatenados Estas secuencias se utilizan para construir pHMMs con el paquete HMMER. Aunque, el método funciona muy bien según lo informado por los autores (que reclaman un 99% de tasa de clasificación correcta en una prueba de validación cruzada), existen algunos graves inconvenientes derivados de la mencionada estrategia: Con este método, para poner a prueba una proteína recién descubierta, Uno tiene que realizar predicciones sobre la GPCR con respecto a su topología transmembrana, extraer los bucles intracelulares y concatenar en una sola secuencia. Esto añade otra fuente de error, procedentes de los errores de predicción de la topología transmembrana algoritmo de predicción. Teniendo en cuenta, que hasta la fecha, incluso los mejores algoritmos de predicción de la topología, predecir correctamente la topología completa de una proteína con una precisión de no más del 75% [53, 54], lo que reducir aún más el rendimiento del método. Debemos señalar también que en relación con GPCRs, los predictores más preciso dejar de predecir incluso siete segmentos transmembrana para más del 15% de los ejemplos presentados [54]. Además, el método no controlar adecuadamente el nivel de falsos positivos, ya que no ha sido probado en no GPCR secuencias. Por el contrario, el método propuesto en este trabajo, a pesar de que utiliza esencialmente la misma en la extracción de los principios bucle regiones, que trata de forma independiente utilizando el algoritmo Qfast, y, por lo tanto, en la fase de predicción, no a-priori de los conocimientos y bucles transmembrana Topología que se necesita. Además de esto, la tasa de falsos positivos predicciones está controlada, proporcionando una confianza acerca de la validez de los resultados. Por último, y quizás más importante, nuestro método es el único hasta ahora que es totalmente automatizado y la disposición del público a través de un servidor web.
Hemos aplicado aquí, una base de datos de exploración de minas enfoque combinado con el alto poder discriminativo perfil de Modelos Ocultos de Markov (pHMMs), de generar un sistema que predice GPCR acoplamiento especificidad de los tres principales subfamilias de las proteínas G (G i / o, G Q/11 y G s), basado únicamente en la información contenida en la secuencia de la proteína. Presentamos clasificación correcta tasa superior en comparación con otros métodos publicados anteriormente, y hemos creado un servidor web, la gestión de la aplicación, disponible gratuitamente para los usuarios académicos (Comercial usuarios deben ponerse en contacto con el profesor SJ Hamodrakas para obtener la licencia). En la actualidad, este es el único servidor basado en la web para la predicción de los GPCRs acoplamiento a proteínas G-. La ampliación de esta información para caracterizar las propiedades de enganche para miles de huérfanos GPCRs en gran escala proteoma anotación estudios, nuestra comprensión de las vías de señalización de los receptores podría mejorar y nuevos objetivos para la investigación de drogas pueden ser descubiertos. Los estudios futuros, el representante más amplio de la utilización de conjuntos de capacitación con GPCRs conocidos acoplamiento a la especificidad de las proteínas G, y más avanzadas técnicas algorítmicas son necesarios con el fin de aumentar la exactitud de la predicción del método, como también en cuanto a manejar de manera más eficiente en la promiscuidad preferencial de acoplamiento GPCRs a G-proteínas. De esta manera, también podemos ser capaces de predecir el acoplamiento de los GPCRs a proteínas G-miembros de la subfamilia G 12/13, una característica que ni se abordan en el presente estudio, ni en los métodos publicados anteriormente.
Nuestro principal formación de datos consta de 282 secuencias de GPCRs conocidos de acoplamiento a las propiedades de las proteínas G (120 G i / o, 94 y 68 G q/11 G s) de acuerdo con las Tendencias de las Ciencias 2000 farmacológico del receptor del canal de iones y nomenclatura supplemement [ 37]. Todas las secuencias de datos en la formación eran de GPCRs con organizaciones no promiscuo de acoplamiento de acuerdo a [36] y fueron recuperados de la base de datos Uni Prot 1,10 [45], con exclusión de los fragmentos. Sobre la base de sus preferencias de acoplamiento, que se agruparon en Gi / o, o Gq/11 Gs receptores acoplados. La adhesión Uniprot números de las proteínas en la formación serie se pueden encontrar en nuestra página web-http://bioinformatics.biol.uoa.gr/PRED-COUPLE/training.txt. Por otra parte, una alternativa no sólo el conjunto de datos redundantes de los 104 humanos de los GPCRs homólogos en el conjunto de datos originales se utilizó el método para la formación. Esto se hizo con el fin de investigar el efecto de los despidos planteados por secuencias homólogas. Un conjunto de validación también se generó, incluyendo 479 especies de GPCR homólogos de los subtipos de receptores conocidos con acoplamiento de acuerdo a la especificidad [37] (256 G i / o, 102 G q/11 y 121 G s). Por último, el método también fue validado en un conjunto independiente, integrado por los GPCRs, pertenecientes a diferentes subtipos conocidos de acoplamiento con propiedades gpDB extraídos de la base de datos [18] que no se incluyen en el conjunto de formación [37].
Como se ha mencionado anteriormente, una cantidad suficiente de los datos experimentales que significa el papel de las regiones intracelulares GPCR (los tres bucles intracelulares y carboxilo terminal de la región) y proximal de la membrana intracelular extensiones de transmembrana α-hélices (aproximadamente 1,5 vueltas) como las principales regiones de interacción Entre el G-proteínas y el receptor activado complejo [5]. Sobre la base de esta información derivada experimentalmente, así como topología de la membrana información derivada de la anotación UniProt de cada entrada (en el "FT TRANSMEM" líneas), que adaptamos nuestro principal conjunto de datos, la extracción de secuencia que corresponden a las regiones intracelulares regiones o regiones transmembrana con intracelular Proximidad, que se extiende por aproximadamente 7 residuos dentro de la membrana celular.
Con el fin de investigar las características del método cuando se aplica a los no GPCR secuencias, hemos utilizado dos conjuntos de datos alternativos. El primer conjunto de datos incluye un total de 1361 no GPCR receptores transmembrana, mientras que el segundo incluye 1239 no homólogas con las estructuras de las proteínas globulares conocidos en la resolución atómica [8].
Un alineamiento múltiple se generó para cada grupo de las regiones intracelulares secuencia derivados de la misma GPCRs con acoplamiento ClustalX preferencia utilizando el paquete [55]. Pares alineación de puntuación se establecieron parámetros como: BLOSUM 30 sustitución de la matriz, Gap de apertura de la pena de 10,00 y extensión pena brecha de 0,10. Múltiples alineación parámetros se fijaron como BLOSUM 30 series de sustitución de la matriz, la brecha de la apertura de la pena de 10,00 y extensión pena diferencia del 0,20. Múltiples secuencia de alineaciones fueron escaneadas de las regiones de baja entropía alta puntuación alineación filas. Así, la formación de datos fue más reducido a la secuencia de baja entropía regiones con un criterio de identidad de secuencia. La alineación resultante de múltiples filas fueron utilizados para generar una biblioteca de HMMs exploratorio en una forma: para una determinada alineación múltiple baja entropía a partir de cada bloque compensado y con cualquier ventana de siete o más filas de la alineación se construyó un HMM. Por lo tanto, un bloque de baja entropía de n filas genera alineación
Posibles alineaciones, donde w es la ventana de longitud. Este análisis arrojó un total de 6149 HMMs que se probaron sobre la marcha con el programa hmmsearch en contra de la serie de capacitación, con el fin de comparar el poder discriminativo entre las alternativas HMMs. Como un estimador del poder discriminativo de HMMs, se calculó la cobertura de los resultados, es decir, el porcentaje de positivos se calificaron un e-valor inferior a la más baja e-valor de los negativos. Esta crítica e-valor corresponde al ruido de corte de Pfam entradas [51]. Con el fin de comparar los valores de cobertura entre HMMs derivados de los diferentes grupos de acoplamiento, se calculó el valor de p de la cobertura como una variable aleatoria (probabilidad de que un modelo derivado de las filas de la alineación de secuencias aleatorias anotar una cobertura mayor o igual a un determinado observó Cobertura) , De la siguiente manera:
En un conjunto de n que contiene las secuencias de κ positivos, la probabilidad de que la elección de x positivos antes de la primera negativa, sin reset, es igual a:
Donde f (x) es la función de probabilidad de la distribución hipergeométrica negativa. La funcion, es decir, la probabilidad de que la elección de x o menos positivos antes de la primera negativa sin reiniciar es:
Así, la probabilidad de elegir × o más positivos antes de la primera negativa (es decir, el valor de p de la prueba) es igual a 1 - F (x).
Basado principalmente en la cobertura de las mediciones y sus p-valores, descubrimos HMMs de varios sub-regiones dentro de los bucles que muestran hasta 12 veces más de cobertura, en comparación con los modelos derivados de la totalidad del bucle de secuencias. Nuestro enfoque exploratorio traducido en 5 a 7 refinado pHMMs para cada uno de los tres grupos de GPCRs en el conjunto de datos, que se resumen en la Tabla 4. El diagrama de flujo del método, se presenta en la figura 2.
Debido a la similitud de secuencia entre las regiones intracelulares de los GPCRs acoplamiento de diferentes preferencias, un hmmpfam consulta de la serie de capacitación contra el refinado HMM biblioteca por defecto en virtud de un e-valor umbral de corte, dado artefacto promiscuidad en las predicciones. HMMs derivados de las diferentes regiones intracelulares muestran amplias variaciones en su poder discriminativo, como consecuencia de la participación de las diferentes regiones diferentes entre los tres grupos de GPCRs en la preferencia general de acoplamiento de la molécula. Nuestro objetivo no es excluir a la promiscuidad de la capacidad de predicción del método, de modo que cada HMM en el refinado biblioteca recibió un discreto corte umbral resultante de análisis de la curva ROC después de la evaluación de la distribución de las puntuaciones que corresponden a los objetivos positivos y negativos de la De formación establecidos. Para cada HMM refinado de nuestra biblioteca, que calcula y aplica los valores de corte que maximizar el valor:
Con el fin de no sobre-estimación de la tasa de clasificación correcta, cinco veces procedimiento de validación cruzada fue aprobado. Inicialmente, el conjunto de formación se dividen aleatoriamente a cinco conjuntos igualmente equilibrada. Después, hemos capacitado a un modelo, de acuerdo con el procedimiento mencionado anteriormente, utilizando como conjunto de las secuencias en las cuatro sub-conjuntos, mientras que el último sub-conjunto fue utilizado para la prueba. Este procedimiento se repitió cinco veces, y los resultados finales son los resultados generales obtenidos a partir de las cinco series.
NS se realizó el análisis, y aplicando los algoritmos y de la interfaz de la Web. PB formulado el problema, la formación recogidos y pruebas conjuntos y diseñado el plan de formación. PP Qfast aplicado el algoritmo y participó en el procedimiento de optimización. SH bajo la coordinación y supervisión del proyecto sugiriendo características innovadoras. NS, PB y SH redactado el manuscrito. Todos los autores han leído y aceptado el manuscrito.
PB con el apoyo de una subvención del programa de becas IRAKLEITOS el Ministerio griego de Educación Nacional, el apoyo a la investigación básica y en el Nacional Kapodistrian University of Athens. Damos las gracias a la Universidad de Atenas de apoyo financiero. Los autores desean agradecer a los árbitros anónimos por sus valiosas críticas y comentarios sobre el manuscrito.