Proteome Science, 2005; 3: 6-6 (más artículos en esta revista)

Peso molecular de las proteínas en la evaluación total del proteoma perfiles utilizando 1D-PAGE y LC / MS / MS

BioMed Central
Q Rushdy Ahmad (rushdy@bu.edu) [1], Dat Nguyen H (dnguyen@hms.harvard.edu) [2], Mark Un Wingerd (mwingerd@bu.edu) [1], George H Iglesia (for_email_look @ Arep.med.harvard.edu) [2], Martin A Steffen (steffen@bu.edu) [1]
[1] Departamento de Genética y Genómica, la Universidad de Boston Escuela de Medicina de la Universidad de Boston, 715 Albany St, E639, Boston, MA, 02118, EE.UU.
[2] Departamento de Genética, Escuela de Medicina de Harvard, 200 Longwood Ave., Boston, MA 02115, EE.UU.
[3] El Lipper Centro de Genética Computacional. Harvard Medical School, 200 Longwood Ave., Boston, MA 02115, EE.UU.
[4] Dept. of Biomedical Engineering, Boston University, 44 Cummington St., Boston, MA 02215, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

La observó peso molecular de una proteína en un gel de poliacrilamida 1D puede proporcionar una idea de su función biológica. Las diferencias entre una proteína del peso molecular y observó que predijo por su longitud completa secuencia de aminoácidos puede ser el resultado de diferentes tipos de eventos después de la traducción, como splicing alternativo (AS), endoproteolytic procesamiento (PPE), y después de la traducción modificaciones ( PTMs). La caracterización de estos eventos es uno de los objetivos importantes del total de perfiles proteoma (PCC). LC / MS / MS se ha convertido en una de las principales herramientas para el PCC, pero dado que este método identifica tríptico fragmentos de proteínas, que en general no ha sido utilizado en gran escala para determinar el peso molecular de las proteínas intactas en mezclas complejas.

Resultados

Hemos desarrollado un conjunto de herramientas computacionales para extraer información de peso molecular de las proteínas intactas proteoma total de los perfiles en un alto rendimiento utilizando manera 1D-PAGE y LC / MS / MS. Hemos aplicado esta tecnología para el perfil de un proteoma humano lymphoblastoid línea celular estándar bajo condiciones de cultivo. De un total de 1 × 10 7 células, hemos identificado 821 proteínas por al menos dos tríptico péptidos. Además, estas 821 proteínas están bien localizados en el gel SDS-1D. 656 proteínas (80%) ocurren en rodajas de gel en el que observó el peso molecular de la proteína es coherente con su predijo secuencia de larga duración. Un total de 165 proteínas (20%) se han observado a los pesos moleculares que difieren de sus predijo secuencia de larga duración. Estamos estudiando estas diferencias de peso molecular de proteínas a partir de la anotación.

Conclusión

Se demuestra que la determinación de la proteína intacta peso molecular que se puede lograr en una forma de alto rendimiento utilizando 1D-PAGE y LC / MS / MS. La capacidad para determinar el peso molecular de las proteínas intactas representa un paso más en nuestra capacidad para caracterizar la expresión génica a nivel de proteínas. La identificación de 165 proteínas cuyo peso molecular observada difiere de la de peso molecular de la predicción de secuencias de larga duración proporciona otro punto de entrada en el alto rendimiento caracterización de la modificación de proteínas.

Antecedentes

Uno de los retos de la era post-genoma es el desarrollo de tecnologías y metodologías para la caracterización completa de una célula del proteoma [1]. Esta tarea incluye la determinación de proteínas de todas las identidades, sus montos, los complejos que se forman, sus formas de empalme, y sus modificaciones después de la traducción. Se han realizado progresos importantes en casi todos estos frentes. Por ejemplo, la proteína identidades se determinan de manera eficiente utilizando 2D-LC/MS/MS [2], o MudPIT [3], o 2DE junto con MALDI [4]. Para la determinación de las cantidades de proteínas, ICAT [5], [6] SILAC, y AQUA [7] han hecho importantes contribuciones. Proteína complejos se han caracterizado en la moda de alto rendimiento utilizando epítopo etiquetado [8, 9]. PTMs, en particular de fosforilación, se pueden orientar IMAC utilizando [10] y otros métodos [11 - 13]. Al contrario, ha habido relativamente pocos progresos en lo que respecta a la caracterización de alto rendimiento de la proteína-o isoformas de empalme.

Tecnología de microarrays de ADN revolucionado el campo de mRNA de perfiles [14]. Aunque ARNm de perfiles puede dar una idea de control transcripcional y la degradación del ARN, que no trata directamente de la traducción de control de expresión, no PTMs caracterizan, en general, ni identificar empalmados alternativamente transcripciones. También es insensible a fisuras o modificaciones químicas de las proteínas. Dado que, los métodos existentes para proteoma total de perfiles pueden, en principio, hacer frente a muchas de estas cuestiones, hay ahora una necesidad cada vez mayor de nuevas herramientas que pueden ayudar en la caracterización de los procesos biológicos.

Se han realizado una serie de intentos de combinar 1D SDS-PAGE con LC / MS / MS para el total de perfiles proteoma [15, 16]. Y también ha habido muchos esfuerzos en la que observó el peso molecular de spots en geles 2D se comparan con el peso molecular predicho [17, 18]. Este método es sencillo y depende de la comparación con otro marcador de peso molecular. Aunque 2D SDS-PAGE es capaz de resolver miles de manchas de proteínas, 1D SDS-PAGE ofrece una serie de atractivas características, incluyendo una excelente resolución en masa, superior solubilización de proteínas, puede albergar grandes cantidades de proteínas, y está bien correr a correr reproducibilidad .

En el presente trabajo se describe un método para la catalogación automatizada de pesos moleculares de proteínas intactas utilizando 1D SDS-PAGE y LC / MS / MS. Este método utiliza las proteínas identificadas en una rebanada de gel de actuar como patrones internos de los demás para la determinación del peso molecular de las proteínas que se encuentran en el tramo de gel. Hemos aplicado nuestro método a la total proteoma lymphoblastoid perfil de las células cultivadas en medio RPI.

Resultados
Preparación de la muestra y el análisis por espectrometría de masas

Lymphoblastoid las células cultivadas en suspensión se recogieron, pildoradas y lavados, y luego lisadas por la adición directa de las existencias. El total de lisado celular fue separado 16 cm en un 4-20% en gel y teñidos con azul de Coomassie. El gel de todo el carril era entonces cortada en 50 fracciones, y cada uno fue digerida con tripsina manualmente [19]. Los péptidos se extrajeron, secado y resuspendido en el 0,1% de ácido fórmico. Las fracciones fueron secuencialmente correr en una columna C18 con dos horas de gradientes. Raw archivos de datos se analizaron con SEQUEST [20]. Totalmente tríptico péptidos que Xcorr resultados que ha superado un umbral (1,75, 2,5, el 3,5 para el cargo estados +1, +2, +3, DelCn> 0,1) fueron compilados.

Este procedimiento se identificaron 1982 proteínas (excluyendo keratins) de 5972 tríptico péptidos (véase el Archivo Adicional 1], que difieren en su secuencia de aminoácidos (en lo sucesivo denominado secuencia única de péptidos). Luego creó un subconjunto de los datos que, una proteína que requieren ser identificados por al menos 2 de la mencionada péptidos gel en un solo tramo fracción. Este proceso no incluye aquellas proteínas que fueron identificados por dos péptidos secuencia única-si fueran de diferentes fracciones de gel tramo. Este subconjunto de datos que contiene un total de 850 proteínas y 4256-única secuencia de péptidos, la eliminación de un total de 1132 proteínas y péptidos 1716. Todos los análisis se realizaron más de los 850 proteínas que se identificaron por lo menos dos-secuencia única péptidos en por lo menos una rebanada de gel.

Método para la identificación del bien localizadas las proteínas

Con el fin de calcular el promedio de peso molecular de las proteínas dentro de una rebanada de gel, hemos identificado aquellas proteínas que emigraron como un único bien resueltas banda en el gel. Esto era necesario, ya que con frecuencia observamos que muy abundantes proteínas "frotis" a lo largo del gel y se pueden encontrar en todas las regiones del gel. Por ejemplo, el peor delincuente, actina alfa (NP_001091), se observó por lo menos dos-secuencia de péptidos única en 39 de las 50 rebanadas de gel. Si se incluyeron actina que distorsionan el cálculo de peso molecular medio en muchas de las rodajas de gel.

Hemos desarrollado un algoritmo de costumbre, llamada MWFilter [21], para asignar un puntaje de gel de localización, LScore, a cada una de las 850 proteínas. Las proteínas que migran como un único bien resueltas banda han LScores baja, y de las proteínas que se unta a cabo en muchas fracciones de alta LScores. LScores se calculan mediante la utilización de los péptidos de distribución para una determinada proteína, y se normalizó la suma de todas las distancias de un péptido golpeó a la cima de la distribución péptido hit. Por lo tanto, si la proteína jth ha péptido n gel hits en rodajas y el pico de la distribución péptido éxito está dado por las coordenadas (x p, y p) entonces su localización Resultado está dado por la siguiente ecuación:

Si una proteína tiene todos sus péptidos identificados en sólo una fracción de esta proteína del LScore = 0. Para una proteína que ha péptidos en múltiples fracciones, el algoritmo selecciona la fracción con mayor número de péptidos para que la proteína, y luego calcula la "distancia" de todos los demás que la fracción de péptidos. Como otro ejemplo, tiene un actina LScore = 45,8. La distribución de los 850 para LScores proteínas se muestra en la Figura 1.

A continuación, se eligió una LScore de corte de una desviación estándar lejos de la media LScore. Este valor es de 4,25, y separa a los 850 proteínas en un grupo bien localizados (821 proteínas) y un grupo de mal localizado (29 proteínas - Figura 2]. MWFilter permite al usuario especificar los valores de corte alternativo Lscore. Hemos inspeccionado manualmente las 29 proteínas y estableció que lo hicieron aparecer en varias fracciones a través de la propagación de gel.

Cálculo Promedio de Peso Molecular de cada rebanada de gel

El 821 proteínas que están bien localizados y son identificados por al menos dos péptidos en una sola rebanada de gel se utilizan para calcular el promedio de peso molecular de las proteínas dentro de cada rebanada de gel (MWFilter permite al usuario especificar el número de péptidos necesaria para su inclusión En este cálculo. Si en lugar de los criterios de inclusión es de tres péptidos en una rebanada de gel, los cálculos son esencialmente sin cambios para este conjunto de datos [datos no publicados]). El peso molecular medio en el cálculo se realiza en dos pasos. Una primera distribución de peso molecular se calcula como un medio de la identificación de los valores aislados, que luego se eliminan, y la distribución de peso molecular se vuelve a calcular en un segundo paso. Esta secuencia de pasos se encontró que era necesario debidamente en cuenta para modificar las proteínas, y es tratado con más detalle en la sección de debate a continuación. Predijo masas para cada proteína se observó sin modificaciones sobre la base de secuencias de larga duración que se encuentran en RefSeq. Para todas las proteínas de un gel observado en el tramo fracción, se calculó el promedio de peso molecular (AvgMW) y la desviación estándar (StdDev). Para la eliminación de los "outliers" en esta fase del cálculo, hemos eliminado aquellas proteínas cuyo peso molecular se prevé más de 1 desviación estándar de la media. Después de la eliminación de los "outliers", y la AvgMW StdDev fueron recalculados, y los resultados se muestran en la figura 3.

Luego, para cada proteína observó en un gel de rodaja, el algoritmo compara los pronosticado de larga duración peso molecular con la distribución de pesos moleculares se define por: AvgMW + / - 2StdDev. Si el predicho MW cae dentro de este rango, entonces la proteína se califica como en el acuerdo. Si es fuera de este rango, entonces la proteína es marcado como un importante peso molecular modificación. Si una proteína, que ya se ha anotado como bien localizada, tiene por lo menos dos péptidos en varias rodajas de gel y se encuentra a la altura de su predijo MW en al menos uno de estos trozos, entonces la proteína que se considera dentro del alcance. Hemos encontrado 821 para el bien localizadas las proteínas, que un total de 656 (80%), proteínas mostró de acuerdo entre sus predijo MW MW, y el promedio para ese trozo de gel, y un total de 165 proteínas [20%], que había una diferencia significativa Entre sus predijo MW de larga duración y su ubicación en el gel (Figura 3].

Discusión

Hemos desarrollado una herramienta de software para la caracterización de alto rendimiento de los pesos moleculares de las proteínas intactas utilizando 1D-PAGE y LC / MS / MS. Observó un peso molecular se calcula para una proteína basada en su ubicación en el gel y las proteínas con el que co-migra. Este enfoque es atractivo en el sentido de que no requiere la referencia a una norma externa, o el uniforme de corte del gel de un gel a la siguiente. A causa de la inevitabilidad de la corte de la proteína en múltiples bandas de rodajas de gel en el tratamiento de un carril, realizamos un puntaje que permite que se péptidos en múltiples fracciones, al mismo tiempo la posibilidad de excluir a los que uno, sobre todo abundante, frotis más de proteínas que la longitud total de El gel Lane. Las proteínas que están bien localizados en el gel y señaladas por al menos dos únicos péptidos-secuencia en un determinado tramo de gel de actuar como fracción interna de las normas para las otras proteínas que en el tramo.

La observó peso molecular de una proteína puede diferir de su peso molecular predicho por una serie de razones biológicas sistemática. La masa de una proteína se puede aumentar por modificaciones después de la traducción, tales como glicosilación, ubiquitination, y sumoylation, entre otros, mientras que la masa puede ser disminuido por splicing alternativo y endoproteolytic división. Además, hay informes de que se produzcan alteraciones de la migración algunos subconjuntos de proteínas, incluida la muy ácida [22], muy básicas [23], y ricos en arginina proteínas [24]. La detallada caracterización de estas proteínas-la modificación de los eventos es uno de los objetivos por los que nuestra MWFilter algoritmo se esfuerza, sin embargo, también representa un reto para cualquier algoritmo que es, en esencia, un "voto" o "mayoría reglas" tipo de algoritmo. Si la mayoría de las proteínas en una célula tenían su peso molecular sistemáticamente alteradas por cualquier mecanismo, un peso molecular medio de una rebanada de gel calcula a partir de las secuencias de larga duración no sería significativa. Sin embargo, varias líneas de evidencia indican que este no es el caso, por lo menos en este ejemplo. En primer lugar, como se puede ver en la figura 2, la mayoría de las proteínas, 656 (80%), han observado que los pesos moleculares de acuerdo con su peso molecular, predijo, sobre la base de su larga duración sin modificar la secuencia. En segundo lugar, si las proteínas fueron significativamente modificados, es poco probable que los pesos moleculares promedio calculado de cada rebanada de gel se monotonically en aumento, como es el caso muy cerca de observarse en la figura 3. En este sentido, cada rebanada actúa como una norma para todos los demás rodajas. Por último, los pesos moleculares calculados de acuerdo con las normas externas (datos no presentados).

En este experimento, hemos identificado 821 proteínas que migran como localizada, en un único bandas 1D gel. 165 de estas proteínas, o el 20%, tienen pesos moleculares que no se encuentran en el rango especificado por nuestro algoritmo y las proteínas con el que co-migra. 88 de las 165 proteínas se observan a bajas MW inferior a lo previsto por la secuencia de larga duración. Estas proteínas son posibles candidatos por haber empalmados transcripciones o alternativamente puede ser cleaved endoproteolytically. Muchas proteínas de este grupo son anotados como señal de tránsito o de péptidos. Si se resta la masa debido a la relación señal / péptidos de tránsito a partir de la secuencia de larga duración, se observa buena concordancia entre observado y predicho MW (última columna del cuadro 1]. Además, se observó un total de 77 proteínas que tienen un MW observó que es mayor que el predicho por su secuencia. PTMs como glicosilación, y ubiquitination puede sumoylation cuenta de la reducción de la migración en geles en principio, pero esas posibilidades deben ser investigados por otros medios.

Un objetivo futuro es extender este método a una mayor resolución. Mientras que el 50 fracciones por carril representa un límite práctico para la digestión de la mano de gel rodajas, robots que realizan en la digestión-gel (por ejemplo, Intavis, Colonia, Alemania) puede ampliar este número se cuenta por centenares. Se espera que el aumento del número de fracciones de gel tramo reducirá la propagación de las microondas dentro de un trozo, lo que permite la detección de pequeños cambios MW. Estas observaciones serán de gran utilidad cuando se comparan una serie de condiciones, donde "la movilidad de los turnos" de una proteína a través de condiciones se hará hincapié en los cambios funcionales de una proteína del estado. Proteínas sospechosas de ser empalmados alternativamente en varias condiciones pueden ser fácilmente interrogado con RT-PCR, y de las proteínas que no están bien localizados sólo en ciertas condiciones pueden ser examinados para la presencia simultánea de múltiples isoformas [25]. Además, como el análisis de los complejos de proteínas mediante espectrometría de masas es un área de creciente interés [2, 8, 9], este método puede aplicarse a los complejos de proteínas separadas por geles nativos.

Conclusión

Hemos desarrollado un conjunto de herramientas computacionales para extraer información de peso molecular de las proteínas intactas en total proteoma perfiles en un alto rendimiento utilizando manera 1D-PAGE y LC / MS / MS, y se aplica este método a las proteínas identificadas lymphoblastoid de células. La capacidad para caracterizar el peso molecular de las proteínas intactas representa un paso más en nuestra capacidad para caracterizar la expresión génica a nivel de proteínas. Todos 50 rebanadas de gel en nuestro experimento se les asignó un promedio MW y StdDev correspondiente, que se utiliza para determinar el observado MW de una determinada proteína. Se identificaron 165 proteínas (20%) que tienen pesos moleculares que difieren de sus predijo secuencia de larga duración. Estos 165 proteínas es probable que se enriqueció para las proteínas cuyo MW ha sido alterado por un interesante proceso biológico, como splicing alternativo, endoproteolytic procesamiento, y después de la traducción modificaciones. Como tal, MWFilter ofrece un punto de entrada para el descubrimiento y caracterización de proteínas de procesamiento de eventos.

Métodos
Preparación de muestra

Las células fueron cultivadas en suspensión a comienzos de fase estacionaria en Iscove medios de comunicación con 10% de suero fetal ternera y lápiz-estreptococos en 5% CO 2 a 37 °. Las células se pildoradas en un tubo cónico de 50 ml, lavar tres veces con PBS y lisadas por la adición directa de la carga de amortiguación-gel que contiene 2% SDS. La muestra se sonicated para reducir la viscosidad. Las proteínas fueron separadas en un 16 cm, 4-20% en gel de poliacrilamida (Jules Inc, Milford, CT) y visualizados por tinción de Coomassie. Todo el gel fue manualmente carril cortado en 50 secciones, y sometido en el tríptico digestión-gel [19].

Espectrometría de masas

Una alícuota de cada fracción se inyecta en una columna de fase reversa C18 usando un ThermoAS autosampler con bombas Surveyor (ThermoFinnigan, San Jose, CA). Nanospray columnas fueron construidas por el embalaje de 10 cm de cama MAGIC C18 AQ fase inversa medios de comunicación masiva (Michrom Inc; Auburn, CA) en retiraron, fritless 75 micras ID capilares de sílice fundido a presión. Gradientes fueron de 0% -30% B de amortiguación en 90 minutos, seguido de 30% -90% B en 10 minutos (Buffer A: 0,1% ácido fórmico; Buffer B: 0,1% ácido fórmico en acetonitrilo). El nanospray columna se vinculan directamente con el orificio LTQ ProteomeX de un espectrómetro de masas de trampa de iones (ThermoFinnigan) y se registraron los espectros de masa. A partir de un solo padre (MS) de exploración del espectro, los diez más abundantes iones fueron seleccionados para la disociación inducida por colisión (CID). MS 2 espectros fueron recogidos para cada uno de estos diez principales iones. Si un padre de iones, se observó a más de 3 veces en 2 minutos span, se excluyeron del análisis para el posterior 3 minutos (dinámica de la exclusión). Se analizaron los espectros de masa por SEQUEST [20]. Totalmente tríptico péptidos con una puntuación de SEQUEST XCorr> 1.75 (Z = 1), 2.5 (Z = 2), y 3,5 (Z = 3), y DeltaCn> 0,1 se les preguntó contra RefSeq entradas que se han índice de los números de la forma NP_XXXXXX.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

QRA realizó la preparación de muestras, análisis y escribió software. DN algoritmo de la ayuda en el desarrollo. El PMA prestó asistencia en masa de especificaciones de análisis. MAS y GMC participado en el diseño y la coordinación del estudio.

Material suplementario
Archivo Adicional 1
MultiConsensus archivo Datos
Agradecimientos

Damos las gracias a Heather Arruda, Jessica Rumpf Myrienne Guerrier y de asistencia con el cultivo de células, y Jake Jaffe para la valiosa asistencia con espectrometría de masa. DHN reconoce el apoyo de Alfred P. Sloan y el Departamento de Energía de EE.UU. beca posdoctoral de la Complejidad en Biología Molecular y Bioinformática a través de la Oficina de Ciencia (BER), el Departamento de Energía de EE.UU.. GMC reconoce el apoyo del programa Life de Genomas de los EE.UU. del Departamento de Energía. MS agradece a la Fundación Whitaker Premio al Liderazgo de la Universidad de Boston en busca de apoyo.