Behavioral and brain functions : BBF, 2005; 1: 7-7 (más artículos en esta revista)

Prueba de que la demora del período de actividad de las neuronas de dopamina corresponde a la incertidumbre en lugar de recompensar backpropagating TD errores

BioMed Central
Christopher D Fiorillo (chris@monkeybiz.stanford.edu) [1], Philippe N Tobler (pnt21@cam.ac.uk) [2], Wolfram Schultz (ws234@cam.ac.uk) [2]
[1] Department of Neurobiology, Stanford University, Stanford, CA 94305-5125, USA
[2] Departamento de Anatomía de la Universidad de Cambridge, Cambridge CB2 3DY, UK

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Hemos demostrado previamente la presencia de demora-en el período de actividad de las neuronas de dopamina mesencéfalo, y presentó pruebas de que esta actividad corresponde a la incertidumbre acerca de recompensa. Una alternativa de interpretación de nuestras observaciones fue recientemente presentado en el que se sugirió que el período de demora de la actividad corresponde a la incertidumbre, pero no a los errores de predicción backpropagating TD. Aquí presentamos evidencia que apoya nuestra propuesta original, pero parece incompatible con la interpretación alternativa de backpropagating errores.

Debido a que la actividad de las neuronas de dopamina parece recompensar el código de error de predicción, se ha sugerido que las neuronas de dopamina puede proporcionar una señal de la enseñanza en analogía con la predicción de error encontrado en la diferencia temporal (TD) de los modelos de refuerzo de aprendizaje. Tomando la analogía un paso más, también se ha propuesto que el particular TD modelos pueden describir la actividad de las neuronas de dopamina [1, 2]. Más recientemente, nos han informado de que las neuronas de dopamina muestran un aumento gradual de la actividad que se produce entre la aparición de un estímulo condicionado (CS) y la recompensa cuando el CS se asocia con la incertidumbre acerca de la recompensa resultado [3]. Niv et al [4] han sugerido la forma convencional TD modelo podría explicar esta observación sin referencia a la incertidumbre.

Su explicación se basa en el hecho de que, en ciertos TD modelos, la predicción de errores "backpropagate" en el tiempo más presentaciones consecutivas CS. En nuestros experimentos, en un juicio una predicción error se produce inmediatamente después de la aparición de recompensa, que se produce CS 2 segundos después de su inicio. Según el modelo favorecido por backpropagation Niv et al, en el próximo juicio en el que el mismo se presenta CS, un tiempo de internos "error de predicción" se produciría en un plazo más breve, tal vez en 1,9 segundos después de CS inicio. En cada juicio posterior, el error se produzca en un plazo más breve, hasta que finalmente inmediatamente siguiente al inicio de la CS. Este modelo sería necesario que las neuronas muestran repentinos aumentos o disminuciones en la actividad de largo, pero precisamente en el tiempo de retraso después de la aparición de estímulo. Aunque la aplicación de ese plan por real neuronas es discutible, no obstante, podría explicar el retraso observado período de activación si se hace la hipótesis de que neuronal adicionales tasa de disparos tiene una particular relación con la predicción no lineal de error. Por ejemplo, Niv et al argumentar que la diferencia entre 1 y 2 espigas por segundo tiene un impacto mucho mayor funcionales en términos de predicción de error de la diferencia entre el 9 y el 10 de espigas por segundo. Así, la adición de la actividad a través de ensayos, como lo hicimos para generar histogramas, daría lugar a la aparición de la activación neuronal, a pesar de que el promedio de la actividad en todo momento (salvo inmediatamente después de la aparición CS), que correspondería a un error de predicción cero. A continuación presentamos algunas de las razones que nos escéptica de la interpretación de Niv et al.

En primer lugar, la relación no lineal propuesto por Niv et al entre la tasa de disparos de las neuronas de dopamina y funcional de la predicción de error es contrario a los observados experimentalmente relación no lineal entre la tasa de disparos y de la concentración de dopamina en regiones objetivo mesolímbico. Chergui et al [5] encontró que hay más dopamina extracelular por un mayor impulso a disparar las tasas más bajas que en las tasas de disparo.

En segundo lugar, la inspección de los datos publicados parece incompatible con el modelo de Niv et al. Ellos sugieren que el período de demora de la actividad es un artefacto de más de un promedio de los juicios de generar histogramas, y que el aumento sostenido de la actividad no solo se producen en los juicios. En contra de su propuesta, que sí parece ser fuerte y sostenida dentro de activación único de los ensayos, tal y como se muestra en la figura 2 de nuestro informe original [3] y en los datos de otra neurona se muestra aquí en la figura 1A. Es difícil estar seguros de si la actividad aumenta en juicios individuales, en parte porque Niv et al no han especificado exactamente lo que un solo juicio aumento de la demora del período de actividad debe ser similar, y en parte a causa del problema general dentro de la neurociencia De la manera de interpretar los trenes de la espiga. De hecho, parece que cualquier repunte podría representar un error backpropagating positiva, y cualquier intervalo entre pico podría corresponder a un error negativo. Sin embargo, si tomamos una más limitada, enfoque convencional basado en las tasas de disparo más de decenas de milisegundos, y luego disparando tasa parece aumentar durante el período de demora en juicios individuales. Del mismo modo, cambios graduales en la actividad neuronal relacionada con la expectativa de recompensa se observan en muchos otros tipos de neuronas [[6, 7], por ejemplo], y se cree que representan aumentos significativos en la actividad en juicios individuales en lugar de los artefactos de más de un promedio de los juicios .

En tercer lugar, el análisis adicional de los datos (de media sobre ensayos) impugna la interpretación de Niv et al. Si la actividad durante el período de demora se debe a backpropagating "error" las señales que se originó en los ensayos anteriores, la actividad en la última parte del período de la demora debe reflejar el resultado recompensa que siguió a la última exposición a los que el mismo CS. Por lo tanto debe haber más actividad al final del período de demora en caso de la última prueba fue recompensado, y menos si es no recompensados. Hemos analizado los ensayos en la que la recompensa CS predijo en p = 0,5, y no encontraron dependencia de la actividad neural en los resultados de la prueba anterior de la misma CS (Fig. 1A, B] (o bien la comparación de los últimos 100 o 500 ms antes Recompensa: p> 0,05 en 51 de 54 neuronas, la prueba de Mann-Whitney, p> 0,4 para la población de 54 neuronas, test de Wilcoxon). Así, la demora del período de actividad no parece depender de los resultados de la última prueba, tal como lo sugirió Niv et al.

En cuarto lugar, nuestros resultados publicados más recientemente [8] son incompatibles con el modelo de Niv et al. Cada uno de los tres estímulos condicionados previsto dos posibles recompensas resultados de la igualdad de probabilidad. La discrepancia en el volumen de líquido entre las dos posibles recompensas resultados variaron según el CS. Cuanto mayor es la discrepancia, la más pronunciada fue la sostenida, como la rampa-incremento de la actividad neural (Figura 2A] [3]. Sin embargo, la siguiente respuesta phasic recompensa (o la omisión de recompensa) es idéntico a través de las tres condiciones, revelando una adaptación del error de predicción de respuesta a la discrepancia en la recompensa esperada magnitud (Fig. 2B] [8]. Si se incorporan estos resultados publicados recientemente [8] en el modelo de backpropagation TD Niv et al, que se encuentra, ya que la recompensa de error de predicción de respuesta al final de cada prueba en estos experimentos es la misma, el período de demora - Backpropagating actividad en representación de los errores sería también la misma. Sin embargo, los datos no son coherentes con el modelo, ya que la demora período de actividad aumenta con la discrepancia entre los posibles magnitudes recompensa (Figura 2A] [3]. Nuestros resultados [8] muestran que si bien la phasic actividad de las neuronas de dopamina y corresponde a una definición general de la recompensa de error de predicción, que es incompatible con la explicación de la demora período de la actividad propuesta por Niv et al.

En quinto lugar, cabe señalar que la predicción backpropagating error en el modelo de Niv et al no reflejar una necesidad inherente de los modelos de TD, sino que es más bien una consecuencia de los temporales de estímulo representación elegido. La aplicación temporal de las diferentes representaciones de estímulo puede llevar a resultados muy diferentes. El original modelo TD [9] y las versiones recientes [10] han utilizado temporal en el que las representaciones de estímulo a la transferencia de la respuesta neuronal a la CS se logra de una manera que parece más plausible que biológicamente backpropagation. En la utilización de modelos TD backpropagation, señales neuronales durante el período de demora son, precisamente, el tiempo, pero son funcionales sin consecuencia, ya que la secuencia de errores positivos y negativos son auto-generados (que se producen en ausencia de acontecimientos externos), pero se presume que cancelar sí . Esto nos una extraña noción de que no es ni eficiente, ni elegante, ni necesario a los principios de aprendizaje TD.

Cuando las discrepancias entre los modelos TD y las respuestas de las neuronas de dopamina se han observado en el pasado, como la ausencia de la depresión a la hora habitual de recompensa en los juicios en que recompensa se entrega antes de lo habitual [11], TD modelos se han modificado en consecuencia a Describir mejor la actividad neural [10, 12, 13]. Aunque TD modelos han demostrado ser muy útiles, uno no necesariamente espera encontrar la estructura formal de cualquier TD actual modelo aplicado en el cerebro. Presente TD modelos exhiben una serie de características que parecen estar motivadas por la necesidad de simplificación, más que por cualquier limitación teórica o empírica. Por ejemplo, la TD en los modelos de predicción es, por lo general equipararse a esperar recompensa ignora el valor y la incertidumbre en la predicción. Para ilustrar esto en términos familiares para la gente (y quizás también de interés para las neuronas de dopamina), un 10% de posibilidades de ganar $ 100 es claro que no equivale a un 100% de posibilidades de ganar $ 10, los modelos TD aún no discriminan entre estos dos escenarios. TD modelos han evolucionado a lo largo de los años, para ser más útil y realista. Creemos que este proceso continuará y esperamos que el estudio de las neuronas podría ser útil en este sentido.

Agradecimientos

Esta labor fue apoyada por el Wellcome Trust (WAS y PNT) y el Instituto Médico Howard Hughes (FDC).