Behavioral and brain functions : BBF, 2005; 1: 6-6 (más artículos en esta revista)

Dopamina, la incertidumbre y el aprendizaje TD

BioMed Central
Yael Niv (yael@gatsby.ucl.ac.uk) [1], Michael O Duff (duff@gatsby.ucl.ac.uk) [2], Peter Dayan (dayan@gatsby.ucl.ac.uk) [2 ]
[1] Centro Interdisciplinario de Neural Computation, Universidad Hebrea de Jerusalén, Israel
[2] Gatsby Computational Neuroscience Unit, University College London, Londres, Reino Unido

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Considerable evidencia sugiere que la phasic actividades de las neuronas dopaminérgicas en el mesencéfalo primates representan una diferencia temporal (TD) de error en las predicciones de futuro de recompensa, con aumentos por encima y por debajo de la base de referencia se reduce como consecuencia de positivas y negativas de los errores de predicción, respectivamente. Sin embargo, la dopamina células tienen muy baja actividad de referencia, lo que implica que la representación de estos dos tipos de error es asimétrica. Estamos estudiando las consecuencias de esta asimetría aparentemente inocuos para la interpretación de los patrones de disparos dopaminérgicos en experimentos con probabilístico recompensas que permite la obtención de la persistencia de los errores de predicción. En particular, se muestra que cuando el promedio de los no estacionarios errores de predicción a través de ensayos, un ramping en la actividad de la dopamina en las neuronas deben ser evidentes, cuya magnitud depende de la tasa de aprendizaje. Este exacta se dio en un reciente experimento, aunque se haya interpretado en términos como antípoda del juicio dentro de la codificación de incertidumbre.

Introducción

Hay un impresionante cuerpo de gran fisiológicas, de imágenes, y psicofarmacológico datos relativos a la actividad de phasic dopaminérgicos (DA) en el midbrains células de monos, ratas y seres humanos en la clásica e instrumental acondicionado tareas de las predicciones de las futuras recompensas [1 - 5]. Estos datos se han tomado para sugerir [6, 7] que la actividad de las neuronas DA representa diferencia temporal (TD) errores en las predicciones de futuro recompensa [8, 9]. Esta teoría de la dopamina TD ofrece una precisión de cálculo base para comprender toda una serie de datos de comportamiento y neuronales. Además, sugiere que DA proporciona una señal de que es teóricamente adecuado para controlar el aprendizaje de las dos predicciones y recompensa-la optimización de las acciones.

Algunas de las pruebas más concluyentes a favor de la teoría TD proviene de estudios de investigación de la dopamina phasic activación de las células en respuesta a estímulos arbitrarios (como patrones fractales en un monitor) que predicen la próxima disponibilidad de recompensas (como gotas de zumo) . En muchas variantes, estos han demostrado que con la capacitación, la transferencia phasic DA señales desde el momento de la recompensa inicialmente imprevisible, a la hora de la primera señal predecir una recompensa. Este es exactamente el resultado que se espera de un temporal de la diferencia basada en la predicción de error (por ejemplo, [1, 2, 10 - 13]]. La conclusión básica [7] es que cuando es una recompensa inesperada (que es inevitable en los primeros ensayos), la dopamina células de responder enérgicamente a la misma. Cuando se predice una recompensa, sin embargo, las células responder a las predictor, y no ahora a la espera de recompensa.

Si un predijo recompensa es omitido inesperadamente, y luego las células se phasically inhibida en el tiempo normal de la recompensa, una inhibición que revela el momento preciso de la recompensa de predicción [10], y cuyas cifras son temporales actualmente en virtud de un centro de atención forense [14] . El cambio de la actividad desde el momento de la recompensa a la hora del predictor de turno se parece a la del animal apetito reacción de comportamiento desde el momento de la recompensa (el estímulo incondicional) a la del estímulo condicionado en experimentos de condicionamiento clásico [7, 10] .

En un muy interesante estudio reciente, Fiorillo et al. [15] examinó el caso de refuerzo parcial, en el que hay persistentes, ineluctable, la predicción de error en cada juicio. Una simple interpretación de la predicción TD error hipótesis sugiere que en este caso (a) la actividad de dopamina en el momento de los estímulos que la escala de predicción de la probabilidad de que la recompensa, y (b) en promedio durante los ensayos, la respuesta dopaminérgica tras el estímulo Y hasta el momento de la recompensa, debe ser cero. Si bien la primera hipótesis fue confirmada en los experimentos, el segundo no. El promedio al juicio entre las respuestas mostraron una clara ramping de actividad durante el retraso entre la aparición de estímulo y recompensa que parece estar en consonancia con la cuenta de TD. Fiorillo et al. Hipótesis de que esta actividad representa la incertidumbre recompensa en la entrega, en lugar de un error de predicción.

En este trabajo, nos visita la cuestión de la persistente error de predicción. Nos muestran que una asimetría fundamental en la codificación de las positivas y negativas de los errores de predicción nos lleva a esperar que el ramping en el entre-medio de la dopamina señal de prueba, y así también las cuentas de otras dos características de la señal DA - aparente persistencia de la actividad en el momento de La recompensa (potenciales), y la desaparición (o al menos debilitamiento) de la ramping señal, pero no la señal en el momento de la recompensa, en vista de la traza en lugar de demora acondicionado. Ambos fenómenos se han observado también en los relacionados con el instrumental acondicionado experimentos de Morris et al. [16]. Por último, el ramping interpretar como señal de la mejor evidencia disponible en la actualidad para el aprendizaje de la naturaleza de mecanismo por el cual el cambio en la actividad de la dopamina a la hora de la predicción se produce estímulos.

Incertidumbre en recompensa ocurrencia: DA ramping

Fiorillo et al. [15] asociados a la presentación de cinco diferentes estímulos visuales con macacos a la demora, probabilístico (p r = 0, 0,25, 0,5, 0,75, 1) la entrega de jugo de recompensas. Utilizaron un retraso acondicionado paradigma, en la que el estímulo persiste durante un intervalo de 2s, con recompensa que se entregarán cuando el estímulo desaparece. Después de la capacitación, los monos' anticipada lamiendo comportamiento indicaron que estaban conscientes de las diferentes probabilidades de recompensa asociados a cada estímulo.

Figura 1a muestra histogramas de la población extracelular-DA registrada la actividad de células, para cada p r. TD teoría predice que la phasic activación de las células DA en el momento de los estímulos visuales debe corresponder a la media de espera recompensa, y así debería aumentar con p r. Figura 1a muestra exactamente esto - de hecho, en toda la población, el aumento es bastante lineal. Morris et al. [16] informe de un resultado similar en un instrumental (traza) la tarea también participan probabilístico refuerzo.

Por el contrario, en el momento de la recompensa potencial de la entrega, TD teoría predice que, en promedio, no debe haber ninguna actividad, ya que, en promedio, no hay error de predicción en ese momento. Por supuesto, en el diseño probabilístico refuerzo (al menos para p r ≠ 0, 1) es, de hecho, un error de predicción en el momento de la entrega o no entrega de todos y cada uno de recompensa en el juicio. En los juicios en los que se entrega un premio, el error de predicción debe ser positivo (como el premio obtenido es mayor que el promedio de espera recompensa). Por el contrario, en los juicios que no se debe recompensar negativas (ver Figura 1c]. Es crucial, en virtud de la DT, el promedio de estas diferencias, ponderados por sus probabilidades de ocurrir, debería ser cero. Si no es cero, entonces este error de predicción debe actuar como una señal de plasticidad, el cambio de las predicciones hasta que no haya error de predicción. En contradicción con esta expectativa, los datos en la Figura 1a, que es un promedio de más de dos ensayos premiados y no recompensados, muestran que hay, de hecho, positivo: Es la actividad en este momento. Esto también es evidente en los datos de Morris et al. [16] (ver Figura 3c]. La DA respuestas positivas no muestran signos de desaparecer, incluso con la formación (en el curso de meses).

Peor que este modelo para el TD, y, de hecho, el centro de atención de Fiorillo et al. [15], es la aparente ramping de DA hacia la actividad del momento previsto de la recompensa. Como la magnitud de la vía de acceso es mayor para p r = 0,5, Fiorillo et al. Sugirió que los informes de la incertidumbre en la recompensa de entrega, en lugar de un error de predicción, y especularon que esto podría explicar la señal de apetito aparentemente propiedades de incertidumbre (como se ha visto En los juegos de azar).

Tanto el ramping actividad y la actividad en el tiempo de espera recompensa plantean desafíos críticos a la teoría de TD. TD aprendizaje opera mediante la organización de la actividad de DA a la vez en un ensayo que se prevé disponible fuera por los tacos que antes en el juicio. Por lo tanto, no está claro cómo aparentemente previsible cualquier actividad, ya sea que en el momento de la recompensa o en la rampa antes, pueden persistir sin que se predijo fuera por la aparición de los estímulos visuales. Después de todo, la p-r dependientes actividad en respuesta al estímulo confirma su condición como un predictor válido. Además, un aspecto clave de la DT [17], es que las parejas de predicción de elección a la acción, utilizando el valor de un estado como una indicación del futuro recompensas disponibles en ese estado, y por lo tanto su atractivo como objetivo de la acción. Desde este punto de vista, ya que la actividad ramping no está explícitamente prevista por el anterior cue, que no puede influir en las medidas tempranas, como la decisión de apostar. Por ejemplo, considerar la posibilidad de una competencia entre dos acciones: una la larga conduce a un estado con una recompensa determinista y, por tanto, no en pista, y la otra conduce a un estado seguida de una recompensa probabilística con la misma media, y una rampa. Dado que la vía de acceso no afecta a la actividad en el momento del estímulo condicionado, que no puede ser usado para evaluar o favor de la segunda acción (juegos de azar) a lo largo de la primera, a pesar de la incertidumbre extra.

Sugerimos la hipótesis alternativa de que estos dos patrones resultado anómalo disparando directamente de las limitaciones que supone la baja tasa de actividad de las neuronas DA (2-4 Hz) en la codificación de la firma de error de predicción. Como señaló Fiorillo et al. [15], los errores de predicción positivo están representados por el disparo de las tasas de ~ 270% por encima de la base de referencia, mientras que los errores negativos están representados por una disminución de sólo ~ 55% por debajo de línea de base (ver también [14, 18]] . Esta asimetría es una directa consecuencia de la codificación de una cantidad firmado por el disparo que tiene una base de referencia bajo, aunque, evidentemente, sólo puede ser positivo. Disparando por encima de las tasas de referencia positivo puede codificar los errores de predicción mediante el uso de un amplio rango dinámico, sin embargo, por debajo de las tasas de referencia a disparar sólo puede bajar a cero, la imposición de una restricción a la codificación de los errores de predicción negativo.

En consecuencia, uno tiene que tener cuidado de la interpretación de las cantidades (o medias) de la periferia de estímulo a tiempo-histogramas (PSTHs), de diferentes ensayos sobre la actividad, tal como se hizo en la figura 1 bis. La forma asimétrica con código positivas y negativas de las señales de error en el momento de la recepción o la no recepción de recompensa de hecho no debería resumir a cero, incluso si representan TD corregir los errores de predicción. Al resumir, la baja representación de los disparos errores en el negativo ni se reconoce ni juicios no "anular" el rápido disparo de codificación positiva errores en el recompensados ensayos, y, en general, la media se mostrará una respuesta positiva. En el cerebro, por supuesto, ya que las respuestas no son de media sobre (y ni se reconoce ni recompensa) ensayos, pero a lo largo de las neuronas dentro de un juicio, esto no tiene por qué suponer un problema.

Esto explica la persistencia de una actividad positiva (en promedio) en el momento de la entrega o no entrega de la recompensa. ¿Pero qué acerca de la vía de acceso antes de este tiempo? Por lo menos en ciertas representaciones neurales de tiempo entre el estímulo y la recompensa, cuando se promedian los ensayos, esta misma asimetría conduce a la TD en un resultado exactamente ramping de actividad hacia el momento de la recompensa. TD El mecanismo de aprendizaje tiene el efecto de propagación, a modo de prueba por prueba, la predicción de los errores que se plantean en un momento en un ensayo (como en el momento de la recompensa) hacia posibles predictores (como el CS) que se plantean En épocas anteriores dentro de cada juicio. En virtud de la asimetría en la representación de los positivos y negativos de predicción de los errores que acabamos de discutir, con un promedio de los errores más de la propagación de múltiples ensayos (como en la Figura 1a] conducirán a los medios positivos para épocas dentro de un juicio ante una recompensa. La forma precisa de la rampa resultante de la actividad depende de la forma de estímulos están representados en el tiempo, así como de la velocidad de aprendizaje, como se examinará a continuación.

Figura 2 ilustra este punto de vista de la procedencia de la actividad ramping. Aquí, un tocado demora representación de la línea de tiempo desde que el estímulo se utiliza. Para ello, cada unidad ( 'neurona') se activa (es decir, asume el valor 1), en un cierto retraso después de que el estímulo ha sido presentada, de manera que cada timestep después de la aparición de estímulo es constantemente representada por el disparo de una unidad. El aprendizaje se basa en la (dopaminergically-denunciadas) TD error, formalizado como δ (t) = r (t) + V (t) - V (t - 1), con V (t) la entrada ponderada de la unidad activa en Tiempo t, y r (t) la recompensa obtenida en el momento t. Actualización de los pesos de las unidades de acuerdo a la norma de actualización estándar TD con una tasa fija de aprendizaje, permite que V (t) que, en promedio, representan la recompensa que espera en el futuro (vea la Figura 1 título). Como cada una de las timestep es representado por separado, TD predicción errores pueden surgir en cualquier momento en el juicio. Figura 2a muestra estos errores consecutivos, en seis juicios simulados en los que p r = 0,5. En cada ensayo, un nuevo error positivo o negativo surge en el momento de la recompensa, como consecuencia de la recepción o la no recepción de la recompensa, y paso a paso los errores de anteriores ensayos propagar remonta a la época del estímulo, a través de La constante actualización de las ponderaciones (por ejemplo, el error en rojo). Cuando promedio (o, como en PSTHs, resumiendo) a lo largo de los ensayos, estos errores se anularán entre sí, por término medio, que dio lugar a un plano general de histograma en el intervalo después de la aparición de estímulo, y líder hasta el momento de la recompensa (negro línea en la Figura 2b, sumaron más de los 10 ensayos que se muestra en azul fina). Sin embargo, cuando resumió después de la expansión asimétrica de los errores en un factor de d = 1 / 6 (que simula la codificación asimétrica de los positivos y negativos de los errores de predicción de las neuronas DA), una rampa positiva de la actividad se produce, como demuestra la línea de negro En la figura 2c. Tenga en cuenta que esta reestructuración es sólo una cuestión de representación, como consecuencia de las limitaciones de la codificación de un valor negativo acerca de una baja tasa de disparos de referencia, y no debe afectar el aprendizaje de los pesos, a fin de no aprender valores erróneos (ver discusión). Sin embargo, como están directamente PSTHs sumas de espigas neuronales, esta cuestión tiene representación en el histograma resultante.

Figuras 1b, d mostrar la vía de acceso derivadas de esta combinación de codificación y asimétricas entre un promedio de juicio, para la comparación con los datos experimentales. Figura 1b muestra el PSTH a partir de nuestros datos simulados por un promedio de más de la forma asimétrica representados δ (t) en la señal ~ 50 ensayos para cada tipo de estímulo. Figura 1d muestra los resultados para el r = 0,5 p caso, dividido en recompensados y no recompensados los ensayos para la comparación con la figura 1c. La simulación de los resultados se asemejan a los datos experimentales de cerca en el sentido de que replicar la red de respuesta positiva a la incertidumbre de recompensas, así como el ramping efecto, que es más alta en el r = 0,5 p caso.

Es fácil de obtener el promedio de respuesta en el momento de la recompensa (t = N) T en el juicio, es decir, el promedio de error TD Δ T (N) , TD aprendizaje de la norma con la simplificación de aprovecharse demora línea de tiempo y la representación de una tasa de aprendizaje α. El valor en la siguiente a la última timestep en un juicio, en función del número de prueba (con valores iniciales adoptadas a ser cero), es

Donde r (t) es la recompensa al final de la prueba t. La señal de error en la última prueba de timestep T es simplemente la diferencia entre la recompensa obtenida r (T), y el valor que la predicción de recompensa V T - 1 (N - 1). Este error es positivo con probabilidad p r, y con probabilidad negativo (1 - p r). Expansión errores de la negativa por un factor de d ∈ (0, 1], de este modo, obtener

Para la codificación simétrica de los errores positivos y negativos (d = 1), el promedio de respuesta es 0. Para la codificación asimétrica (0 <d <1), el promedio de respuesta es proporcional a la diferencia de las recompensas, y, por tanto, la máxima en r p = 0,5. Sin embargo, δ T es positivo, y concomitantemente, las rampas son positivas, y en este contexto particular, están relacionadas con la incertidumbre, a causa de, en lugar de en lugar de, la codificación de δ (t).

De hecho, existe una diferencia clave entre la incertidumbre y la TD ramping cuentas de la actividad. Según la primera, el ramping es un juicio dentro de los fenómenos, la codificación de la incertidumbre en la recompensa; por el contrario, este último sugiere que se plantean sólo a través de rampas promedio a través de múltiples ensayos. Dentro de un juicio, cuando se registró un promedio de más de neuronas al mismo tiempo en lugar de los ensayos, las huellas no debería mostrar una suave rampa, pero intermitentes positivas y negativas de la actividad correspondiente a la vuelta de los errores de predicción de la propagación de la inmediatamente anterior ensayos (como en la figura 2a].

Trace acondicionado: un caso de prueba

Una importante prueba para nuestra interpretación se plantea en una variante de Fiorillo et al. "S [15] tarea, así como en el instrumental análoga tarea de Morris et al. [16], tanto de rastrear acondicionado. En contraste con la demora acondicionado (Figura 3a], en la que el premio coincide con el de compensar el estímulo predictivo, aquí existe una distancia considerable entre el offset del estímulo predictivo y la entrega de la recompensa (Figura 3b]. Evidentemente, en este caso, la incertidumbre acerca de la recompensa sólo puede obtener más grande, debido al ruido en el momento en el intervalo entre el estímulo y la recompensa [19], por lo que en virtud de la incertidumbre en cuenta, no debe ser comparable o incluso más grandes rampas. Sin embargo, los resultados experimentales muestran la actividad ramping a ser menor, o incluso insignificantes (Figura 3c, d]. Tenga en cuenta, sin embargo, que la magnitud de la actividad de juicio a la media en el tiempo de espera se mantiene la recompensa, que apunta a una disociación entre la altura de la vía de acceso y la cantidad de actividad positiva en el tiempo de espera recompensa.

El modelo de TD DA explica fácilmente estos datos desconcertante. Como se muestra en la figura 4, la forma de la rampa, aunque no de la altura del pico, se ve afectada por la tasa de aprendizaje. El tamaño de la parte de atrás de la propagación de los errores de predicción se determina, en parte, por el tipo de aprendizaje, ya que estos errores surgen como parte de la línea de aprendizaje de las nuevas predicciones. De hecho, hay una continua actualización de las predicciones de tal manera que después de un ensayo premiado, hay una mayor expectativa de recompensa (y, por tanto, el próximo recompensa incurre en un pequeño error de predicción), y en cambio después de un juicio no recompensados [18] (véase la figura 2 bis]. Esta actualización de las predicciones se relaciona directamente con la tasa de aprendizaje - la más alta es la tasa de aprendizaje, la mayor actualización de las predicciones de acuerdo con la actual predicción de error, y cuanto mayor sea la fracción del error de predicción que se propaga de nuevo. De este modo, con las tasas de educación superior, la diferencia de expectativas después de una recompensa versus un juicio ni se reconoce ni será mayor, y por lo tanto la predicción de los errores cuando el próximo premio es o no se dispone de mayor tamaño - el más grande y por lo tanto más gradual en pista.

De hecho, en comparación con retraso acondicionado, traza acondicionado es notoriamente lento, lo que sugiere que la tasa de aprendizaje es bajo, y por lo tanto que debe haber un menor en pista, de acuerdo con los resultados experimentales. Un examen directo de la tasa de aprendizaje en los datos de Morris et al. [16], cuya tarea requiere la formación excesiva, ya que no fue sólo un trazado acondicionado, pero también incluía una acción instrumental, confirmó que en efecto a ser muy baja (Genela Morris -- Comunicación personal, 2004).

Discusión

El diferencial de codificación de los valores positivos y negativos de las neuronas DA es evidente en todos los estudios de la phasic DA señal, y puede considerarse como una consecuencia inevitable de la escasa actividad base de estas neuronas. De hecho, esta última ha inspirado directamente las sugerencias de que un oponente neurotransmisor, la serotonina, supuestamente, estar implicados en la representación y, por tanto, el aprendizaje de los errores de predicción negativo [20], de manera que tengan plena trimestre. Aquí, sin embargo, nosotros mismos hemos confinado a la consideración de los efectos de la asimetría en el proceso de análisis de la media de la actividad de la dopamina, y han demostrado que ramping DA actividad, así como un promedio de respuesta positiva en el momento de la recompensa, consecuencia directa de La codificación asimétrica de los errores de predicción.

Aparte de una visión más clara de la señal de error, la consecuencia más importante de la nueva interpretación es que las rampas se puede considerar como la firma de una TD fenómeno que hasta ahora ha sido muy difícil de alcanzar. Esta es la progresiva vuelta de la propagación de la señal representada por error DA actividad, desde el momento de la recompensa a la hora del predictor (figura 2a]. La mayoría de los estudios anteriores de la actividad dopaminérgica han utilizado p r = 1, de manera que esta de vuelta-en el mejor de la propagación de un fenómeno transitorio aparente sólo al comienzo de la formación (cuando, por lo general, las grabaciones todavía no han comenzado), y potencialmente difícil de discernir en el lento - Disparando neuronas DA. Además, como se mencionó, la parte de atrás de la propagación depende de la manera en que el tiempo entre el estímulo predictivo y la recompensa está representado - está presente para un tocado demora línea representación como en [6], pero no para las representaciones que abarcan la totalidad Retraso, como en [21]. Tenga en cuenta que la forma de la rampa también depende de la utilización de las trazas de elegibilidad y los denominados TD (λ) aprendizaje de la regla (no se muestra la simulación), que proporcionan un mecanismo adicional para reducir el tiempo entre los eventos durante el aprendizaje. Lamentablemente, como las formas de las rampas en los datos son bastante variables (figura 1] y ruidoso, que no pueden proporcionar fuertes limitaciones en la precisión TD mecanismo utilizado por el cerebro.

Estudios más recientes de la persistencia de los errores de predicción de la actividad también muestran sugerente de la propagación de apoyo, en particular de la Figura 4 [13]. En este estudio, la predicción de los errores se debieron a cambios periódicos en la tarea, y DA grabaciones se hicieron desde el inicio de la formación, con lo que-de nuevo-al igual que la propagación de la actividad está directamente aparente, aunque esta actividad no se ha cuantificado.

Esperamos que las rampas a persistir durante toda la formación sólo si la tasa de aprendizaje no disminuye a cero como el aprendizaje progresa. Pearce & Hall's [22] de la teoría de control de aprendizaje por la incertidumbre sugiere exactamente esta persistencia de aprendizaje - y no hay pruebas de los calendarios de refuerzo parcial que el tipo de aprendizaje puede ser mayor cuando hay más incertidumbre en cuanto a la recompensa. En efecto, de un 'racional' punto de vista estadístico, el aprendizaje debe persistir cuando hay una gran incertidumbre acerca de la relación entre los predictores y los resultados, tal como puede surgir de la siempre presente posibilidad de un cambio en las relaciones de predicción. Esta forma de la persistencia de la incertidumbre, junto con la incertidumbre inicial, debido a la ignorancia acerca de la tarea, se han utilizado para formalizar Pearce & Salón de la teoría de la forma en que la incertidumbre unidades de aprendizaje [23]. Por lo tanto, nuestra afirmación de que la incertidumbre no puede ser directamente representado por las rampas, desde luego, no debe ser tomado en el sentido de que su representación y la manipulación no es importante. Por el contrario, hemos sugerido que la incertidumbre influencias corticales inferencia y el aprendizaje a través de otros sistemas neuromoduladores [24], y que también podrán determinar los aspectos de la selección de acciones [25].

Varias otras características de la asimetría debe señalarse. Más crítico es el efecto de la asimetría en DA dependen de los productos básicos de aprendizaje [26], si debajo de la línea de base DA actividad por sí sola es responsable de la disminución de las predicciones que son demasiado altos. Con el fin de garantizar que las predicciones obtenidas siguen siendo correctos, habría que suponer que la representación asimétrica no afecta el aprendizaje, es decir, que como un mecanismo diferente para la ampliación y potenciación de la depresión sináptica fuertes se compensa el error de señal asimétrica. Por supuesto, esto sería discutible si dictó un oponente neurotransmisor está implicado en el aprendizaje de los errores de predicción negativo. Esta cuestión se complica por la sugerencia de Bayer [14] DA disparando las tasas que en realidad son similares para todos los errores de predicción negativo umbral por debajo de algunos, tal vez debido al efecto suelo de la baja tasa de disparos. Dicha codificación con pérdida no afecta a la imagen cualitativa de los efectos de un promedio de entre el juicio sobre la aparición de rampas, pero sí refuerzan la necesidad de un oponente señal para el aprendizaje necesariamente simétrico.

Por último, la prueba más directa de nuestra interpretación sería una comparación de intra-e inter-ensayo de un promedio de la señal de DA. Sería importante hacer esto en una sofisticada manera temporal, para evitar problemas de promedio de las señales no estacionarias. Con el fin de superar el ruido en el disparo neuronal, y determinar si de hecho existe una rampa gradual dentro de un juicio, o, como lo habría predicho - intermitente positivas y negativas de los errores de predicción, sería necesario a lo largo de muchos promedio registrado simultáneamente dentro de las neuronas Un ensayo, y, además, las neuronas asociadas a los tipos de aprendizaje similares. Como alternativa, única neurona huellas podría ser retrocedido backpropagation contra la respuesta predicha por sus anteriores ensayos y TD aprendizaje. Una comparación de la cantidad de variabilidad explicada por este modelo, frente al que, a partir de una regresión en contra de un monotónica de la actividad en pista, podría apuntar a la que se ajuste mejor modelo. A menos evidente, pero más comprobables predicción es que la forma de la rampa debe depender de la tasa de aprendizaje. Aprendizaje de las tasas se puede evaluar a partir de la respuesta a la recompensa probabilístico, independiente de la forma de la rampa (Nakahara et al. [18] mostró de tal manera, que en su traza parcial refuerzo acondicionado tarea, la tasa de aprendizaje fue de 0,3), Y potencialmente manipulada por variando la cantidad de formación o de la frecuencia con que se cambian tarea contingencias y relearned. En efecto, la cuantificación de la existencia y forma de una rampa en Nakahara et al. "S registrados DA actividad, bien podría arrojar luz sobre la actual propuesta.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

YN, MD y PD concebido y ejecutado conjuntamente este estudio, y ayudó a redactar el manuscrito. Todos los autores leído y aprobado el manuscrito final.

Agradecimientos

Estamos muy agradecidos a H. Bergman, C. Fiorillo, N. Daw, Joel D., P. Tobler, P. y W. Schultz Shizgal para debates y comentarios, en algunos casos, a pesar de los diferentes interpretación de los datos. Estamos especialmente agradecidos a Genela Morris por su propio análisis de datos publicados y no publicados en relación con ramping. Este trabajo ha sido financiado por la Red Temática de la CE (SN), la Fundación Gatsby y la UE BIBA proyecto.