Proceedings of the Royal Society B: Biological Sciences, 2006; 273(1598): 2159-2168 (más artículos en esta revista)

La solución de los conflictos multisensorial: una estrategia para equilibrar los costos y beneficios de audio-visual integración

La Real Sociedad
Neil Roach W [1], James Heron [2], Paul V McGraw [1]
[1] Nottingham NG7 2RD, Reino Unido
[2] Bradford BD7 1DP, UK

Se trata de un libre acceso artículo distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original esté debidamente citados.

Resumen

Con el fin de mantener una política coherente, unificado percepto del entorno exterior, el cerebro debe combinar continuamente información codificada de nuestros diferentes sistemas sensoriales. Contemporáneo modelos sugieren que la integración multisensorial produce una media ponderada de las estimaciones sensorial, donde la contribución de cada sistema para el final multisensorial percepto se rige por la relativa fiabilidad de la información que proporciona (con un máximo de probabilidad la estimación). En el presente estudio, investigar las interacciones entre auditivo y visual tasa de percepción, donde los observadores tienen la obligación de hacer juicios en una modalidad en conflicto sin tener en cuenta la tasa información presentada en los demás. Nos muestran una transición gradual entre la señal de integración parcial y completo cue con el aumento de la segregación entre los modos de discrepancia que es incompatible con la aplicación obligatoria de máxima probabilidad de estimación. Para explicar estos resultados, poner en marcha un simple modelo Bayesiano de integración que es también capaz de predecir el desempeño de observadores con nuevos estímulos. El modelo asume que el cerebro tiene en cuenta el conocimiento previo sobre la correspondencia entre auditivas y visuales tipo de señales, la hora de determinar el grado de integración de aplicar. Esto proporciona una estrategia para equilibrar los beneficios obtenidos mediante la integración sensorial estimaciones derivadas de una fuente común, contra los costos de conflating información relativa a objetos independientes o eventos.

1. Introducción

Muchas propiedades físicas de nuestro entorno externo puede ser codificado por más de una modalidad sensorial. En lugar de ser tratados independientemente por el cerebro, ha sido desde hace mucho tiempo reconoció que estas fuentes de información interactúan el uno con el otro. Las consecuencias de percepción de estas interacciones son más notables cuando multisensorial señales se encuentran en conflicto. Classic manifestaciones incluyen marcados cambios en la percepción de la ubicación de estímulos auditivos cuando va acompañada de distintas espacialmente estímulos visuales (la "ilusión de ventrílocuo», Pick et al. 1969 ; Welch & Warren 1980; Bertelson & Radeau 1981] y las distorsiones de la percepción visual tasa inducida por la estimulación auditiva concurrentes ( 'auditivo de conducción », Gebhard & Mowbray 1959; Shipley 1964; Myers et al. 1981 ; Welch et al. 1986 ; Recanzone 2003]. Tradicionalmente, la dirección de tales efectos ha sido pensado para reflejar la modalidad adecuada "captura", con la visión que domina espacial fallos y audición temporal que domina las sentencias. Sin embargo, en los últimos años ha quedado claro que dicha estrategia rígido para resolver discrepancias entre las estimaciones sensorial es inviable. En lugar de ello, se ha propuesto que el cerebro puede formar una combinación óptima de la información sensorial disponible, sobre la base de la fiabilidad de las estimaciones derivadas de la fuente.

Considere una situación en la que un observador tanto oye y ve a una repentina explosión. Aunque las estimaciones de la espacial y temporal de las propiedades caso derivados de cada modalidad es probable que sean similares, cada uno de ellos será perturbado en cierta medida por las fuentes externas (física) e internos (neural) el ruido. Teniendo en cuenta esta ruidosa entrada, el reto para el observador es entonces para formar una mejor aproximación de lo que ha ocurrido. Actualidad opinión sugiere que esto se logra a través de un mecanismo integrador que opera de acuerdo con la máxima probabilidad de la estimación (MLE). De acuerdo con un modelo de MLE integración multisensorial, la estrategia adoptada por el cerebro es la fusión de información sensorial en el más confiable de estimación compuesta de una determinada propiedad posible. Si el ruido asociado a cada estimación sensorial es independiente y normalmente distribuido, la combinación óptima estadísticamente es un simple medio ponderado, donde el grado en que cada modalidad contribuye a la final multisensorial percepto se fija en función de la diferencia normalizada recíproco de la estimación que proporciona . Por ejemplo, si la estimación visual del lugar de la explosión es menos variable (es decir, más fiable) que la estimación correspondiente auditivo, mayor será el peso que le han sido asignadas durante el proceso de integración. Sin embargo, si las condiciones tales como humo o niebla de las anteriores explosiones de degradar la sensibilidad visual en la medida en que las estimaciones de posición cada vez más variable (menos fiables) que las previstas por el sistema auditivo, el patrón de pesos será invertido. En cualquier caso, la diferencia asociada con el compuesto de audio-visual estimación será inferior al de cualquiera de las estimaciones individuales sensorial. Así, aprovechando la redundancia inherente de estímulo de codificación a través de sistemas sensoriales, esta estrategia flexible ayuda a minimizar el efecto que el ruido tiene sobre la del observador perceptivo representaciones.

Resultados empíricos en consonancia con cerca de MLE-óptima integración de información multisensorial se han comunicado en una serie de estudios ( Van Beers et al. 1999 ; Ernst & Banks 2002; Van Beers et al. 2002 ; Gepshtein & Banks 2003; Alais & Burr 2004]. Además, los regímenes comparables de ponderación se ha demostrado que los observadores predicen las respuestas cuando se presenta con múltiples señales visuales a profundidad ( Landy et al. 1995 ; Jacobs 1999; Rushton & Wann 1999], posición (Landy y Kojima 2001] o la geometría de superficie (Knill & Saunders 2003; Hillis et al. 2004 ), Lo que sugiere que las estrategias de tratamiento similar pueden operar para la integración de información dentro ya través de modalidades sensoriales.

Las ventajas de MLE como un mecanismo de integración multisensorial son de dos tipos. En primer lugar, proporciona un medio de resolver las discrepancias relacionadas con internas y externas de ruido, contribuyendo así a mantener un percepto unificada del mundo. En segundo lugar, tiene la capacidad para aumentar la precisión de la percepción de representaciones, lo que facilita el cálculo y posterior ejecución de respuestas de comportamiento apropiado (Clarke & Yuille 1990; Ernst & Bülthoff 2004; Knill y Pouget 2004; Witton & Knudsen 2005]. Crítico, sin embargo, estos beneficios sólo se aplican cuando la información se refiere a una fuente común. En el rico y dinámico a entornos con múltiples estímulos, que combina la información sensorial independientes asociados a objetos o eventos es probable que sea desfavorable y, en algunos casos peligrosos. Así, un estímulo inflexible mecanismo impulsado que se integra automáticamente información multisensorial llevaría costos potenciales así como beneficios.

Lo ideal es que el cerebro siempre será capaz de integrar sensorial estimaciones derivadas de una fuente común, evitando al mismo tiempo el conflation de la información derivada independiente de objetos o acontecimientos. Aunque no es capturado por un modelo obligatorio MLE, hay motivos para creer que hay estrategias en lugar de mantener un equilibrio entre estos dos objetivos opuestos. Por ejemplo, ha sido desde hace mucho tiempo reconoció que la cooperación entre las interacciones entre modos de romper cuando el grado de conflicto entre cada modalidad es grande (Warren & Cleaves 1971; Jack & Thurlow 1973; Recanzone 2003; Bresciani et al. 2005 ; Gepshtein et al. 2005 ). Desde muy discrepantes estimaciones sensorial es poco probable que se refieren a una fuente común, esta actos directamente a reducir el riesgo de que la integración de información inconexa. Además, hay pruebas que sugieren que, incluso cuando la integración se lleva a cabo, el cerebro no necesariamente desechar por completo la información unimodal. De hecho, con base en los resultados de una tarea en la que los observadores se les pidió que discriminar entre visual-táctil estímulos utilizando cualquier medio disponible, Hillis et al. (2002) sugieren que la combinación de cualquiera o de una estimación de la unimodal estimaciones se puede acceder, dependiendo de cuál es más ventajosa para una determinada sentencia.

En este estudio, hemos investigado las interacciones entre auditivas y visuales temporales tasa de percepción, mientras que instruir a los observadores a basar sus fallos en la información únicamente de una modalidad. Este enfoque difiere de la mayoría de los estudios de investigación MLE integración, donde los observadores son, invariablemente, pide a hacer juicios sobre único discrepante estímulos multisensoriales. Curiosamente, en estas condiciones nos encontramos con que la magnitud de las transferencias entre modos de efectos no son ni coherentes con una fase obligatoria de MLE integración uncompromised ni con el acceso a las unimodal estimación. Por el contrario, los observadores percepts tasa de caída entre las predicciones de cada estrategia, lo que sugiere que sólo la integración parcial de la información temporal que está ocurriendo. Además, una de las principales ventajas de este enfoque es la facilidad para trazar audiovisual interacciones en una amplia gama de inter-modal discrepancias, revelando una transición gradual entre la señal de integración parcial y segregación total. Basándose en los últimos sugerencias (Ersnt 2005], vamos a desarrollar un simple modelo Bayesiano de audio-visual que representa la integración de estos nuevos descubrimientos. Por otra parte, nos muestran que este enfoque computacional parsimonious pueden utilizarse para predecir el rendimiento de observador en virtud de nuevos estímulos.

2. Métodos y resultados
(a) Observadores

Dos de los autores (NWR y JH) actúan como observadores, junto con uno de los participantes (EGL) que fue completamente ingenuo a los propósitos del experimento. Cada uno tenía normal o corregida a una visión normal y no la pérdida de la audición.

(b) Estímulos

Estimulación visual fue producida utilizando un 14 mm de diámetro luz verde de emisión de diodo (LED), situado 1 m por delante del observador. El LED tiene un máximo de luminancia de 6400 cdm -2 y flickered y fuera en una tasa controlable. Estímulos auditivos fueron blanco de ráfagas de ruido incluidos en la muestra a 8192 Hz y presentó binaurally a través de Sennheisser HD-265 auriculares. Para elaborar un perfil temporal comparable a la de parpadeo estímulo visual, cada ruido revientan fue de modulación de amplitud de una onda cuadrada en torno a un fijo intensidad media (65 dB SPL). Estímulos auditivos se produjeron en una variedad de modulación profundidades, expresada aquí como un múltiplo de cada observador del umbral de detección (inicialmente obtenidos por la medición de la profundidad mínima que podía distinguirse de un no-estímulo con la modulación de 75% de precisión).

(c) unimodal tasa de discriminación

La capacidad de discriminar el tipo de visual o auditiva de modulación se mide en relación con un determinado estándar de 10 Hz. Un intervalo de dos forzada elección del procedimiento empleado, por el que juzga que los observadores de dos intervalos de un segundo figura el estímulo con el ritmo más rápido. El orden de presentación de prueba estándar y se intervalos aleatorios a modo de prueba por prueba. Un método de estímulos constantes se utilizó (siete tipos de test centrado en 10 Hz, 40 juicios por prueba tipo) y psicométricas funciones fueron el modelo de ajuste acumulativo función gaussiana a cada uno de los conjuntos de datos resultante. Separe dirige mide la capacidad discriminativa visual para la modulación y para cada uno de una serie de modulación auditiva profundidades. Como se muestra en el gráfico 1, discriminación auditiva tasa umbrales varían sistemáticamente como una función de la profundidad de modulación. Con mayor profundidad de modulación estímulos auditivos tipo de fallos son más precisas que las sentencias visual. Sin embargo, mediante la reducción de la profundidad de modulación umbrales auditivos podría hacerse a la aproximación visual o superen los umbrales para cada observador. En consecuencia, la manipulación de la profundidad de modulación del estímulo auditivo proporcionado un medio de controlar el equilibrio relativo entre visual y auditiva sensibilidad.

(d) Cross-modal interacciones equipararse con discapacidad auditiva y visual sensibilidad

En cruzada entre modos de condiciones, los observadores estaban obligados a discriminar tipo de información derivada de una modalidad (en tareas pertinentes), haciendo caso omiso de información que se presenta la tasa a los demás (en tareas irrelevantes). En cada caso, los fallos se hicieron en relación con un congruentes bimodal de referencia que comprende estímulo visual y auditivo de modulación a 10 Hz. El conducto auditivo y visual de los componentes de referencia estímulo se presentaron en la primera etapa, de tal forma que los períodos en los que el LED se fueron temporalmente a coincidir con los períodos en los que el estímulo auditivo es más alto. Psicométricas funciones se obtuvieron de una serie de tareas intercalados irrelevante la prueba utilizando los tipos de procedimientos idénticos a los utilizados en las mediciones unimodal. Los cambios en la percepción de la tasa tarea inducida por estímulos irrelevantes-fueron cuantificados por la medición de cambios en el punto de igualdad subjetiva (PSE), el tipo de prueba física necesaria para las tareas pertinentes para la modalidad a ser perceptivamente equivalente a la norma.

Cross-modal datos recogidos por primera vez en condiciones en las que auditivo y visual sensibilidad se equipara. La profundidad de modulación de estímulos auditivos se estableció hasta el momento en que el ajuste exponencial del umbral auditivo de datos en el gráfico 1 se cruza con la línea punteada horizontal indicando visual nivel de umbral para cada observador. Figura 2 muestra los resultados visuales de fallos (símbolos llenos) y auditiva las sentencias (sin cubrir los símbolos) y que muestra elementos estructurales principales fueron sistemáticamente tira encima y por debajo de la frecuencia de referencia, dependiendo del tipo de la tarea de estímulo irrelevante. Por ejemplo, con el fin de visual percibida a la tasa equivalente al estímulo de referencia, física visual parpadeo tasas superiores a 10 Hz son necesarias si se combina con lentitud irrelevante estímulos auditivos y el parpadeo de las tasas de menos de 10 Hz se requiere si se combina con el rápido estímulos auditivos.

El hecho de que los elementos estructurales principales fueron sistemáticamente alterado por un estímulo irrelevante sugiere firmemente que los observadores no fueron capaces de mantener uncompromised acceso a la persona auditiva y visual tasa de estimaciones. Por el contrario, alguna forma de integración de la tasa de información se ha producido. Sin embargo, las magnitudes de los cambios en la percepción de la tasa no son coherentes con la aplicación obligatoria de MLE. Desde auditivo y visual sensibilidad se equipara, MLE se predecir equivalente ponderación de la información de cada modalidad (es decir, una media aritmética simple). La predicción lineal resultante se muestra en la figura 2 a través de una serie de tareas irrelevantes tasas de 2 Hz que abarcan ambos lados de la referencia 10 Hz. MLE-las estimaciones más de la cantidad de cambio en el PSE fuera del tipo de referencia.

Si bien sería obligatorio MLE predecir que el grado de la cooperación transfronteriza, entre modos de distorsión en ambas condiciones sentencia debe seguir aumentando como irrelevante el tipo de estímulo se traslada lejos de los 10 Hz de referencia, esto no es corroborado por los datos (véase el gráfico 2]. En contraste, los efectos en ambas condiciones de visualización concreta de una tolerancia a bimodal tasa de discrepancias. Cambios mínimos en la tasa percibida fueron inducidos por tareas irrelevantes las tasas que eran considerablemente más lento (es decir, 5 Hz) o más rápido (es decir, 15 Hz) que el estímulo de referencia.

Dado que las tasas de discapacidad auditiva y visual estímulos en cada intervalo de prueba se uncorrelated, cross-modal interacciones llegó a un coste global de la exactitud de la tasa de fallos. Como se muestra en la figura 3, tasa de discriminación para los dos umbrales auditivos y visuales sentencias superado los obtenidos bajo condiciones unimodal.

(e) Un simple modelo Bayesiano

Los resultados de nuestra cruzada entre modos de experimentación indican que en la mayoría de condiciones, auditivas y visuales tipo de información ni se fusionarán en un compuesto cálculo de la velocidad de procesado, ni con total independencia de su homólogo en la otra modalidad. Para tener en cuenta estos resultados, aquí estamos aplicar un modelo Bayesiano de integración multisensorial que incluye tanto la incertidumbre acerca de la relación entre la tasa de unimodal estimaciones, así como las estimaciones propias. Damos por sentado que los observadores combinar la información derivada de la ruidosa auditivo (A) y visual (V), con representaciones de conocimiento previo que se ha construido sobre la co-ocurrencia de determinadas combinaciones de auditivo (a) y visual (v) las tasas de inferir la más probable estímulo físico. La posterior distribución de P (a, v | A, V) se especifica la probabilidad de percibir las tasas y una v dado el ruido y las estimaciones A V. Según Bayes' regla general, P ( un , v | Un , V ) = 1 α 1 P ( Un , V | un , v ) P ( un , v ) , donde P (A, V | a, v) indica la probabilidad de que todo auditivo y visual representaciones se vayan a derivar de un determinado estímulo físico; P (a, v) especifica conocimiento previo acerca de la probable correspondencia entre auditivo y visual y las tasas de α 1 es una normalización constante que garantice que la posterior distribución de probabilidad sumas a 1. Partiendo de una pérdida de los mínimos cuadrados función, se puede calcular el óptimo auditivo y visual percepts como el baricentro de las dos dimensiones posterior distribución.

En consonancia con los modelos anteriores, suponemos que el ruido asociado a cada estimación sensorial es independiente y normalmente distribuido. En consecuencia, las distribuciones de probabilidad se pueden derivar de observadores' unimodal tipo de discriminación umbrales (A y σ σ V) de la siguiente manera: P ( Un , V | un , v ) = 1 α 2 e -- 1 2 ( ( Un -- un ) 2 σ Un 2 + ( V -- v ) 2 σ V 2 ) . En la vida cotidiana, concurrente audiovisual señales a menudo, pero no siempre, se refieren a una fuente común. Si bien la integración obligatoria MLE asume perfecta correspondencia entre auditivo y visual tipos (a = v), aquí se incorpora un planteamiento más flexible que refleja antes de esta variabilidad. En concreto, el modelo de distribución de probabilidad antes de la fusión de dos componentes: un «vinculado» que consiste en una función gaussiana de la diferencia entre auditivo y visual tipos, centrada en correspondencia exacta, y un «independiente» que comprende los componentes de una distribución uniforme a través de combinaciones de tasas en cada modalidad, P ( un , v ) = 1 α 3 ( ω + e -- ( un -- v ) 2 2 σ un v 2 ) . El parámetro σ av controla la propagación de la gaussiana componente de identidad en torno a la línea, mientras que el parámetro ω fija el nivel de probabilidad del componente de distribución uniforme en relación con el punto álgido de la gaussiana. Teóricamente, representa el previo conocimiento acumulado sobre la relación entre discapacidad auditiva y visual señales tasa acumulada a través de la exposición repetida a ambas correlacionadas y uncorrelated fuentes en el mundo.

Utilizando el modelo predice los resultados de la cruz-modal tarea se generaron. Para estimar la distribución previa para cada observador, se calcularon los valores de ω y σ av que produce el mejor montaje (mínimos cuadrados residual) predicciones de la combinación visual y auditiva sentencia de datos. Como demuestra la sólida curvas en la figura 2, estas predicciones hacer un trabajo muy superior a la captura de MLE en tanto una idea de la magnitud de la que se observa el efecto de la interacción y la escasa tolerancia demostrado que inter-modal discrepancias.

Para ilustrar los principales componentes y el funcionamiento del modelo, una representación gráfica se muestra en la figura 4. En cada grupo, más ligeros regiones designar mayor probabilidad que los valores más oscuras regiones. Línea (a) muestra una hipotética situación en la que un niño de 9 Hz estímulo auditivo es emparejado con un 11 Hz estímulo visual. La combinación de tasas de física dictados el centro de la función de verosimilitud, según lo indicado por la posición del pequeño círculo de vacantes. La percepción auditiva y visual se calculan tomando el baricentro de la posterior distribución, indicada por la posición del pequeño círculo negro. En el caso de integración completa del conducto auditivo y visual, auditivo y visual percepts se funden de tal manera que esta estimación podría correr a cargo del frustradas identidad línea diagonal. Sin embargo, desde nuestro previo no asume perfecta correspondencia entre el tipo de información en las dos modalidades, predijo la experiencia perceptiva cae en entre la independencia y la integración completa.

Mientras que las combinaciones de auditiva y visual estímulos caída cerca de la línea de identidad, la posterior distribución está dominada por el componente vinculado gaussiana de la previa, producir distorsiones de la percepción de la tasa que aumentará con el grado de discrepancia entre las modalidades. Sin embargo, tal y como se muestra en la fila (b), posterior funciones discrepante estímulos para caer hacia los límites de los vinculados antes de convertirse en cada vez más afectados por el componente independiente, resultando en efectos más pequeños. Nuevo incremento en el grado de discrepancia entre auditivo y visual en última instancia, las tasas de negar la influencia del componente vinculado con anterioridad por completo. Línea (c) demuestra que bajo estas circunstancias, el modelo predice veridical tasa de percepción en ambas modalidades.

Un par de puntos merecen mención aquí. En primer lugar, es importante señalar que sin el uniforme de los componentes anteriores, el modelo sería un fracaso para predecir el ajuste de efectos de interacción en función del tipo de discrepancia. Si uno se para aplicar los vinculados (gaussiana) de los componentes antes de forma aislada, el modelo de producir integración parcial de la tasa de estimaciones. Sin embargo, como con una fase obligatoria de MLE, la magnitud de predecir el efecto de la interacción seguirá siendo una función lineal de la tasa de discrepancia y no se observó la captura de perfiles de tolerancia. En segundo lugar, el éxito de la predicción de los datos experimentales no sería posible si la tasa percepts se obtuvieron a partir de un máximo a posteriori estimación. Debido a la naturaleza compuesta de la anterior, posterior distribuciones de probabilidad formado por el modelo son a veces bimodal. Esto presenta dos problemas: (i) las previsiones de transición entre la integración parcial y la segregación visto cada vez con mayor discrepancia se convierte en abrupta, en vez de gradual y (ii) en algunas condiciones se hace imposible encontrar cualquier combinación de tipos que dará lugar a una percepción de la tasa de 10 Hz en las tareas pertinentes modalidad.

(f) Cross-modal interacciones con desequilibrio auditivo y visual sensibilidad

Después de haber establecido las estimaciones de las distribuciones anteriores para cada observador, el próximo tratado de determinar si el modelo Bayesiano puede predecir el rendimiento de conformidad con las nuevas condiciones de estímulo. Para ello, repetimos la cruz-modal experimento mientras que la manipulación de la precisión de tipo auditivo estimaciones en relación con los formados por el sistema visual. Al igual que con todos los métodos Bayesianos, el modelo indica que la percepción es un compromiso entre la fiabilidad de una estimación particular (representada por la probabilidad) y el previo. La reducción de la precisión de las estimaciones tipo auditivo debe aplanar la probabilidad a lo largo de la dimensión auditiva, lo que hace la percepción más susceptibles a la influencia de antes. Como resultado, el modelo predice que una mayor distorsión de la tasa de fallos auditivos de estímulos visuales que se producen. El aumento de la estimación de precisión debería tener el efecto opuesto, dando lugar a percepts que son menos antes impulsadas (es decir, más veridical).

A partir de la curva exponencial se ajusta auditivo unimodal de datos que se muestran en el gráfico 1, la profundidad de modulación de estímulos auditivos se fijará de tal forma que tipo de discriminación auditiva umbrales eran 50 o 200% visual de los umbrales para cada observador. Cross-modal interacciones fueron medidos independientemente para cada estímulo conjunto, utilizando métodos idénticos a los descritos anteriormente. Para cada observador, predicciones del modelo también se genera con los anteriores parámetros obtenidos en el experimento anterior, junto con la nueva serie de tipo unimodal los umbrales de discriminación. Los datos experimentales y predicciones del modelo para la "mayor precisión auditiva» (A = σ σ 0,5 V) y «menor precisión auditiva» (A = σ σ V 2) las condiciones se muestran en los gráficos 5 y 6, respectivamente. Mientras que PSE funciones de mantener la misma forma característica visto en la anterior cruzada entre modos de experimentar, claro ahora las diferencias son evidentes entre la magnitud de las transferencias entre modos de efectos en auditiva y visual sentencia condiciones. Cuando auditivo precisión se incrementó (figura 5], la distorsión de la percepción de la tasa fue menor para los fallos que auditivo visual sentencias. La reducción de precisión auditiva (figura 6] tuvo el efecto opuesto, dando lugar a grandes distorsiones de la percepción auditiva de tipo visual. Estos cambios en la magnitud relativa de los efectos de interacción se predijo correctamente por el modelo, que ha producido aproximaciones plausibles de la media de datos en cada caso. Algunas salidas de predicciones del modelo se puede ver en los distintos conjuntos de datos (más notablemente de JH en el gráfico 5 y NWR en el gráfico 6]. Sin embargo, estas discrepancias no son sistemáticos a través de observadores y cabe destacar que el pronosticado funciones no implican libre parámetros y por lo tanto no son un «ajuste» de los datos.

3. Discusión

Los experimentos aquí para agregar una gran cantidad de literatura que documentan cruzada entre modos de interacción entre visual y auditiva percepción temporal. Estudios anteriores han encontrado siempre que tales efectos son unidireccionales: percepción visual momento se encuentra para ser jalado hacia ese discrepante de un estímulo auditivo auditivo percibe que el calendario no se vería afectada por discrepante estímulos visuales (Gebhard & Mowbray 1959; Shipley 1964; Myers et al. 1981 ; Welch et al. 1986 ; Shams et al. 2002 ; Recanzone 2003]. Por el contrario, aquí se muestra que se pongan en venta por la sensibilidad relativa de las dos modalidades, las distorsiones de la percepción auditiva tasa puede ser inducido que son equivalentes a las observadas para las sentencias visual. A nuestro entender, esta es la primera demostración de que la cruzada entre modos de interacción entre auditivo y visual tasa de percepción puede ocurrir en ambas direcciones.

Resultados similares han sido reportados recientemente en el dominio espacial, donde se ha demostrado que el dominio visual sobre los fallos de posición se puede atenuar ( Battaglia et al. 2003 ) E incluso revertirse (Alais & Burr 2004] degradantes de la sensibilidad visual. Sin embargo, hay diferencias esenciales entre estos hallazgos anteriores y los que en el presente estudio. Alais & Burr informe que cuando se le preguntó a hacer sola las decisiones sobre la posición ligeramente discrepante audiovisual estímulos, responden los observadores de conformidad con el óptimo cerca de MLE. Es decir, los observadores parecen formar un promedio de las dos estimaciones de posición después de ponderación a cada uno según su fiabilidad. Sin embargo, en el presente estudio nos demuestran que un promedio comparable mecanismo no puede cuenta de los resultados obtenidos cuando los observadores distintas auditivo y visual tasa de fallos. En estas condiciones nos encontramos con que la magnitud de las transferencias entre modos de interacción es considerablemente más pequeño que se prevé de aplicación obligatoria de MLE. Dado que esta diferencia tiene para ambos auditivo y visual fallos, nuestros resultados también difieren del modelo alternativo propuesto por Battaglia y colegas en que la fiabilidad basada en la ponderación se completa con una predisposición hacia una modalidad. Por el contrario, para conciliar nuestros resultados con un simple mecanismo de promedio, uno tendría que suponer que el peso podría ser alterado de manera flexible en cuanto a la integración sesgo hacia la modalidad que cada vez sea pertinente para la tarea a mano. Alternativamente, se podría sugirió que una representación de conmutación de estrategia se está aplicando, en virtud del cual los observadores se alternan entre unimodal utilizando un cálculo de la velocidad en algunos ensayos y un combinado auditivo-visual MLE estimar a los demás. Si bien no hay actualmente suficientes pruebas para descontar estas posibilidades completamente, una explicación más convincente de la presente es que los resultados auditivos y visuales tipo de información son sólo parcialmente integrados. En su apoyo, algunas pruebas para la integración parcial ha sido informado recientemente por un categórico audiovisual tarea ( Shams et al. 2005 ).

Una limitación adicional de carácter obligatorio MLE como un modelo de procesamiento multisensorial es que no cuenta para el hecho de que cruz-a menudo interacciones entre modos de romper cuando la información proporcionada por cada modalidad es altamente conflictiva (Warren & Cleaves 1971; Jack & Thurlow 1973; Recanzone 2003; Bresciani et al. 2005 ). En experimentos anteriores, donde los observadores se han preguntado para hacer único combinado juicios sobre los estímulos multisensoriales, los investigadores generalmente han evitado este problema mediante la introducción de sólo una pequeña, imperceptible discrepancias a lo largo de la dimensión de interés. Desde nuestra diseño experimental no la fuerza de observadores de combinar auditivo y visual la información, hemos sido capaces de medir el efecto de la interacción a través de una amplia gama de discrepancias. Este puesto de manifiesto los perfiles de tolerancia se caracteriza por una transición gradual hacia la segregación de la información sensorial con el aumento de discrepancia. Nuestros datos sugieren que la tolerancia perfiles son relativamente invariante a los cambios en el tipo de sentencia y el equilibrio entre la sensibilidad relativa unimodal.

A raíz de las sugerencias formuladas por Ernst (2005], poner en marcha un modelo Bayesiano deduce que la tasa percibida por la combinación de ruido sensorial estimaciones con conocimiento previo sobre la correspondencia entre las señales en cada modalidad. En contraste con la obligatoria MLE, este enfoque no supone la obligación de integración de información multisensorial. Por el contrario, la experiencia perceptiva puede caer en cualquier lugar a lo largo de un continuo que van desde la completa separación de las estimaciones sensorial para completar la integración. Al asumir previamente que auditivo y visual tasas son a menudo (pero no siempre) equivalente, el modelo capturado con éxito modelos de integración parcial de la auditiva y visual tipo de información a través de una amplia gama de inter-modal discrepancias, así como para condiciones nuevo estímulo.

El conocimiento de la probable aparición de diferentes combinaciones de auditiva y visual tasas es poco probable que sea innata, sino más bien construida a través de amplia experiencia con el mundo ( Adams et al. 2004 ). Co-produciendo auditiva y visual temporal de las señales son a menudo similares, ya que comúnmente se refieren al mismo objeto o externo. Sin embargo, de vez en cuando, uncorrelated señales co-ocurren por azar, donde cada uno procede de una fuente independiente. El enfoque bayesiano dicta que el grado de integración multisensorial se establecerá en proporción directa a la fuerza de la correspondencia entre las señales sensoriales. Alto grado de correspondencia producirá perfectamente sintonizado antes distribuciones y, en consecuencia, dar lugar a importantes integración. Por el contrario, poco frecuente co-ocurrencia entre las señales dará lugar a una amplia sintonía antes de la distribución y la poca o ninguna integración. Esto proporciona una estrategia práctica para lograr un equilibrio entre los beneficios derivados de la integración de las estimaciones derivadas de una fuente común, evitando al mismo tiempo los costes de la integración de las estimaciones derivadas de fuentes independientes.

Además de establecer el grado de integración entre las estimaciones sensorial, conocimiento previo sobre la correspondencia entre las señales sensoriales en el modelo Bayesiano también determina el grado de tolerancia demostrado que entre las discrepancias sensorial. Como era de esperar dado una constante antes de audio-visual tipo de cambio, los perfiles de tolerancia mostrado en el presente estudio muestra poca variación a través de una serie de condiciones de estímulo. Sin embargo, diferentes distribuciones antes sería necesario para reflejar la correspondencia entre otras propiedades estímulo (por ejemplo, posición) o de otras modalidades sensoriales (por ejemplo, visual-táctil), por lo que independiente predicciones sobre los perfiles de tolerancia. El modelo predice que las pautas de fuerte integración inducida por correspondencia estricta entre las señales sensoriales debe ir acompañada por una baja tolerancia hacia sensorial discrepancias. Por el contrario, la mala correspondencia producirá más débil integración más de una gama más amplia de las discrepancias. Los futuros estudios empíricos de prueba estas predicciones en última instancia, nos informe sobre la veracidad de este enfoque.

En el presente estudio, nos hemos centrado únicamente en las discrepancias entre auditivas y señales visuales a lo largo de la sentencia dimensión (es decir, la tasa temporal). Sin embargo, es muy posible que el grado de integración entre la tasa de estimaciones podría también depender de otros factores, como la proximidad espacial de las dos fuentes. Desde nuestra estímulos auditivos se presentaron diotically (misma señal en cada oreja), la percepción de la ubicación de cada sonido se centró en los observadores "línea media, comparable con la posición del LED visual. Sin embargo, auriculares presentación requiere que los sonidos se perciben intracranially (ubicado dentro de la cabeza). A pesar de esta falta de externalización no introducir una forma de discrepancia entre el espacio visual y auditiva estímulos, en experiencias piloto se encontró que los patrones de interacciones efectos son comparables a estímulos auditivos cuando se presentaron a través de un altavoz externo para montar el LED.

¿Cómo podría un modelo Bayesiano de integración multisensorial ser aplicadas en el nivel neural? Tradicionalmente, la integración multisensorial ha sido visto como un feed-forward proceso, en virtud del cual las proyecciones de sensorial-neural específica a las regiones convergen multimodal sitios. Dentro de este marco, es difícil conciliar la manera en que los distintos sensorial estimaciones podrían influir en los demás, y aún se mantienen como entidades separadas. Sin embargo, neuroimagen y estudios fisiológicos han comenzado a socavar la credibilidad de un punto de vista puramente alimentación de avance del sistema, demostrando que los cambios en la actividad cortical en las zonas tradicionales unimodal puede ser inducida por las aportaciones a otros sistemas sensoriales ( Calvert et al. 1997 ; Macaluso et al. 2000 ; Schroeder et al. 2001 ; Fu et al. 2003 ). La modulación de las señales unimodal podría ser mediada a través de proyecciones de retroalimentación multimodal regiones (Driver & Spence 2000; Meredith 2002] o, alternativamente, por las interconexiones directas entre las áreas sensoriales primarias ( Falchier et al. 2002 ; Rockland & Ojima 2003]. En cualquier caso, estos cambios en el procesamiento unimodal podría proporcionar un posible mecanismo mediante el cual la integración parcial de la información sensorial pueda ocurrir. Central Bayesiano a todos los modelos probabilísticos es la representación de la información sensorial y conocimiento previo. Si bien una serie de sugerencias se han hecho en cuanto a cómo estas distribuciones pueden ser aplicadas a un nivel neural (por ejemplo, la tasa de adición, o de su variabilidad, a través de las poblaciones neuronales; ver Knill y Pouget 2004; Witten & Knudsen de 2005, relativo a los últimos comentarios) los mecanismos precisos siguen siendo desconocidas y su esclarecimiento representa un gran desafío en este ámbito.

NWR y PVM son apoyados por el Wellcome Trust. Nos gustaría dar las gracias a David Whitaker para un debate constructivo sobre el proyecto y John Ross y Dennis Levi para hacer comentarios sobre una versión anterior del manuscrito.