Health and Quality of Life Outcomes, 2005; 3: 23-23 (más artículos en esta revista)

La evaluación de la sensibilidad a los cambios: la elección del coeficiente de cambio adecuado

BioMed Central
Paul W Stratford (stratfor@mcmaster.ca) [1], Daniel L Riddle (dlriddle@vcu.edu) [3]
[1] Escuela de Ciencias de la Rehabilitación, McMaster University, Hamilton, ON, Canada L8S 1C7
[2] Departamento de Epidemiología Clínica y Bioestadística, Universidad de McMaster, Instituto de Ciencia Aplicada a la Salud, 1400 Main Street West (4 º piso), Hamilton ON, L8S 1C7, Canadá
[3] Departamento de Terapia Física, el Colegio Médico de Virginia Campus, Virginia Commonwealth University, 1200 East Broad Street, Richmond, VA 23298-0224, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Los últimos 20 años han visto el desarrollo y la evaluación del estado de salud de muchas medidas. A diferencia de los altos estándares exigidos de las personas que informe de conducta y los ensayos clínicos de intervención, el rigor metodológico de los estudios que analizan la sensibilidad al cambio del estado de salud medidas son menos exigentes. Es probable que la falta de un criterio estándar para el cambio en el estado de salud contribuye a esta deficiencia. Para aumentar la confianza en los resultados de este tipo de estudios a menudo los investigadores han calculado los coeficientes de cambio múltiples para el mismo paciente muestra.

El propósito de este informe es identificar el conflicto que surge cuando varios cambios coeficientes se aplican a la misma muestra del paciente.

Tres familias de los coeficientes de cambio sobre la base de diferentes hipótesis sobre la composición de la muestra se han identificado: (1) la muestra es homogénea con respecto a los cambios; (2) subgrupos de pacientes que verdaderamente cambiar por diferentes cantidades existen, (3) los pacientes individuales, muchos de los Quien verdaderamente cambiar por diferentes cantidades existen. Se presentan varios análisis que ilustran un gran conflicto conceptual: la señal (una medida de la verdadera capacidad de detectar cambios) para algunos de estos coeficientes aparece en el plazo de ruido (error de medición) de los otros.

"Creemos que este dilema se produce como consecuencia de la insuficiencia de los trabajos preparatorios, tales como estudios piloto para establecer la probable cambio característica de la población de pacientes de interés. Incertidumbre en la elección del coeficiente de cambio se pueden superar mediante la realización de estudios piloto para determinar el probable cambio característica de la población de interés. Una vez que el cambio característico de la población se identifica, la elección del coeficiente de cambio debe ser claro.

Revisión

En las últimas dos décadas han visto un considerable interés en el desarrollo y la evaluación del estado de salud medidas de resultado [1 - 14]. Aunque la evaluación de la fiabilidad y la validez transversal, es sencillo, el mismo no se puede decir acerca de la evaluación de una medida de la capacidad para detectar cambios. Los investigadores han expresado a menudo la incertidumbre en la elección del diseño del estudio y el análisis, y declaraciones como las siguientes son comunes: "Porque aún no hay acuerdo sobre el diseño óptimo y análisis de las estrategias de respuesta para un estudio, los autores evaluaron la capacidad de respuesta de la FRI y RM-18, utilizando dos métodos "[10];" Una variedad de estadísticas se han utilizado para evaluar la respuesta y no solo uno es superior "[2], y" El propósito de este estudio fue determinar si los diferentes índices De la respuesta proporcionada asimilados órdenes de escalas en términos de respuesta "[5]. Es probable que la ausencia de un estándar de oro para el cambio en el estado de salud juega un papel destacado en el fomento de la incertidumbre en la elección de los análisis. La solución al dilema expresado con frecuencia ha sido la aplicación de un "análisis de escopeta" que hay múltiples cambios coeficientes se aplican a un conjunto de datos [2, 4, 5, 9 - 14]. En este artículo una breve revisión de los diseños destacados estudio y el cambio de coeficientes y, ilustran el conflicto en la aplicación de los coeficientes de cambio de diferentes "familias de métodos analíticos" a los mismos datos.

Deficiencias metodológicas

La sofisticación metodológica y las normas de presentación de informes de los ensayos clínicos de intervención están en marcado contraste con los evidentes longitudinal de la validez de los estudios de sensibilidad a los cambios. Agencias de financiación de ensayos clínicos exigen una clara pregunta de investigación, la prueba - a menudo en forma de un estudio piloto - respaldar el tamaño de la muestra, y un estado justificativo de los análisis. Editores de revistas exigen igualdad de la claridad y el rigor cuando manuscritos relativos a los ensayos clínicos son considerados para su publicación. Con demasiada frecuencia los informes de la sensibilidad al cambio del estado de salud de las diversas medidas parecen ser "los estudios de oportunidad," en lugar de investigaciones cuidadosamente planeadas. Notablemente ausente de muchos estudios son una clara declaración de propósitos, la elaboración de diseño de detalles, entre ellos la medida en que se espera la muestra del verdadero cambio es probable que sea homogénea o heterogénea (que posteriormente se refieren a esto como la muestra característica del cambio), la justificación de la muestra Tamaño, y un compromiso con el más adecuado análisis [2, 5, 6, 9, 11, 14, 15]. La importancia de cambiar la especificación de las características de la muestra es que se dicta la elección del coeficiente de cambio, o por lo menos la familia de la que el coeficiente de cambio serán seleccionados.

Estudio de diseños y características muestra el cambio

Anterior monografías han proporcionado amplias revisiones de los diseños populares de los estudios de sensibilidad a los cambios [16 - 18] y no es nuestra intención repetir estas discusiones. Sin embargo, para crear las condiciones que identificar tres diseños populares y sus correspondientes muestras de los cambios características: (1) los pacientes que realmente se espera que el cambio en aproximadamente la misma cantidad son evaluados en dos puntos en el tiempo [1], (2) dos o Más identificables subgrupos de pacientes que se espera que el cambio de diferentes cantidades son evaluados en dos puntos en el tiempo [19] y (3) los pacientes, muchos de los cuales, se espera que el cambio de verdad por diferentes cantidades son evaluados en dos puntos en el tiempo [ 20]. Para distinguir entre los dibujos y modelos 1 y 3 se refieren a 1 de diseño como homogéneo y Diseño 3 como heterogéneo con respecto a los cambios. Diseño de 2 acciones de las características de los diseños 1 y 3. De conformidad con el Diseño 1 es el supuesto de que en un subgrupo de pacientes que realmente cambio por aproximadamente la misma cantidad y la medida en que se producen diferencias se atribuye al error de medición. Diseño igual que 3, la capacidad de una medida para detectar cierto cambio se refleja por el grado en que la medida es capaz de diferenciar la cantidad de cambio entre las unidades que realmente cambiar por diferentes cantidades. Las unidades son grupos de pacientes de Diseño 2 y los pacientes individuales de Diseño 3.

Aunque los tres diseños de los estudios son conceptualmente simple, la determinación de una muestra característica del cambio es más exigente. Quizás el método más utilizado, en particular para los Dibujos y Modelos 2 y 3, ha sido la retrospectiva mundial de estrellas del cambio [4, 5, 13, 14, 21]. Aquí, en el seguimiento de la evaluación de los pacientes proporcionar su impresión del cambio global, además de completar la medida del interés. Este único punto de cambio de calificación global es usado como el estándar para la evaluación de la medida de la capacidad para detectar cambios. Norman y sus colegas [22] han cuestionado este enfoque en tres aspectos: (1) la noción de que la medición de propiedades de la calificación global único tema son superiores a la medida de varios artículos objeto de la investigación; (2) sentencias de cambio son difíciles y psicológicamente Por lo tanto, sospechoso, y (3) una correlación entre el error de medición y calificación global de la medida objeto de la investigación se infla la verdadera asociación entre las dos puntuaciones. Con respecto al último punto, Norman et al [22], mostró que la retrospectiva mundial de estrellas del cambio puede dar lugar a declarar una medida de respuesta en una muestra de pacientes estables.

Una alternativa a la calificación retrospectiva es el pronóstico de estrellas del cambio [19, 23 - 25]. Este enfoque no está sujeta a errores de recordar o correlación de error, pero depende de la capacidad de los calificadores para estimar con precisión la magnitud de los cambios que pudieran ocurrir. Como su nombre indica, la característica esencial del método de pronóstico de calificación es una declaración a priori de la muestra del cambio de carácter. Estudios de sensibilidad al cambio han aplicado tres diseños utilizando pronóstico puntuaciones de cambio: (1) los ensayos aleatorios de las intervenciones que se conoce la eficacia en comparación con el placebo o intervenciones más débiles [19], (2) los estudios de cohorte, donde un conocido pronóstico variable se utiliza para clasificar a los pacientes En grupos que se espera que el cambio de diferentes cantidades [25] y (3) los médicos cambio previsto asignar puntajes a los pacientes en su visita inicial [23, 24]. Meenan et al [19], en un período de tres grupos (placebo, oral oro, el oro inyectable) ensayo controlado aleatorio, investigó la sensibilidad al cambio de la Artritis Escalas de medida del impacto y varias otras medidas clínicas. De acuerdo con las hipótesis a priori, las medidas de manifiesto un gradiente en los efectos del tratamiento con el oro inyectable grupo que demuestra el mayor cambio y el grupo placebo que muestra menos cambios. Stratford y Binkley [25] aplica una cohorte de diseño donde la historia natural de los pacientes con dolor lumbar se utiliza para estableció dos grupos de pacientes con diferentes características cambio. En concreto, estos investigadores de la teoría de que los pacientes con dolor lumbar de menos de 2 semanas de duración-iba a cambiar más en los posteriores intervalo de 2 semanas de duración superior a la que los pacientes que presentan con dolor lumbar de 2 o más semanas de duración. Westaway et al [23] investigó la sensibilidad al cambio de la Discapacidad Cuello Index (NDI) [26] y funcional de pacientes específicos Escala (PSFS) [27]. Estos investigadores de la teoría de que los médicos avezados' sería capaz de distinguir entre los pacientes que iba a cambiar por diferentes importes a lo largo de un intervalo de varias semanas. En la evaluación inicial de los médicos calificaron los pacientes pronósticos sobre una escala de 5 puntos. Pronóstico puntuaciones fueron en base al juicio clínico solo. Los resultados demostraron correlaciones significativas entre el pronóstico y el cambio de calificación de las medidas de los resultados del cambio.

El diseño de los estudios y sus respectivas familias de métodos de análisis

Estudios de sensibilidad al cambio son ricos con las descripciones de los coeficientes de cambio [2, 5, 6, 9 - 12, 15], que ponemos en los siguientes tres grupos o familias de acuerdo con el diseño del estudio: Diseño 1, sobre la base de los coeficientes de homogeneidad de los pacientes las características del cambio ; (2) Diseño 2, el contraste entre el grupo de coeficientes; (3) Diseño 3, los coeficientes de correlación.

Homogénea paciente cambio

Este diseño y el análisis se basa en la premisa de que la muestra consta de pacientes que se espera que el cambio por aproximadamente la misma cantidad durante el período de estudio. De interés no es lo que representa el cambio - que podría ser la historia natural o la aplicación de un programa eficaz de la intervención -, sino que la cantidad de cambio se espera que sea razonablemente homogénea entre los pacientes. La capacidad de una medida para evaluar el cambio se cuantifica dividiendo el cambio medio (de señal) por la variación en el cambio o muestra características en la línea de base (ruido). La normalización de la respuesta media (SRM = media / desviación estándar de cambio) [1] es un coeficiente de cambio frecuentes asociados con este diseño. Pruebas estadísticas incluyen la prueba "t" pareada y medidas repetidas ANOVA con un factor dentro de los pacientes (ocasión a los 2 niveles: la base de referencia y de seguimiento) y ningún paciente entre los factores. De los tres diseños, esta es considerada como la más débil porque no impugnar una medida de la capacidad de discriminar entre diferentes cantidades de cambio [16, 17].

Composición heterogénea de pacientes: entre el grupo de contraste

Este diseño se basa en la premisa de que la identificación de subgrupos de pacientes que por diferentes cantidades cambio existe. Cambio de los coeficientes de área bajo característica de funcionamiento del receptor (ROC) curvas [18] y Norman S repetir [28]. Los análisis estadísticos de este diseño incluyen la z-estadística para el área bajo una curva ROC [16], t-test para muestras independientes de los medios de las puntuaciones de cambio, medidas repetidas y análisis de la varianza (ANOVA) con un factor dentro de los pacientes (al 2 de ocasión Los niveles) y un factor de agrupación (cantidad de cambio en 2 o más niveles: pequeños cambios, grandes cambios) [28].

Composición heterogénea de pacientes: el contraste entre los pacientes

Al igual que el primer diseño, éste se investiga un único grupo de pacientes. Sin embargo, en lugar de los pacientes que están razonablemente homogéneo con respecto a los cambios, los pacientes se espera que el cambio de verdad por diferentes cantidades. Además, un aspecto fundamental de este diseño es que una norma se aplica externos, el cambio de los resultados que se comparan con los resultados del cambio de la medida de interés. Una medida de la capacidad de detectar el cambio se basa en un análisis de correlación [5, 16, 17].

Problema aclaración

Los investigadores han aplicado con frecuencia análisis y cambio de los coeficientes de las tres familias de las pruebas para la misma muestra de pacientes [4, 6, 9, 11], al parecer sin darse cuenta de que los coeficientes se basan en diferentes y, a veces conflictivas hipótesis sobre la muestra característica del cambio . Por ejemplo, Kopec et al [4] informaron de un estudio en el que se concibió para "determinar si la escala de Quebec (una medida de capacidad funcional de los pacientes con dolor lumbar) es una fiable, válido, y con capacidad de respuesta medida de la discapacidad, en la parte de atrás Dolor, y compararla con otras escalas de la discapacidad. "La muestra fue diversa en la que incluyeron pacientes de clínicas de terapia física, physiatry centros, clínicas de reumatología, la práctica de los grupos familiares, y el dolor clínicas. Pruebas estadísticas incluyeron la prueba "t" pareada, ANOVA de medidas repetidas con un factor de agrupación (cantidad de cambio), y una correlación de los resultados de Quebec cambio con los de una retrospectiva global de estrellas del cambio. Cambio coeficientes incluido el material especificado de riesgo [1], Norman S repetir [28], sin nombre y un coeficiente de correlación. Los tres análisis se aplicaron al mismo grupo de pacientes. A fin de subrayar la teórica conflicto en la aplicación de estos coeficientes a la misma muestra del paciente que enlazará los coeficientes reportados por Kopec et al [4] a través de medidas repetidas y regresión ANOVA tablas.

Ilustrativa comparación de los coeficientes de cambio

Para facilitar el debate, vamos a hacer referencia a los datos mostrados en la Tabla 1. Estos datos representan los resultados de un estudio hipotético en que una medida de estado de salud se administró a 20 pacientes en su base de referencia en la evaluación y el seguimiento de 2 meses más tarde. El investigador cree que los pacientes mejoraría durante este intervalo. También, en la visita de seguimiento los pacientes presentó una calificación global de cambio en una escala de 15 punto (-7 a 7) [21]. Además, el investigador dichotomized la de los pacientes Evaluación global utilizando un recorte de 5 puntos en la calificación global. El investigador no declaró detallada hipótesis a priori acerca de la medida en que los pacientes se espera que el cambio de diferentes cantidades. Tres análisis se presentan: (1) un ANOVA de medidas repetidas con ningún factor de agrupación y 1-dentro de los factores del paciente, (2) un ANOVA con medidas repetidas 1-factor de agrupación y 1 paciente-dentro de los factores, y (3) una correlación de la Medida del cambio de las puntuaciones con las de la retrospectiva mundial de estrellas del cambio. Aunque nuestra ilustración representa un hipotético estudio, el diseño y el análisis son coherentes con el enfoque de Kopec et al [4], y muchos otros estudios en la literatura [6, 9, 12].

Homogénea paciente análisis del cambio

El primer análisis que se presenta es un ANOVA de medidas repetidas con ningún factor de agrupación y 1-dentro de los factores del paciente, la ocasión, a las 2 de los niveles (base de referencia y de seguimiento) [29]. Los resultados de este análisis se muestran en la Tabla 2. El análisis estadístico es equivalente a un par de t-test y el F-valor de 33,49 es igual al cuadrado de la "t" pareada valor. El SRM [1] es, por lo general se define como:

Sin embargo, también puede ser calculada a partir de las repetidas medidas ANOVA muestra en la Tabla 2:

Donde MSO es la media de los cuadrados de ocasiones, MSE es el error medio cuadrático, y n es el número de pacientes.

Composición heterogénea de pacientes: entre el grupo de análisis

Este análisis se basa en un ANOVA con medidas repetidas 1-factor de agrupamiento entre los pacientes en los niveles de 2 (cantidad de cambio: una pequeña cantidad o de una gran cantidad de acuerdo a la dichotomized retrospectiva mundial de estrellas del cambio) y el paciente dentro de la misma agrupación como factor En el anterior análisis [29]. Los resultados se presentan en la Tabla 3. El grupo por la interacción ocasión término representa el grado en que los dos grupos cambiado por diferentes cantidades. F-El valor de esta expresión, F 1,18 = 8,62, es el cuadrado de la t-valor que se hubiera obtenido tuvo un t-test para muestras independientes de los medios basados en las puntuaciones de cambio se aplica. Norman S repetir [28] se calcula a partir de la siguiente información proporcionada en la Tabla 3:

Composición heterogénea de pacientes: análisis de los pacientes

Este análisis representa un cambio de la correlación con las puntuaciones de los pacientes retrospectiva mundial de puntuaciones de cambio. Para mostrar la ubicación de las fuentes de variación, que generó el coeficiente de correlación de un análisis de regresión [30]. Asimismo, proporcionar un análisis intermedio, que reproduce el anterior análisis de subgrupos identificables. Aquí, el "grupo" fue codificada como una variable ficticia (0 o 1): es el cambio de calificación dichotomized muestra en el Cuadro 1. Aviso de que la F-valor en el cuadro 4 es idéntica a la que, para el grupo por motivo interacción plazo señalado en el Cuadro 3. Cuadro 5 presenta los resultados de la correlación de las puntuaciones de cambio con la retrospectiva mundial de crudo puntuaciones de cambio.

Origen de los conflictos entre los análisis

Un examen de la suma de términos cuadrados (SS) en el ANOVA cuadros expone a la deficiencia en la aplicación de estas pruebas para el mismo conjunto de datos. Observe que cuando un ANOVA de medidas repetidas con el factor de la agrupación no se aplica, su SS término de error contiene el grupo por motivo interacción y el plazo residual de error de las repetidas medidas ANOVA con un factor de agrupación. Así, en la medida en que identificar subgrupos de pacientes que existen, su presencia disminuye la magnitud de la SRM: la señal se ha convertido en ruido. El análisis de regresión ponen de manifiesto que este fenómeno se extiende a las situaciones en que los pacientes realmente difieren en sus puntuaciones de cambio. Por otra parte, una comparación de los dos análisis de regresión y coeficientes de correlación demuestra que en la medida de las diferencias individuales en las puntuaciones de cambio verdaderamente existen entre los pacientes, un grupo de análisis entre los menores de estimación de la capacidad de una medida para detectar los cambios.

Razones del "Acuerdo" entre los coeficientes

Una pregunta natural es si la señal de entre el grupo de pacientes y entre las puntuaciones de cambio está contenido en el ruido de la SRM, ¿cómo es posible obtener un coeficiente de cambio que difiere de cero para este análisis? Hay por lo menos tres respuestas.

En primer lugar, los coeficientes pueden no informó verdaderamente diferentes de cero. Esta declaración se basa en la observación de que los coeficientes de cambio son a menudo presentados como estimaciones puntuales [2, 4, 5]. Sin el conocimiento de un intervalo de confianza o prueba de hipótesis, no se puede determinar la probabilidad de que una estimación puntual verdaderamente informado difiere de cero. Como cuestión de los intereses, el 95% intervalo de confianza para la SRM informó de 1,29 en nuestro ejemplo es 0,91 a 1,92, lo que confirma que es muy probable que se diferencia de cero.

La segunda explicación considera que una situación similar a la de nuestros datos cuando el SRM es mayor que cero. Aunque obvio, es importante reconocer que los investigadores interesados en la evaluación de una medida de la capacidad para detectar los cambios seleccionar los pacientes que, en la mayoría de los casos, se espera que realmente mejorar. En consecuencia, el cambio medio para el grupo será mayor que cero, incluso cuando los pacientes se mantienen estables o empeoran. Cuando la media es mayor que cero, el material especificado de riesgo será mayor que cero, incluso cuando los distintos subgrupos de pacientes o cambiar verdaderamente por diferentes cantidades.

La tercera explicación se refiere a la situación en la que la aparente paciente diferencias en las puntuaciones de cambio, representada por una correlación con otra medida, se observó en una muestra de que es verdaderamente homogéneo con respecto a los cambios. En este caso, la premisa de diseño aplicados con más frecuencia por los investigadores es que el cambio en las puntuaciones de la medida objeto de la investigación se correlacionan con los pacientes retrospectiva mundial de puntuaciones de cambio. En la medida en que en la práctica clínica los médicos preguntar pacientes sobre sus percepciones de cambio, esta metodología parece razonable. Sin embargo, la mayor limitación se derivan de este enfoque es que falsamente se infla el coeficiente de correlación observada. Para entender el mecanismo de esta aparente asociación, una breve reseña de la relación y las hipótesis de observar, cierto, las puntuaciones de error y es necesario [31]. En este ejemplo, los resultados observados son los reportados por los pacientes en la medida en virtud de la investigación y la retrospectiva mundial de estrellas del cambio. Es cierto que se desconocen las puntuaciones de los valores que representan los resultados que se obtendría en ausencia de error de medición. Error de resultados son las diferencias observadas entre los resultados y las puntuaciones de verdad. El marco para la comparación de los resultados del cambio de una medida a la calificación global del cambio es paralelo al de las evaluaciones de los mismos atributos. Una premisa fundamental es que la medida del error de las puntuaciones y la calificación global de las puntuaciones de error no son [31]. Sin embargo, es muy poco probable que los resultados son independientes de error cuando un paciente proporciona tanto la medida del cambio de puntuación y la de la calificación global [22]. La consecuencia es que la correlación observada será mayor que cero, incluso cuando la correlación entre los verdaderos resultados es cero.

Conclusión

La falta de un estándar de oro combinado con múltiples coeficientes de cambio ha creado incertidumbre para aquellos que investigar la sensibilidad al cambio del estado de salud. En un intento de aumentar la confianza en la capacidad de una medida para detectar los cambios a menudo los investigadores han informado de cambio múltiples coeficientes derivados de la misma muestra del paciente, la creencia de que ser uniforme entre los coeficientes de resultados se añade a la confianza en los resultados. Nosotros planteamos que este enfoque es incompatible con la teoría: la señal de algunos coeficientes se incluye en el ruido de los demás. Sugerimos que en lugar de calcular los coeficientes de cambio múltiples, una teoría más sólida enfoque consiste en dedicar más trabajo preparatorio para determinar el probable cambio de las características de los pacientes de interés. Una vez que la muestra del cambio característica es establecido, la elección del coeficiente de cambio debe ser claro. Por otra parte, cuando se presenta la oportunidad, los investigadores se les anima a seleccionar el más riguroso de los diseños que no sólo permiten la evaluación del cambio, sino también la impugnación de una medida de la capacidad para diferenciar entre los pacientes o grupos de pacientes que cambian por diferentes cantidades.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

Ambos autores contribuyeron a la conceptualización y la escritura de este manuscrito.