La evaluación de los efectos subgrupo con datos binarios: ¿puede el uso de diferentes medidas de efecto conducir a conclusiones diferentes?
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.
Con el fin de utilizar los resultados de un ensayo aleatorio, es necesario entender si el general observó beneficio o daño se aplica a todas las personas, o si algunos subgrupos recibir más beneficios o daños que otros. Esta decisión se rige por una prueba estadística para la interacción. Sin embargo, con los resultados binarios, las diferentes medidas de efecto interacción diferentes pruebas de rendimiento. Por ejemplo, el Reino Unido Hip ensayo analizaron los efectos del ultrasonido de los lactantes con sospecha de displasia de cadera en la ocurrencia de tratamiento posterior de cadera. Riesgo ratios fueron similares entre los subgrupos definidos por nivel de sospecha clínica (P = 0,14), pero las odds ratio de riesgo y las diferencias entre los subgrupos diferían fuertemente (P <0,001).
Interacción las pruebas sobre las diferentes medidas de efecto difieren porque prueba diferentes hipótesis nulas. Una gráfica de la técnica demuestra que la diferencia surge cuando el subgrupo riesgos difieren notablemente. Consideramos que la prueba de interacción actúa como un control de la aplicabilidad de los resultados de los ensayos incluyeron a todos los subgrupos. La prueba de la interacción, por lo tanto, debe ser aplicada a medida que el efecto es menos probable a priori como para presentar una interacción. Damos ejemplos de la manera de hacerlo.
La elección de la interacción de pruebas es especialmente importante cuando el riesgo de un resultado binario varía ampliamente entre los subgrupos. La interacción de prueba debe ser pre-especificado, y debe guiarse por el conocimiento clínico.
Cualquier ensayo controlado aleatorio, no obstante su apretada criterios de inclusión y exclusión, contrata a personas que difieren en muchos observó incumplido y formas. Diferentes personas rara vez son susceptibles de responder a la intervención exactamente de la misma manera, por lo que el efecto de la intervención dentro de los subgrupos está cuidadosamente definido de interés. Lamentablemente, el análisis de subgrupos dentro de un juicio suele ser suficiente: los resultados suelen tener amplios intervalos de confianza y la falta significación estadística, aun cuando el proceso de intervención es beneficiosa. Además, la repetición de un análisis dentro de varios subgrupos aumenta enormemente el riesgo de falsos positivos resultados [1]. El análisis de subgrupos, por lo tanto, deben ser tratados con cautela, y que "el resultado global de prueba suele ser una mejor guía a la dirección del efecto en subgrupos que el aparente efecto observado en un subgrupo" [2].
Cuando un ensayo resultado es binario, una serie de diferentes medidas de efecto están disponibles [3]: la diferencia de riesgo o beneficio absoluto, que es fácilmente traducido clínicamente relevante en el número necesario a tratar [4], la razón de riesgo, que es ampliamente entendido [5], o la odds ratio, que tiene propiedades estadísticas deseables [6, 7]. Además, la razón de riesgo para los beneficios obtenidos difiere de la razón de riesgo para evitar el daño. Los subgrupos que son idénticas en efecto una de estas medidas no son por lo general idénticos en un efecto diferente medida. Por ejemplo, si el riesgo de intervención mitades en cada subgrupo, y los propios subgrupos tienen diferentes riesgos, entonces las diferencias de riesgo entre los diferentes subgrupos.
Cuando subgrupos tienen diferentes riesgos, es común para estimar un riesgo y, a continuación, utilizando el grupo de control de riesgos en cada subgrupo, para inferir el subgrupo específico de la diferencia de riesgo y el número necesario a tratar [8]. En este enfoque, la estimación de beneficio absoluto de la intervención es proporcional al grupo de control de riesgos. Sin embargo, esto supone el riesgo es igual en los subgrupos. Al tomar una decisión sobre el tratamiento de un paciente en particular, por lo tanto, el médico hace mejor uso de la base, haciendo caso omiso de posibles diferencias en la medida elegida del efecto del tratamiento entre los subgrupos. Es importante contar con herramientas para indicar cuando es inapropiado.
La prueba estadística de la interacción es una herramienta útil en este dilema. En lenguaje estadístico, la interacción es la diferencia entre la intervención de efectos en diferentes subgrupos, y la hipótesis nula es que la intervención es igual efecto en los subgrupos [9 - 12]. Una interacción estadísticamente significativa apoya colocar más peso en subgrupos específicos de los resultados, sobre todo si surge de uno de un pequeño número de la validez de los análisis de subgrupos definidos. Por otra parte, una interacción no significativa sugiere que el ensayo general de los resultados de la intervención deben informar a las decisiones individuales. La importancia clínica y la verosimilitud de los subgrupos específicos de los resultados también se deben tener en cuenta [13].
Es útil para distinguir una interacción cualitativa, en el que la intervención es beneficiosa en un subgrupo pero ineficaces o perjudiciales en el otro, de una escala de la interacción en la que la intervención es beneficiosa en todos los subgrupos (o perjudiciales en todos), pero el grado de beneficio varía [14 ]. Como ejemplo de la interacción cuantitativa, un gran meta-análisis demostró que el tamoxifeno tiene beneficio en el tratamiento tanto de los receptores de estrógeno positivos y los receptores de estrógenos negativos precoz del cáncer de mama, pero que el beneficio es mayor en el primer grupo [15]. Esa clara resultados estadísticamente significativos son raros en juicios individuales.
Cuando el resultado es binario juicio, el debate de las interacciones se complica aún más por la variedad de posibles medidas de efecto. Pruebas de significación en el efecto global de intervención no se ven afectadas por la elección de la medida, pero la existencia y la fuerza de las interacciones dependen de la medida de efecto utilizan [16]. Cuantitativo interacciones pueden ser destituidos por lo general cambios en el sentido de medir, pero las interacciones cualitativo no se puede eliminar de esta manera.
Estamos estudiando estas cuestiones en el contexto del Reino Unido Hip juicio [17]. Este ensayo pretende demostrar que el ultrasonido diagnóstico en el manejo de los lactantes con sospecha de displasia de cadera reducción general de tratamiento (principalmente entablillado) sin el riesgo de duplicar el tratamiento. Tenga en cuenta que el tratamiento es un resultado de este juicio. Los resultados se informaron como riesgo ratios para comparar el tratamiento con ultrasonido no ultrasonido. Los riesgos observados fueron 21/314 (7%) y 25/315 (8%), respectivamente, por lo que el coeficiente de riesgo global fue 0,84 con un intervalo de confianza del 95% de 0,48 a 1,47, lo que sugiere que el riesgo de que el tratamiento no fue duplicado. En el cuadro 1 se esta razón de riesgo para el tratamiento que se denomina "riesgo de daño".
Los lactantes se dividía en dos subgrupos definidos por nivel de sospecha clínica antes de la asignación al azar: la fuerte sospecha, que se define como "suficientes para justificar principios de la profilaxis entablillado", moderada o sospecha, que se define como "suficientes para justificar un examen más especializado". La razón de riesgo moderado para el subgrupo de la sospecha (Tabla 1] tiene un intervalo de confianza del 95% que incluye una duplicación del riesgo de fallo del tratamiento. Sin embargo, las relaciones de riesgo no son significativamente diferentes en una prueba de la interacción (P = 0,35). Esto sugiere que se utilice el riesgo relativo de 0,84, con su límite de confianza superior de 1,47, tal como se aplican a ambos grupos.
Alternativas basadas en el análisis de otras medidas de efecto se muestran en las tres últimas columnas del cuadro 1. El riesgo de tasas de beneficio (los cocientes de riesgo para evitar el tratamiento) son cerca de 1, porque el resultado es caso raro. Por la misma razón, la odds ratio es numéricamente similar a la razón de riesgo. La diferencia de riesgo es numéricamente muy diferentes. Sin embargo, las cuatro medidas de efecto dar muy similares niveles de significación en la interacción de prueba.
Una segunda medida de resultado en el Reino Unido Hip juicio fue la aparición de cualquiera de cadera tratamiento (Tabla 2]. Sospecha clínica es un fuerte factor pronóstico para este resultado: en el ultrasonido no-brazo, el 97% de la fuerte sospecha de grupo, pero sólo el 32% de los moderados sospecha grupo recibió tratamiento de cadera. Las relaciones de riesgo, las diferencias de riesgo y todos los odds ratios muestran un mayor efecto en la fuerte sospecha de subgrupo. Sin embargo, el riesgo de daño ratios no difieren significativamente entre los subgrupos y, sin embargo, el riesgo de tasas de beneficio, las diferencias de riesgo y de la odds ratio de todos han altamente diferencias estadísticamente significativas entre los subgrupos.
Interacción las pruebas sobre las diferentes escalas se diferencian porque son distintas pruebas de hipótesis nulas. En el Reino Unido Hip juicio, el ultrasonido redujo el riesgo de cualquier tratamiento de cadera de 97% a 68% en el grupo fuerte de la sospecha. Bajo la hipótesis nula de un régimen común de riesgo para el tratamiento de cadera, el 32% en riesgo moderado de la sospecha grupo se reduciría al 23%, pero la hipótesis nula de un régimen común de la diferencia de riesgo implica una reducción de 4,1%, y la hipótesis nula De un odds-ratio común implica una reducción de 3,5%. La reducción observada al 28% sólo es compatible con la hipótesis nula de una razón de riesgo. Una razón de riesgo para evitar la cadera tratamiento no es posible, ya que el riesgo es de más de 9 en la fuerte sospecha de grupo, y multiplicando el 68% del riesgo de evitar el tratamiento de cadera en el grupo fuerte de la sospecha por 9 daría lugar a un riesgo más 100%.
Un gráfico de la fracción evento en el grupo de ultrasonido en contra de la fracción en el caso de no grupo es útil la ecografía (Figura 1] [18]. Puntos por debajo de la línea diagonal con una menor fracción evento en el grupo de ultrasonido. Los grandes puntos representan los resultados de los dos subgrupos. La línea curva indica que los resultados tienen la misma razón de posibilidades como la fuerte sospecha de subgrupo, mientras que otras líneas de mostrar los resultados que tienen la misma diferencia de riesgo o de riesgo. La moderada sospecha subgrupo se encuentra más cercano a la línea común de una razón de riesgo de daño. Es evidente que, de la figura 1 que la elección de la medida de efecto que más importa cuando el subgrupo riesgos difieren notablemente.
Desde las cuatro pruebas de la interacción puede variar notablemente, es importante hacer una elección cuidadosa. Un enfoque intuitivo es llevar a cabo el análisis de la interacción en la misma escala en que los resultados se deben presentar [19]. Por ejemplo, los resultados de los ensayos clínicos son a menudo presentadas en la razón de riesgo de daño escala, por lo que el análisis de la interacción pondría a prueba la igualdad de estas relaciones de riesgo. Sin embargo, hay otras consideraciones.
Deeks debatió la selección de un efecto o medida estadística de resumen en el meta-análisis [16]. Su objetivo era encontrar un resumen estadístico de que es más plausible en la igualdad de todos los juicios, incluidos los del grupo de control con diferentes riesgos, a fin de predecir mejor el beneficio de tratamiento para los diversos tipos de pacientes. Una forma es seleccionar un efecto para el que la medida de subgrupos específicos de los resultados son comparables, ya juzgar por la interacción de prueba. En el meta-análisis, en el sentido de minimizar la medida Q (heterogeneidad) se podría utilizar la estadística. El uso de este enfoque en el Reino Unido Hip juicio, los resultados de cualquier tratamiento de cadera que se ha informado sobre la razón de riesgo de daño escala, independientemente de lo que se había previsto. Sin embargo, Deeks argumenta que se trata de un problema típicamente con el pequeño número de ensayos en un metanálisis. En lugar de ello, la elección de la medida de efecto clínico debería utilizar tanto los conocimientos y datos empíricos. Por ejemplo, dada la opinión de que la clínica beneficio absoluto es probable que sea mayor en aquellos con mayor riesgo, el riesgo de daño parece la mejor medida de efecto. Empíricamente, Deeks muestra que el riesgo de daño y de la odds ratio con mayor frecuencia son homogéneos entre los ensayos que la razón de riesgo para el beneficio y la diferencia de riesgo, el apoyo a su uso más amplio.
Deeks' argumentos se aplican a meta-análisis, y no se aplicaría a ellos el análisis de subgrupos dentro de los ensayos clínicos. En lugar de ello, consideramos que la interacción pruebas como un control sobre la aplicabilidad de los resultados del ensayo incluyó a todos los subgrupos. Los investigadores comienzan con la creencia de que todos los subgrupos contratados para el juicio han cualitativamente similares respuestas a la intervención. Es razonable mantener la creencia de que si se puede demostrar que sea coherente con los datos. Por lo tanto, proponemos que los investigadores deben identificar los efectos medida que es más probable que sea similar entre los subgrupos. Mediante esta medida, especificando cuidadosamente con antelación, se aseguren de que la prueba ha interacción máxima validez científica.
Por ejemplo, supongamos que los investigadores diseñar el Reino Unido Hip juicio había pronosticado que el 95% y el 30% de los dos subgrupos que reciben tratamiento en la ausencia de la ecografía. Podrían entonces han preguntado si la reducción de la proporción de ultrasonido en el primer subgrupo de 95% a 70%, lo que es probable efecto en el segundo subgrupo? Una reducción del 95% al 70% representa una razón de riesgo de daño de 0,74, que se reduciría de 30% a 22% en el segundo subgrupo. Una reducción de 95% a 70% también representa una odds ratio de 0,12 y una diferencia de riesgo de 25 puntos porcentuales, que en ambos casos (por coincidencia) se reduciría de 30% a 5% en el segundo subgrupo. Una razón de riesgo comunes para la prestación es imposible con estos números, como se señaló anteriormente. La elección entre estas posibilidades se basará en los investigadores de los conocimientos y la experiencia. Si los investigadores creían que todos los niños son igualmente capaces de ser salvado de tratamiento, y luego una razón de riesgo de daño sería plausible. Si por el contrario la más baja tasa de tratamiento en el segundo subgrupo implica menos patología y, por tanto, mayores posibilidades de evitar el tratamiento, y luego una odds ratio puede ser más plausible.
Como otro ejemplo, considere la posibilidad de un juicio de una intervención comunitaria para promover la vacunación. Supongamos que la espera no vacunados fracciones en dos subgrupos son el 20% y el 80% sin la intervención, y que la intervención se espera reducir a la mitad la fracción no vacunados en el primer subgrupo. Si la diferencia entre los subgrupos se debe a una falta de las anteriores campañas de vacunación, entonces todos los individuos no vacunados serían igualmente susceptibles de ser vacunados en virtud de la intervención, por lo que el segundo subgrupo se vea una reducción del 40% - una razón de riesgo de 0,5. Pero si la diferencia entre los subgrupos se deriva del segundo subgrupo de mayor sospecha de la vacunación, entonces probablemente su reducción sería menor - quizás a la cifra del 64%, lo que representa una odds ratio de 0,44.
Nosotros por lo general prefieren primaria resultados que se presentan en la escala seleccionada para la interacción de pruebas. Si bien puede ser apropiado presentar subgrupos específicos de los resultados en una escala diferente, no sería correcto utilizar esa escala para una sola medida de resumen sobre todo el juicio. Por ejemplo, los subgrupos con igualdad de las odds ratio de la desigualdad por lo general tienen relaciones de riesgo, por lo que una única razón de riesgo resumen en la forma propuesta por Zheng y Yu [20] sería, en general, es inadecuado. Así como una sola razón de riesgo pueden ser utilizados para calcular las diferencias de riesgo independiente o números necesarios a tratar, por lo que una odds-ratio común podría ser utilizado para calcular los riesgos equipados en todos los subgrupos y, por tanto, apropiado para calcular el riesgo relativo, las diferencias de riesgo o los números necesarios a tratar .
Por último, la elección de la medida de efecto de la interacción de prueba es importante porque puede afectar a las conclusiones sobre la aplicabilidad de los resultados de un ensayo clínico a todos los subgrupos. Esta elección debe ser especificado antes de análisis de datos. El mejor lugar para hacerlo es en un protocolo de prueba o plan de análisis estadístico.
Una prueba estadística de la interacción es importante para decidir si el conjunto de resultados de un ensayo aleatorio se aplican a todos los subgrupos. Cuando el resultado es binario, el efecto de diferentes medidas puede dar lugar a resultados muy diferentes en la prueba de interacción. La elección de la medida de efecto para la prueba de interacción, deberían especificarse antes del análisis de los datos. La mejor opción para medir los efectos de la prueba de la interacción es que los investigadores creen que es más probable que sea similar entre los subgrupos.
DE recibido financiación del Departamento de Salud, a través del Consejo de Investigación Médica, para el Reino Unido Hip Trial [17]. Aparte de ello, ninguno de autor tiene un interés en competencia.
La idea original surgió en el debate entre los autores. IRW escribió el primer proyecto. Ambos autores contribuyó posteriormente a los proyectos y aprobó la versión final.
La historia previa a la publicación de este documento puede accederse en:
Damos las gracias a Simon Thompson, MRC Unidad de Bioestadística, y Chris Frost, la Escuela de Londres de Higiene y Medicina Tropical, por sus comentarios sobre versiones anteriores de este documento.