Epidemiologic Perspectives & Innovations, 2006; 3: 2-2 (más artículos en esta revista)

Análisis causal de datos de casos y controles

BioMed Central
Stephen Newman C (stephen.newman @ ualberta.ca) [1]
[1] Departamento de Psiquiatría, Mackenzie Centro de Ciencias de la Salud, Universidad de Alberta, Edmonton, Alberta, T6G 2B7, Canadá

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

En una serie de documentos, Robins y colegas describen inverso de la probabilidad de tratamiento ponderado (IPTW) en la estimación de los modelos estructurales marginales (MSMs), un método de análisis causal de los datos longitudinales sobre la base de principios contrafactual. Esta familia de técnicas estadísticas es similar en concepto a la ponderación de los datos de la encuesta, excepto que los pesos se calculan utilizando datos de estudios en vez de definirse a fin de reflejar el diseño y la toma de muestras después de la estratificación a una población externa. Varias décadas atrás Miettinen descrito elemental método de análisis causal de caso-control de los datos basados en la estandarización indirecta. En el presente trabajo se Miettinen ampliar el enfoque utilizando ideas estrechamente relacionadas con IPTW estimación en MSMs. La técnica se ilustra con datos de un estudio caso-control de los anticonceptivos orales y el infarto de miocardio.

Introducción

En una serie de documentos, Robins y colegas describen inverso de la probabilidad de tratamiento ponderado (IPTW) en la estimación de los modelos estructurales marginales (MSMs) [1 - 7], un método de análisis causal de los datos longitudinales sobre la base de principios contrafactual. Esta familia de técnicas estadísticas es similar en concepto a la ponderación de los datos de la encuesta, excepto que los pesos se calculan utilizando datos de estudios en vez de definirse a fin de reflejar el diseño y la toma de muestras después de la estratificación a una población externa. Varias décadas atrás Miettinen [8] se describe elemental método de análisis causal de caso-control de los datos basados en la estandarización indirecta. En el presente trabajo se Miettinen ampliar el enfoque utilizando ideas estrechamente relacionadas con IPTW estimación en MSMs. Por simplicidad ignoramos hasta que el error aleatorio ejemplo ilustrativo.

Basado en la población sobre la incidencia estudio de casos y controles

Considere la posibilidad de una población basada en estudio de casos y controles que tengan una incidencia de diseño, es decir, un incidente en el que sólo los casos son elegibles para la contratación. Vamos E ser una variable dicotómica (0: ausente, 1: actualidad) en representación de la exposición de los intereses, y dejar que F polychotomous ser una variable (i = 0,1, ..., I), que posteriormente, tratar como un factor de confusión. En cualquier momento el punto que pueden pensar de la población en que se compone de expuestos y no expuestos (sub) poblaciones. Supongamos que el reclutamiento de casos y controles se lleva a cabo durante un período de T años. Suponemos que durante el período de contratación de las poblaciones expuestas y no expuestas son estacionarias (es decir, independiente del tiempo) con respecto al tamaño de la población y la tasa de incidencia (de la enfermedad) en cada uno de los estratos de la F [9]. A condición de que T no es demasiado grande, decir no más de dos o tres años, esta hipótesis es probable que se cumplen en la práctica aproximadamente.

Deje N 1i 1i ser el número de personas que en el on on estrato de la población expuesta, que son libres de la enfermedad (en cualquier momento durante el período de contratación), y dejar que 0i N 0i ser el número correspondiente en el estrato on de la no expuestas Población. Vamos Y . Por lo tanto en cualquier momento durante el período de contratación, hay expuestos N 1 y N 0 personas no expuestas en la población "en riesgo" de la enfermedad, por lo tanto, con derecho a ser los controles. Dado que la población es estacionaria, es posible suponer que los controles son seleccionados al final del período de contratación. Esto evita las molestias de tener un control de determinados principios en el estudio convertido en un caso más adelante. En la práctica, los controles suelen ser la muestra durante todo el período de contratación, con uno o más controles inscritos como cada caso entra en el estudio. El caso de activar esta actividad y de los controles puede ser pensado como un conjunto combinado, donde la concordancia es variable "tiempo". Este método de la contratación de materia es un tipo de riesgo establecidos de muestreo y, en teoría, debe ir seguida de Condicional análisis estadístico [10]. En general, coincidentes en el tiempo es ignorado en el análisis de casos y controles de datos, que en la práctica no es diferente de lo que la hipótesis de población estacionaria.

Let R 1i 1i y R 0i 0i ser los índices de incidencia (de la enfermedad) en el estrato on on de las poblaciones expuestas y no expuestas, respectivamente. El crudo tasas de incidencia son

Y

El impacto de la exposición puede medirse utilizando el coeficiente de normalización de la morbilidad, que tiene diferentes formas, dependiendo de la elección del estándar de la población [11]. Tomando la población estándar a ser, a su vez, la expuesta, no expuestas, y el total (más expuestos no expuestos) las poblaciones, las correspondientes tasas de morbilidad son normalizados

Y

Ahora opinión de la población abierta como una cohorte (dinámico) que se sigue en el período de contratación, con la aparición de enfermedades como el punto final de interés [12]. Entrada en la cohorte se produce, por ejemplo, como resultado de la natalidad y la inmigración, y la censura se produce cuando, por ejemplo, es la emigración y la muerte por una causa distinta de la enfermedad de interés.

Muestreo aleatorio simple

Supongamos que los casos y los controles se muestrearon mediante muestreo aleatorio simple. Γ λ y dejar que sea el muestreo probabilidades de casos y controles, respectivamente, es decir, γ es la proporción de casos elegibles inscritos en el estudio durante el período de contratación, y λ es la proporción correspondiente de los controles. Suponemos que estas son también las probabilidades de muestreo en cada uno de los estratos de E × F, la clasificación cruzada de E y F. Se desprende de la población estacionaria supuesto de que durante el período de contratación del número de años-persona experimentada por los individuos en el estrato on on que están expuestos y el riesgo de enfermedad es N 1i 1i T. El número correspondiente de los casos (incidente) es de R 1i 1i N 1i 1i T, con un 1i 1i = γ γ R R 1i 1i N 1i 1i T de ellos reclutados en el estudio. Asimismo, el número de casos reclutados en el estudio entre los individuos en el estrato on on y no expuestas que están en riesgo de la enfermedad es un 0i 0i = γ γ R R 0i 0i N 0i 0i T. En vista de los comentarios realizados anteriormente, b 1i 1i = N λ λ N 1i 1i expuestos y b 0i 0i = N λ λ N 0i 0i no expuestas controles serán reclutados en el estudio de la on estrato. Tabla 1 se resumen estas observaciones.

Se desprende de la Tabla 1 que

Y

Lo que demuestra que SMR E, SMR y SMR T U se puede estimar a partir de la incidencia de casos y controles de datos [13 - 15]. Tenga en cuenta que en ninguna parte hemos hecho el supuesto de enfermedad rara.

Estamos interesados en medir el efecto causal de la exposición en la cohorte expuesta contrafactual usando métodos [16 - 21]. Para lograr esto nos imaginamos el grupo de individuos expuestos en la cohorte antes de la exposición y considerar dos escenarios: en la primera, la exposición se produce posteriormente (como lo hace en la realidad), en el segundo, la exposición no ocurre. El segundo escenario es contrafactual, ya que se basa en la hipotética condición de que la exposición no tiene lugar, cuando en realidad lo hace. En contraste los resultados que se deriven de los dos escenarios nos permite definir los parámetros con una interpretación causal. Esto se debe a que estamos (en teoría) que comparaban dos grupos de individuos que son idénticos, salvo en el estado de exposición. La tasa bruta de incidencia correspondiente a la primera hipótesis es R 1. Denota la tasa bruta de incidencia de la segunda hipótesis por R * 1. A pesar de que la segunda hipótesis es contrafactual, es posible, siempre que se cumplan determinados supuestos, para calcular R 1 *, como se explica a continuación.

En la práctica, la cohorte no expuesta, y no en virtud de la cohorte expuesta la de la condición, se utiliza con fines comparativos. En la medida en que las dos tasas de incidencia asociados, R 0 y R 1 *, difieren, decimos que hay confusión. Más precisamente, la de la definición de los estados de confusión que de confusión está presente si y sólo si R 0 R1 * [16 - 21].

Ahora hacer dos supuestos: (1) E no "afectar" F (en particular, F no es una vía de causalidad entre la enfermedad y E), y (2) no hay confusión (de acuerdo con la de la definición ) En los estratos de la F. Utilizando argumentos análogos a los de [21] y [22], hemos

Dado que no existe una confusión en los estratos de la M, de confusión, cuando está presente, es decir, R0 * R 1, que atribuye a F y decir que F es un factor de confusión. Se desprende de (1), (2) y (4) que

Lo que demuestra que, en virtud de los dos anteriores supuestos, SMR E tiene una interpretación causal.

Siguiendo el criterio de Matsuyama y Sato [11], que asigna a cada tema expuesto en el estrato on on el peso 1, y cada uno de los sujetos no expuestos peso b 1i 1i / b 0i 0i. Nos referimos a estos como los pesos empírica pesos. Tenga en cuenta que b 1i 1i / b 0i 0i es la probabilidad de que un control en on estrato está expuesto. Del Cuadro 2, lo que da cuenta de casos y controles después de la aplicación de estos coeficientes de ponderación, vemos que SMR E puede interpretarse como un odds-ratio ponderado. En consecuencia, en el caso de control de ajuste denotamos por E SMR sOR sOR y se refieren a ella como la normalización de odds ratio.

Vamos

Y n i 1i 1i = a 0i 0i + a + b 1i 1i + b 0i 0i. Es fácilmente demostrado que sOR sOR como dado por (3) y el de Mantel-Haenszel odds ratio estimación O MH [23] se puede expresar como suma ponderada de la O i:

Estas expresiones se diferencian sólo en la medida en que las magnitudes relativas de los b 0i n i 0i y varía en los diferentes estratos. Para los estudios de casos y controles en los que los controles no expuestas constituyen la mayoría de los temas, sOR sOR O MH y se estrecha en valor.

Se señaló por Groenlandia [15] O que MH no tiene una interpretación epidemiológica cuando hay efecto la modificación. Esto se debe a que el estrato de los pesos en (6) no reflejan una reconocible población objetivo. Con sOR sOR la población objetivo está claramente especificado (es decir, la población expuesta), y así sOR sOR tiene una interpretación causal incluso en la presencia de efecto de la modificación. Esto es ventajoso en una serie de ajustes. Considere la situación familiar en la que, después de la estratificación por uno o más de confusión, el estrato específico odds ratio estimaciones, que no presentan un patrón, o de las diferencias en estas estimaciones se pueden distinguir en motivos estadísticos, pero no son de ninguna importancia práctica. Cuando esto ocurre es conveniente recurrir a un odds ratio combinada estimación, aunque puede ser modificada en la actualidad.

Muestreo aleatorio estratificado

Let G polychotomous ser una variable (j = 0, 1, ..., J), y supongo que los casos y los controles se muestrearon mediante muestreo aleatorio estratificado basado en los estratos de G. Let γ λ j j y la toma de muestras se probabilidades de casos y controles en el jth jth estrato, respectivamente. Suponemos que estas son también las probabilidades de muestreo para la población expuesta y no expuesta en el jth jth estrato. Correspondiente a los cuadros 1 y 2 tenemos los cuadros 3 y 4, del que se infiere que

En virtud de un muestreo aleatorio estratificado, asignamos cada objeto expuesto en el estrato ijth ijth el peso (empírica) 1 / γ j, y cada uno de los sujetos no expuestos peso 1ij 1ij b / j γ b 0ij 0ij. Al igual que antes, en el contexto de casos y controles denotamos por E SMR sOR sOR.

VSV-IPTW enfoque

Cuando existe más de una confusión, los datos pueden ser estratificados de acuerdo a su clasificación cruzada y el método utilizado anteriormente. Sin embargo, esto puede dar lugar a células pequeñas o con cero entradas, por lo que la inestabilidad de las estimaciones. Un estadísticamente más eficiente alternativa es adoptar el enfoque MSM-IPTW y obtener las ponderaciones (de los controles) de un análisis de regresión logística de control de datos, donde E es la variable dependiente y la confusión (de la E-asociación con la enfermedad), son los independientes Variables. Nos referimos a estos como ponderaciones los pesos de regresión.

En virtud de muestreo aleatorio simple, el peso de cada objeto expuesto es igual a 1, y el peso de cada tema no expuestas se considera la odds equipado para esa persona. Por muestreo aleatorio estratificado, el análisis de regresión logística de los datos de control deben incluir la variable de estratificación. En el jth jth estrato, el peso de cada objeto expuesto es igual al recíproco de la probabilidad de muestreo, y el peso de cada tema no expuestas se considera la odds equipados para que los distintos multiplicado por el recíproco de la probabilidad de muestreo.

Una vez que la regresión de los pesos se han calculado, la odds ratio para la exposición de asociación con la enfermedad se estima de un ponderado análisis de regresión logística mediante la estimación de ecuaciones generalizadas (GEE) [24], donde E es la única variable independiente. Como se señaló por Hernán et al. [6], se ha demostrado por Robins [1, 2], que para los datos longitudinales donde no hay confusión y, cuando no una cierta positividad hipótesis se cumple, el GEE enfoque ponderado asintóticamente produce una estimación objetiva de la causal parámetro. Dependiendo del software utilizado para el análisis de GEE, puede ser necesario a la escala de pesos de tal manera que su suma es igual en todos los casos el número real de casos, así como para los controles.

Ejemplo

El cuadro 5 presenta los datos de incidencia de un estudio de casos y controles de los anticonceptivos orales (CO) y el infarto de miocardio (MI) [25]. Estamos interesados en medir el efecto causal de la utilización de anticonceptivos orales sobre el infarto de miocardio en mujeres que toman esta medicación, es decir, la población objetivo son las mujeres tomando anticonceptivos orales. A los efectos de ilustración, suponemos que la edad (AGE) y los cigarrillos (CIG) son suficientes para el control de confusión y que no hay errores de clasificación o cualquier otra fuente de sesgo.

En primer lugar, hemos realizado un análisis de regresión logística, con un IM como la variable dependiente y OC, AGE y CIG como las variables independientes. Como señaló Groenlandia y Maldonado [26], existen problemas de identificación de la población objetivo al utilizar el análisis de regresión logística estándar. Modelos eran aptos utilizando EGRET [27]: la significación estadística de cada uno de los términos se determinó a través de la prueba de razón verosimilitud, y de la bondad de ajuste estadístico G 2 se basa en la desviación. Por motivos puramente estadísticos el mejor modelo ajustado y había principales efectos de OC, AGE y CIG, junto con la interacción plazo EDAD × CIG (G 2 = 12,0, df = 8, p = .15). El odds ratio para la estimación OC-MI asociación fue 2,82 (95% intervalo de confianza [IC]: 1.70,4.68). De la nota, la de Mantel-Haenszel odds ratio estimación, MH OR = 2,82 (95% CI: 1.70,4.69), es prácticamente idéntica a la estimación de regresión logística. O MH El intervalo de confianza se basa en la estimación de la varianza descrito por Robins, Breslow y Groenlandia [28, 29]. El modelo con efectos principales de OC, AGE y CIG, junto con la interacción plazo OC × CIG también se ajustaba a los datos bastante bien (G 2 = 17,4, df = 10, p = .068). Dado que el uso de anticonceptivos orales es la exposición de interés, es razonable - por razones de fondo - que considerar esto como la "final" modelo. Si es así, debido a la OC × CIG interacción, el modelo ya no se ofrece un resumen de la estimación de la odds ratio para la OC-MI asociación.

A continuación, se realizó un análisis utilizando el enfoque IPTW-MSM. Para obtener las ponderaciones de regresión, un modelo de regresión logística análisis de los datos se realizó el control, con la CO como la variable dependiente, y con la edad y la CIG como variables independientes. El mejor modelo ajustado y sólo tienen un efecto principal de AGE (G 2 = 5,06, df = 6, p = .54). Luego realizó un análisis de regresión logística ponderada utilizando la estimación de ecuaciones generalizadas, con un IM como la variable dependiente y OC como única variable independiente. Después de Hernán et al. [4] y Sato y Matsuyama [11], los cálculos se realizaron mediante el procedimiento de SAS PROC GENMOD [30]. El odds ratio para la estimación OC-MI asociación fue 3,34 (95% IC: 2,15, 5,21). Curiosamente, cuando empírica pesos se utilizaron en lugar de los pesos de regresión, la estimación de odds ratio (que es igual a sOR sOR) fue 2,83 (95% CI: 1.82,4.41). Esto es muy cerca de la razón de posibilidades y el intervalo de confianza estimaciones basadas en el estándar de la regresión logística y análisis de Mantel-Haenszel.

Discusión

La de la definición de la confusión conceptual representa un importante avance respecto de las formulaciones anteriores de la confusión. Trabajo en el marco contrafactual, Robins y colegas desarrollado inverso de la probabilidad de tratamiento ponderado en la estimación de los modelos marginales estructurales para el análisis de datos longitudinales [1 - 7]. Aunque destinado principalmente a el problema de la función del tiempo de confusión, este método es válido cuando de confusión son independientes del tiempo.

La ampliación de la labor de Miettinen [8], en este artículo presentamos un método de análisis causal de caso-control de los datos que está estrechamente relacionada con la estimación IPTW en MSMs. Consideramos que sólo estudios de casos y controles realizado en una población estacionaria. Siempre que el período de tiempo durante el cual se realiza el estudio no es demasiado largo, puede ser razonable respecto a la población en, al menos, aproximadamente estacionario. Ya sea estrictamente válido o no, la población estacionaria hipótesis parece ser habitual - por lo general implícitamente - en estudios de casos y controles se llevan a cabo. Una alternativa es adaptar los controles a los casos de contratación a tiempo los riesgos de muestreo conjunto [10] y realizar un análisis de los datos condicional. Bajo el supuesto de enfermedad rara, la aproximación de las estimaciones de parámetros pueden ser obtenidos mediante el CSM-IPTW enfoque [7].

Declaración de intereses

Los autores declaran que no tienen intereses en conflicto.

Agradecimientos

El autor agradece Dr James Robins útil para los debates.