Epidemiologic perspectives & innovations : EP+I, 2005; 2: 7-7 (más artículos en esta revista)

Presentación de informes de incidencia de un sistema de vigilancia con una definición de caso operativa desconoce el valor predictivo positivo

BioMed Central
Scott R Kegler (skegler@cdc.gov) [1]
[1] Oficina de Estadísticas y Programación, Centro Nacional para la Prevención y Control de Lesiones, Centros para el Control y Prevención de Enfermedades, 4770 Buford Highway, NE, Mailstop K59, Atlanta, GA 30341-3724, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Cuando se informe sobre las estimaciones de la tasa de incidencia relativamente raras las condiciones de salud, asociados de casos a menudo se supone que siguen una distribución de Poisson. Caso cuenta obtenidos de gran escala de sistemas de vigilancia electrónica a menudo son inflados por la presencia de falsos positivos, sin embargo, de casos, y ajustada en base a los resultados de una muestra de validación tendrá variaciones que son hiper-Poisson. Este trabajo presenta un método sencillo para la construcción de intervalo de las estimaciones para las tasas de incidencia de casos sobre la base de que se ajustado a la baja mediante una estimación del valor predictivo positivo de la definición de casos de vigilancia.

Introducción

En gran escala de vigilancia para determinadas condiciones médicas o de salud a menudo se basa en las fuentes de datos electrónicos que proporcionan una amplia cobertura de una población dada. Por ejemplo, los Centros para el Control y Prevención de Enfermedades de vigilancia de las lesiones cerebrales de la hospitalización o la muerte, sobre la base de electrónica de alta hospitalaria y las estadísticas vitales los datos recibidos de doce a quince Estados cada año [1]. Para identificar los casos, los registros electrónicos se escanean los códigos de diagnóstico especifica que conjuntamente forman el operativo definición de caso. El caso lo que se cuenta posteriormente combinado con datos de población para calcular las tasas de incidencia.

Como con la mayoría de los métodos de vigilancia, una definición operacional caso descrito anteriormente, puede admitir algunos registros que no representan verdaderos casos en virtud de una estricta definición clínica ( "falsos positivos") y también pueden dejar de captar algunos registros que representan verdaderos casos (los "falsos Negativos "). La costumbre términos que reflejan estos aspectos operacionales de una definición de caso son el valor predictivo positivo (PVP) y la sensibilidad, que se define en el presente contexto como la probabilidad condicional [2]:

PVP = Pr (caso reúne definición clínica | caso detectado en virtud de definición operativa);

Pr = (sensibilidad caso detectado en virtud de definición operacional | caso reúne definición clínica).

Dependiendo de la medida en que los falsos positivos y / o falsos negativos se cree que influyen en el proceso de vigilancia, puede ser apropiado utilizar estimaciones de la protección de las variedades vegetales y / o ajustar la sensibilidad a la tasa de incidencia de las estimaciones en consecuencia. No es posible evaluar en general, de protección de variedades vegetales o de la sensibilidad mediante la vigilancia electrónica de datos por sí solo. El enfoque más directo a la obtención de los datos adicionales necesarios para la estimación de las PVP incluye manual de revisión de los registros médicos de una muestra aleatoria de los casos identificados provisional de funcionamiento a través de la definición de caso. La obtención de los datos adicionales necesarios para la estimación de la sensibilidad puede ser más intensivo en mano de obra, sobre todo cuando se considera una condición poco común. Sin otros "marcadores" (aparte de la definición de caso de funcionamiento) para delimitar el alcance de la revisión, puede ser necesario para seleccionar una muestra muy grande de la medicina general en los registros a fin de determinar las verdaderas causas suficientes para apoyar una estimación de la sensibilidad estable.

La metodología descrita en este documento está orientada a la vigilancia de las condiciones de salud relativamente raras. Debido a la validación de datos cuantificar la influencia de los falsos positivos que suele ser más fácil obtener datos de la cuantificación de la influencia de falsos negativos en este contexto, el desarrollo se concentra en la tasa de incidencia, estimados que reflejan los ajustes por PVP. Este énfasis no está destinado a disminuir la influencia potencial de falsos negativos, sino que refleja las dificultades logísticas asociadas a la obtención de datos sobre los falsos negativos como parte de la vigilancia en curso. Si no hay suficientes dudas en torno a la sensibilidad de la determinación de los casos para cualquier proceso de vigilancia, la metodología propuesta debería aplicarse con la debida precaución.

Análisis

Para un determinado período de vigilancia, se supone que la confirmación de casos se dispone de datos de una muestra aleatoria (seleccionados sin sustitución) de los casos provisional. Los datos obtenidos a través de este tipo de validación permite la estimación de los esfuerzos de protección de variedades vegetales, así como ajustes en caso de los cargos a eliminar el sesgo debido a los falsos positivos. Para ilustrar, supongamos que durante un período determinado (por ejemplo, un año) de la observación:

N = tamaño de la población en riesgo cubierta por el sistema de vigilancia;

M = contar provisional de los casos detectados en el marco del operativo definición de caso;

T = M contar de la verdadera casos (desconocida) entre los casos provisional;

M F = contar los casos de falsos positivos (desconocida) entre los casos provisional = M - M T;

S = número provisional de los casos la muestra para confirmación de casos;

C T = contar de verdad confirmado casos entre los hogares;

C F = contar de los casos se determinó que eran falsos positivos entre los que la muestra = S - T C.

La estimación habitual de PVP es dado por [3]:

C = T / T S = C / (C + T C F).

Tomando nota de que Es definible sólo cuando M> 0 (suponiendo también que S> 0) una estimación razonable de la población de los verdaderos casos que elimina los falsos positivos sesgo es:

De casos obtenidos a través de la vigilancia global se puede considerar intrínsecamente variable a pesar de que son esencialmente censo nivel cantidades, en el sentido de que contar con un caso puede considerarse que representa una observación de un proceso hipotéticamente repetible [4 - 7]. Por relativamente poco frecuentes esos casos los cargos son asumidos a seguir una distribución de Poisson [6, 7]. Por ejemplo, suponga que todos los casos fueron M provisional a fin de que se revise la cuenta de la verdadera casos M T podría determinarse. Cuando se informe de la correspondiente tasa de incidencia R = M T / N también se puede hacer uso de la estimación de varianza , Basado en el supuesto de que H T representa una observación de un proceso de Poisson [6, 7]. Debido a la estimación de la protección de las variedades vegetales, sin embargo, el caso ajustado contar No se pueden tratar de manera similar. Dependiendo de la muestra de validación y las de protección de variedades vegetales, por ejemplo, Var ( ) Puede estar muy por encima de la diferencia que se calcula bajo el supuesto de que Simplemente sigue una distribución de Poisson.

El resto de este trabajo aborda tres aspectos del problema descrito anteriormente: (i) un simple modelo para el verdadero y falso positivo de casos definidos dentro del marco, (ii) de las propiedades seleccionadas Ampliamente aplicables en virtud de un plan de validación de la muestra, y (iii) la frecuencia relativa de la cobertura intervalo de las estimaciones formuladas por el uso de estas propiedades.

Un caso contar modelo

Para evaluar la propuesta estimador , Un modelo de trabajo que caracterizan el proceso en el caso cuenta con H, T M, y M F que se necesita. Para que una población en riesgo y vigilancia período se dará por sentado que el caso provisional contar M se genera de acuerdo a un proceso de Poisson con parámetro λ. Cada caso provisional, provisional independiente de los demás casos, se supone que un verdadero caso con probabilidad igual a los de protección de variedades vegetales. Estas premisas se reflejan en la mezcla siguiente modelo [8]:

M ~ PDI (λ);

M T | H ~ BIN (M, PVP)

PDI indica que la distribución de Poisson y BIN denota la distribución binomial. El total de casos positivos falsos es implícitamente dado por M = F M - M T. Está bien establecido que en virtud de este tipo de descomposición M M F T y son independientes de Poisson variables aleatorias tal que M ~ T PDI (τ) y M F ~ PDI (φ), donde τ = λ PVP y φ = λ (1-PVP) [9, 10]. En este modelo, el parámetro λ representa el tamaño medio de la recurrente contar provisional de los casos y τ representa el tamaño medio de los recurrentes casos de verdadera contar entre los casos provisional. La cantidad 1/PVP puede considerarse como el factor por el que contar la verdad de los casos es inflado (en promedio) en el marco del operativo de definición de caso. Por último, los parámetros λ, τ y φ son implícitamente depende de el tamaño de la población en riesgo N; sin embargo, la forma funcional de esta dependencia no es importante en el presente desarrollo.

Una muestra de validación del Plan

Esta sección examina varias propiedades importantes del estimador Cuando una fracción fija provisional de los casos son la muestra para su confirmación. Las propiedades presentadas se han basado en el Apéndice A. Dejar 0 <f <1 denota la fracción de muestreo fijo, asumir que el tamaño de la muestra S = En la que la cantidad f M es redondeado. En virtud de este procedimiento:

E [ ] = Τ (2)

Y cuando f λ es suficientemente grande:

La igualdad (2) indica que Es un estimador imparcial de la media recurrente contar de la verdadera casos. El primer componente τ en el lado derecho de (3) representa la diferencia de la verdadera caso contar M T. El segundo componente se aproxima a la diferencia además de que el resultado de contar el caso de ajuste sobre la base de . Tenga en cuenta que para cualquier PVP el factor de inflación de varianza es esencialmente constante como resultado de la celebración de la fracción de muestreo fijo.

Cabe señalar, de paso, que cuando las poblaciones son típicamente caso pequeño, puede ser factible a adoptar la práctica de confirmar todos los casos, provisional. En virtud de este enfoque Será equivalente a la verdadera caso contar M T y de ello se desprende que ~ PDI (τ). Sobre la base de propiedades de la distribución de Poisson [8] se deduce que E [ ] = Var ( ) = Τ y el análisis de los métodos son aplicables.

Aplicación

El resto objetivo es la formulación de un método sencillo para la construcción de estimaciones de intervalo τ y la correspondiente tasa de incidencia. (2) A partir de lo que ya se sabe que Es un estimador imparcial de τ. En el apéndice B se demuestra que el siguiente estimador es casi imparcial de la parte derecha de (3):

Sobre la base de (4) una aproximación a (1 - α) 100% intervalo de confianza (ajustado por el sesgo positivo falso) para el caso recurrente contar τ viene dada por:

Donde z α / 2 representa la adecuada cuantil de la normal. El correspondiente intervalo de estimación de la población basada en la tasa de incidencia es:

Donde se recordará que N es el tamaño de la población en riesgo bajo vigilancia. A modo de ejemplo, supongamos que un intervalo de estimación de la prestación del 95% de la cobertura relativa frecuencia se desea para la población basados en la tasa de incidencia. El cuadro 1 muestra la frecuencia relativa con la que el intervalo (5) cubre las tasa de incidencia en repetidas simulaciones de Monte Carlo que participan diversos valores subyacentes de la protección de las variedades vegetales, λ, y f. Durante varias células f λ es pequeño y la cobertura es inferior a la nominal (95%), proporcionando un ejemplo de que el procedimiento de estimación de intervalo comienza a romper. En el resto de las celdas de cobertura está cerca del nivel nominal.

Para ilustrar la importancia de la corrección a la diferencia, el cuadro 2 se muestra la cobertura de las frecuencias relativas (de nuevo sobre la base de repetidas simulaciones) si el caso ajustado cuenta son simplemente supone que siguen una distribución de Poisson. Es evidente que para las pequeñas fracciones de muestreo, la cobertura está muy por debajo del nivel nominal incluso con el caso de las poblaciones más grandes.

Extensiones a subgrupos independientes (por ejemplo, grupos de edad) y los agregados (por ejemplo, tasas ajustadas por edad) son sencillas. A condición de que los límites de subgrupos no dividir a la población de vigilancia demasiado finamente, el error que se relaciona con el intervalo de estimación método descrito anteriormente debe seguir siendo mínima.

Conclusión

Este trabajo fue motivado por consideraciones relacionadas con el análisis de datos a partir de la lesión cerebral sistema de vigilancia mencionado en la introducción. A partir de la vigilancia año 2000, un número de estados participantes identificaron los casos provisional, que posteriormente se determinó que eran falsos positivos al examen en profundidad. Las estimaciones preliminares del PVP se observaron a caer cerca de 0,9 por algunos estados, lo que sugiere la necesidad de ajustar la tasa de incidencia estimaciones. Esta cuestión también es pertinente en un contexto más amplio, como una amplia gama de PVP estimaciones se han reportado para otros sistemas de vigilancia [11].

Los ajustes a la tasa de incidencia estimaciones para eliminar los falsos positivos son simples prejuicios. Sin embargo, dado que la protección de las variedades vegetales utilizados para hacer estimaciones de tales ajustes a la baja están sujetos a variación aleatoria, las tasas ajustadas tienen una fuente adicional de variación más allá de lo que generalmente se supone. Intervalo de las estimaciones no dar cuenta de este hecho puede tener cobertura de frecuencias muy por debajo del nivel nominal. En este artículo se presenta un método simple de estimación de intervalo de las tasas que se han ajustado para eliminar el sesgo debido a los falsos positivos, que se aplica en gran escala de vigilancia de la configuración.

La metodología presentada no aborda los posibles sesgos asociados a falsos negativos. En las situaciones en que la validación de datos también apoyan la estimación de la sensibilidad, la vigilancia de casos podría ser más ajustado para reducir o eliminar ese sesgo. Esto, a su vez, introducir otra fuente de variación en el caso que cuenta ajustada y las tasas correspondientes. Otros tipos de planes de muestreo también podrían ser considerados. Por ejemplo, un determinado tamaño de la muestra * s podría ser preferido, en cuyo caso S = min (* s, M) y un suplente para la expresión Var ( ) Daría lugar. Detalles técnicos aparte, el punto esencial es que los datos disponibles de validación de las muestras puede tener una influencia sobre el punto no trivial y estimaciones de intervalo, y deben tenerse en cuenta en las estadísticas de la vigilancia, siempre que sea posible.

Apéndice A. Momentos de la Estimador

En el procedimiento de muestreo considerados, el tamaño de la muestra depende de la validación provisional caso contar M. Para hacer el análisis genéricos, el tamaño de la muestra se denota por s (M), donde s () depende del procedimiento de muestreo particular, pero es Positiva cuando asumió M> 0. El PVP ajustados por caso contar (1) puede definirse con más precisión como:

Donde implícitamente C = T / s (M). Cuando M> 0 la distribución de la condición de T C M y M T es hipergeométrica [12], es decir, C T | M, H ~ T HYP (s (M), H T, M). No es difícil demostrar que cuando M> 0 la distribución de la condición de T C H sólo es binomial, es decir, C T | M ~ BIN (s (M), PVP). De ello se deduce que E [ | M] = M PVP para M ≥ 0. La aplicación de principios de la expectativa condicional [8] es fácilmente establecido que Es un estimador imparcial de τ = λ PVP:

E [ ] = E [E [ | M]] = E [M PVP] = λ PVP.

Para determinar Var ( ) Es conveniente emplear la siguiente descomposición de la varianza [8]:

Var ( ) = E [Var ( | M)] + Var (E [ | M]).

Desde E [ | M] = M PVP se deduce que Var (E [ | M]) = λ PVP 2. Evaluación de la primera componente de la varianza es más complicada. Definición:

Se desprende de (A.1) y el hecho de que C T | M ~ BIN (s (M), PVP) cuando M> 0 que:

Var ( | M) = PVP (1-PVP) g (M).

La tarea es, pues, reducido a la determinación de E [g (M)]. Cuando s (M) = Se tiene que g (H) ≤ M / m y, por tanto, que E [g (M)] ≤ E [M / f] = λ / f. Dada f fija el límite superior es una buena aproximación a condición de que λ es suficientemente grande, de modo que E [g (M)] ≌ λ / m y E [Var ( | M)] ≌ PVP (1-PVP) λ / f. La combinación de componentes de la varianza y la simplificación de los resultados en:

Cálculo numérico de Var ( ) A través de un rango de valores para la protección de las variedades vegetales, λ, y f indica que para f ≥ 0,01 y f λ ≥ 50, el error relativo de (A.2) es inferior a 0,01.

Apéndice B. Una estimación de Var ( )

Se propone lo siguiente como un estimador de la parte derecha de (A.2):

Definición:

Se desprende del tratamiento en el Apéndice A que el valor esperado de la varianza del estimador (B.1) condicionada por M es:

Luego, desde De ello se desprende que:

Cuando s (M) = Se tiene que h (M) ≤ 1 / m y que, por lo tanto, E [h (M)] ≤ 1 / f. Dada f fija el límite superior es una buena aproximación a condición de que λ es suficientemente grande. Sustituyendo 1 / f en lugar de la E [h (M)] en los resultados:

Algebraica simplificación resulta en:

Como f λ se convierte en general, aproximación de resultados (A.2).

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.