Emerging Themes in Epidemiology, 2006; 3: 7-7 (más artículos en esta revista)

No diferencial error de medición no siempre sesgo diagnóstico coeficientes de probabilidad hacia el null

BioMed Central
GT Fosgate (gfosgate@cvm.tamu.edu) [1]
[1] Departamento de Veterinaria Integrativa Biociencias de la Facultad de Medicina Veterinaria y Ciencias Biomédicas, Texas A & M University, College Station, TX, 77843-4458, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen

Prueba de diagnóstico evaluaciones son susceptibles de ser aleatorio y error sistemático. Simulado no diferencial error aleatorio para seis diferentes distribuciones de error se evaluó por su efecto sobre las medidas de precisión diagnóstica de la brucelosis ELISA competitiva. Los resultados de las pruebas se dividieron en cuatro categorías: <0,25, 0,25 - 0,349, 0,35 - 0,499, y ≥ 0,50 proporciones de inhibición para el cálculo de los coeficientes de probabilidad de diagnóstico y odds ratios. Más amplio de componentes de la varianza de la estructura de error dio lugar a mayor precisión atenuaciones, medido por el área bajo el receptor de la curva característica de funcionamiento y sistemática componentes parece causar poca parcialidad. Añadido error causado la estimación de coeficientes de probabilidad a estar sesgados hacia el valor nulo (1,0) para todas las categorías excepto 0,25 - 0,349. Resultados de la 0,35 - 0,499 categoría también se extiende más allá del valor nulo para algunas estructuras de error. Diagnóstico odds ratios fueron sistemáticamente sesgados hacia la nula cuando el <0,25 fue considerado categoría el nivel de referencia. No diferencial error de medición puede dar lugar a resultados sesgados en la evaluación cuantitativa de ELISA y la dirección no es siempre hacia el valor nulo.

Fondo

El objetivo de la investigación epidemiológica es la recolección de datos válidos que conduzcan a una estimación precisa de un parámetro de población (por ejemplo, medida de asociación). A los efectos de este debate, una estimación de un parámetro se considera parcial, si el valor esperado (más indefinida repeticiones) no es el verdadero valor [1, 2]. Un estudio o proceso se considera sesgado si un error sistemático está presente en el diseño del estudio, la recogida de datos, o el análisis de datos [2, 3]. Error sistemático, con una ligera modificación de una norma definición de diccionario [4], puede definirse como un error persistente con una nonzero significa que no se puede atribuir totalmente al azar, sino a la inexactitud inherente al sistema de medición. Un error aleatorio se desarrolla a partir de imprecisión en un instrumento de medida o protocolo utilizado para recoger datos para su estudio. Un error aleatorio en ausencia de error sistemático no dará lugar a prejuicios, por término medio, si el valor medido es todavía el verdadero valor de población. El efecto de errores aleatorios se reducirá en un aumento de tamaño de la muestra o el número de mediciones tomadas de cada unidad de muestreo. Error sistemático no se reducirá al aumentar el tamaño de la muestra debido a que no sea el resultado de las mediciones imprecisas.

Investigaciones epidemiológicas deben considerar los posibles efectos de ambos sistemática y errores aleatorios en los resultados del estudio. El odds-ratio (OR) es con frecuencia la medida de asociación estimada en los estudios sobre la etiología y la probabilidad ratio (LR) se calcula para la evaluación de las pruebas diagnósticas. La odds ratio para el diagnóstico también se puede cuantificar estima que el cambio en las probabilidades de infección (o enfermedad) resultantes de un resultado positivo de la prueba [5].

Las estimaciones de LRS y diagnóstico RUP puede verse afectada por los errores aleatorios y sistemáticos similares a otras medidas epidemiológicas de la asociación. El error en la detección del analito (sustancia biológica mediante la elaboración de un diagnóstico de ensayo) debe ejercer sus efectos a través de la clasificación errónea de los resultados de la prueba. La capacidad del analito para predecir la infección (o la ausencia de infección) en un individuo determina su utilidad o la exactitud de diagnóstico. Precisión de un sistema de evaluación se mide por su sensibilidad (probabilidad de clasificar correctamente las personas infectadas) y especificidad (probabilidad de clasificar correctamente los individuos no infectados). Precisión se puede medir en un único o en varios valores de corte positivo.

La evaluación de las pruebas en varios puntos de corte se puede realizar a través de la estimación de LRS o la realización de receptor-característica de funcionamiento (ROC) análisis. La LR es una medida de asociación que cuantifica la cantidad de veces más probable un resultado de la prueba es de un individuo infectado en comparación con uno que es no infectada. Se calcula como el cociente entre la probabilidad de que un individuo infectado que tendrá resultado de la prueba a la probabilidad de que una persona no infectada tendría el mismo resultado [6]. Cálculo de LRS para las pruebas con resultados cuantitativos (por ejemplo, títulos, densidades ópticas) requiere dividir la gama posible de los resultados de las pruebas en categorías. Probabilidad ratios también son matemáticamente relacionadas con las curvas ROC como la pendiente entre adyacentes resultado de la prueba de las categorías [7].

- Receptor de funcionamiento característico (ROC) curvas están formadas por un complot 1 - especificidad (eje "x") de la sensibilidad (eje y) a lo largo de múltiples valores positivos de corte [8]. El área bajo una curva ROC (AUC) se define como la probabilidad de que un seleccionado de forma aleatoria individuo infectado tendrá un mayor resultado de la prueba de que una pareja no infectada seleccionados al azar individual, y se considera una medida de la cantidad total de la capacidad de discriminar la prueba [9]. La precisión de una prueba de diagnóstico del sistema afectarán a la precisión global ya menudo se mide como el coeficiente de variación (CV), que se calcula como la desviación estándar de las mediciones sobre la misma muestra, dividida por la media de las mediciones. El CV cuantifica el error aleatorio de medición inherentes al sistema de diagnóstico.

Medición de error asociado con el analito en teoría podría ser diferencial o no diferencial. Diferencial error de medición se define como un error cuya magnitud o la dirección es diferente para las personas que tienen el resultado (por ejemplo, la infección) en comparación con aquellos sin los resultados. No diferencial error de medición es un error que es independiente del estado de resultados, la dirección y la magnitud es igual para las personas con y sin el resultado. Error de medición puede conducir a errores de clasificación que es diferencial o no diferencial. El efecto del error de medición y errores de clasificación en LRS no se encuentra en la actualidad dispone de estudios revisados por la literatura. La dirección del sesgo en las estimaciones de las RUP y con relaciones de riesgo diferencial clasificación errónea no puede predecirse [10 - 12], sin embargo, no diferencia una clasificación errónea de la exposición se ha demostrado que el resultado de medidas de asociación a ser constantemente hacia el nulo cuando se evalúan en un 2 × 2 tabla [1, 10 - 14], salvo en situaciones extremas demasiado [1, 10, 15]. Cuando la exposición se clasifica en más de dos categorías (de orden superior tablas) la dirección de desviación ya no es constante hacia el valor nulo de no clasificación errónea diferencial [10, 15 - 18]. Sin embargo, incluso en situaciones con más de dos niveles de exposición, las medidas de asociación se hará con preferencia al nulo cuando calculado para las categorías que participan en la exposición incorrectamente clasificada [19, 20].

Una exposición cuantitativa que se clasifican en tres niveles a menudo asignar la categoría más baja (nivel 1) como el nivel de referencia. La habitual RUP evaluar el efecto de la exposición se calculan comparando el nivel 2 al nivel 1 y nivel 3 al nivel 1. Si no se produce errores de clasificación diferencial sólo entre los niveles de exposición 2 y 3, por ejemplo, entonces la habitual RUP podrían estar sesgados hacia o lejos de nulo valor, sin embargo, calculó la OR entre el nivel 2 y nivel 3 (por lo general no informaron) tendría consecuencias estar sesgados hacia el vacío. La excepción a esta regla es cuando clasificación errónea es tan extrema que la probabilidad de clasificación incorrecta es más probable que la clasificación correcta [19, 20].

Los efectos de clasificación errónea sobre las medidas de asociación son estudiados a menudo mediante la creación de distribuciones de datos hipotética, pero estudios de simulación utilizando datos reales también pueden ser empleados [21, 22]. Simulación de estudios tienen la ventaja de definir distribuciones de probabilidad en lugar de crear extrema y las situaciones potencialmente poco realista. El objetivo de este estudio fue investigar los efectos de la no-diferencial error de medición en las AUC, LRS, y de diagnóstico RUP calculada para un ensayo dividido en cuatro niveles utilizando datos reales y simulados error estructuras.

Análisis
Fuente de datos

La brucelosis es una enfermedad grave problema en todo el mundo [23] asociados con infecciones crónicas debilitante en las personas y el fracaso en la reproducción de los animales domésticos. Especies de Brucella que causan enfermedades en las personas incluyen B. abortus (principal reservorio es el ganado y búfalos de agua), B. melitensis (ovejas y cabras), y B. suis (cerdos) [24]. El ganado y búfalos de agua doméstica en Trinidad se han encontrado a la infección con B. abortus [25] y los datos utilizados para la simulación de este estudio son el resultado de un ELISA competitivo brucelosis (c-ELISA) en 391 bovinos y 381 búfalos de agua de uso doméstico (Bubalus bubalis) de Trinidad. La evaluación de este ensayo se ha informado en otras partes [26] y los resultados de ambas especies se agruparon en un único análisis para el uso de estas evaluaciones. El estado de brucelosis (infectadas o no infectadas con B. abortus) se determinó a través de múltiples resultados de pruebas de diagnóstico no en un análisis estándar de oro. La razón más probable de la infección por el estatuto sobre la base de este análisis se partió del supuesto de la verdadera situación. Esta clasificación resultó en 126 bovinos y búfalos de agua infectados con B. abortus y 656 no infectadas ganado y búfalos de agua.

El c-ELISA es una prueba cuantitativa que muestra los resultados son reportados como el porcentaje de inhibición en comparación con un conjugado de sólo control (suero no es mío). Cada prueba y muestra de control había densidad óptica (DO) valores medidos en doble ejemplar y la fórmula para calcular el porcentaje de inhibición (PI) se incluye a continuación.

Los límites son teóricos, por lo tanto, cero a uno con los valores más cerca de uno de ellos sea más positiva (mayor nivel de anticuerpos que compiten). Los valores negativos se producen con poca frecuencia, cuando la densidad óptica de la muestra es mayor que el conjugado de control.

Los datos de simulación

Los datos medidos al realizar un ensayo de ELISA es el grado de cambio de color, o OD, que cuantifica la cantidad de anticuerpos en el suero. La media observada OD valores para la prueba de suero y conjugado de sólo controles de cada placa ELISA se supone que representan el verdadero valor biológico para el uso de estas simulaciones. Software comercialmente disponible [27] se utilizó para incorporar a las distribuciones de errores tanto de control y muestra valores medios independiente. Tras la adición de error original significa OD valores, el PI se volverán a calcular para cada una de las muestras.

Conjugado-sólo muestras de control no contienen anticuerpos que compiten y, por tanto, el cambio de color (es decir, OD) debe ser igual a un nivel básico. La variación en los valores medidos para estos controles representa el error aleatorio asociado con el ensayo. Por lo tanto, con una media de SAO para medir el duplicado conjugar los controles sobre el original de placas ELISA fueron utilizados para estimar el error inherente de las pruebas del sistema y determinar las distribuciones de simulación de error. Distribuciones normales con los medios de 0, 0,1, -0,1 y desviación estándar de 0,12 y la media de 0 y desviación estándar de 0,24 fueron evaluados como parte del estudio. Un valor de 0,1 fue elegido por una media porque es el rango intercuartil de la media de duplicar conjugar los valores de control en cada placa ELISA. Una desviación estándar de 0,12 fue elegida porque se trataba de la desviación estándar de todos los originales significa conjugar los valores de control. Se seleccionará al azar una muestra de estas distribuciones se añadió a media observada OD valores. Lognormal distribuciones se utilizaron para añadir una estructura de error que varían según observó el SAD. La escala (μ) parámetro de estas distribuciones se calculó como la media observada OD de la muestra dividida por la media de OD muestra todos los valores. La forma (σ) parámetros investigados fueron 0,12 y 0,24. Se seleccionará al azar una selección de estas distribuciones se multiplicó por la media observada OD para calcular los valores simulados. Simulado significa SAO no se trunca y en el rango calculado valores de PI podría ser inferior a cero y mayor que uno.

Los resultados de las pruebas se dividieron en cuatro categorías: <0,25, 0,25 - 0,349, 0,35 - 0,499, y ≥ 0,50 PI. Estas categorías se basan en una evaluación de este ensayo [28] con el original de seis categorías se derrumbó a cuatro para reducir la complejidad de las simulaciones y aumentar el número de infectados y no infectados personas en la parte baja y más alta la mayoría de las categorías, respectivamente. Categoría específicos de LRS [7] se calcularon para cada una de las cuatro categorías como la proporción de individuos infectados en cada categoría dividido por la proporción de personas no infectadas dentro de esa misma categoría. De diagnóstico RUP se calcularon comparando los tres más altos resultado de la prueba de las categorías a la categoría más baja como la base de referencia, o nivel de referencia. Sensibilidad y especificidad se calcularon para el c-ELISA a todos los posibles valores de corte de 0,01 a 0,99 PI en intervalos de 0,01. El área bajo la curva ROC se calculó como una medida general de exactitud diagnóstica, utilizando el método trapezoidal [29]. La media de sensibilidad entre los puntos de corte adyacentes fue la altura de la base trapezoidal y ancho de la diferencia en el vecino especificidades.

Seis estudios de simulación se realizaron de forma independiente la evaluación del impacto de error añadido a la distribución original de datos observados. Monte Carlo se realizó el muestreo de estas distribuciones de error independiente para cada toma de muestras y conjugado de control más de 10000 iteraciones. Error fue añadido a todos los valores de densidad óptica media en cada iteración, los nuevos inhibidores de la proteasa se calcularon, y medidas de precisión diagnóstica (AUC, LR, OR) se determinaron. La media, mediana, desviación estándar, mínimo, máximo y los valores de IP para infectados y no infectados individuos se calcularon en cada iteración. La mediana de los valores y los percentiles más de 10000 iteraciones estos fueron utilizados como estimaciones puntuales e intervalos de confianza, respectivamente, para la estadística descriptiva e investigó todas las AUCs, LRS, y RUP.

Los resultados de la simulación

Las seis estructuras añadido error causado significa valores de PI para tener un mayor alcance y más grandes desviaciones estándar para las dos infectadas y no infectadas grupos de personas en comparación con los valores originales y la disminución general de la prueba de precisión, medida por las AUC (Tabla 1]. Distribución de c-ELISA valores de PI para Normal (0, 0.12) y lognormal (0,24) error estructuras fueron notablemente diferentes de la distribución original de las personas no infectadas (Fig. 1] y relativamente similar para las personas infectadas (Fig 2]. Añadido error con diferentes medios, pero el mismo resultado desviaciones estándar en las distribuciones visualmente similares (datos no presentados). Distribución de los inhibidores de la proteasa en personas no infectadas llegaron a un máximo de cero porque todos los menores valores extremos se incluyeron en el 0-5% resultado de la prueba de la categoría. En general, la distribución de los inhibidores de la proteasa con error ha añadido una más amplia (menos preciso) de distribución, lo que resultó en más se solapan con la distribución de las personas infectadas y se reduzca el ensayo general de precisión. Añadido error causado estimaciones puntuales de LRS a estar sesgados hacia el valor nulo (1,0) para todas las categorías excepto 0,25 - 0.349 (Tabla 2]. Resultados de la 0,35 - 0,499 categoría también se extiende más allá del valor nulo para algunas estructuras de error. De diagnóstico RUP calculado con la categoría más baja como línea de base eran sistemáticamente sesgados hacia la nula para todas las estructuras evaluadas error. Error estructuras con mayor diferencia se debió en mayor sesgo para ambos LRS y RUP.

Conclusión

El efecto de la no-diferencial error aleatorio de medición de la exposición se ha discutido en publicaciones anteriores [21, 30 - 32], y da lugar a medidas de asociación están sesgadas hacia el valor nulo, salvo en situaciones extremas demasiado. En general la precisión de una prueba de diagnóstico cuantitativo, medido a través de las AUC, se ha demostrado aquí que también se redujo (sesgada hacia nulo valor de 0,5) a través de la adición de no error de medición diferencial. La diferencia de componentes de la estructura de medición de error parece tener un efecto importante en la disminución de las AUC y la sistemática (media) componente de la estructura de error tiene poca o ninguna influencia en los resultados cuando se aplica por igual a todas las muestras (es decir, no diferenciado). Esta atenuación de precisión se debe a la variabilidad añadido tendido la distribución de los resultados de las pruebas y la creación de más coincidencia entre los resultados de infectados y las personas no infectadas, como se muestra en las cifras. Los valores no se trunca durante simulaciones, a pesar de que biológicamente inusual se observaron valores como lo demuestran los rangos de IP. Estas observaciones no influir indebidamente en el análisis porque se considera equivalente a la frontera categorías.

Probabilidad ratios se obtienen a partir de la versión de probabilidades teorema de Bayes [28], se corresponden con el valor añadido información proporcionada por una prueba, y se utilizan para la actualización antes de las probabilidades de infección. El valor nulo de un LR es uno, que correspondería a un determinado resultado de la prueba son igualmente probables en infectadas y no infectadas individuos (no afectaría antes de probabilidades). Un estudio previo [31] demostró que no diferencial, el error aleatorio de medición de la exposición determinación sin un componente sistemático, constante llevó a efecto en la atenuación de medidas tales como el OR. Resultados de diagnóstico RUP de acuerdo con esta conclusión anterior, sin embargo, LRS estimado en el presente estudio no fueron constantemente hacia el valor nulo. Por ejemplo, la línea de base (sin error) para la LR 0,25 - 0,349 categoría y 0,675 se evaluaron todas las estructuras de error dio lugar a esta LR (sobre la base del valor medio simulado) de ser sesgada más lejos de uno. La base de referencia para la LR 0,35 - 0,499 categoría fue 3,32 y cuatro de las estructuras evaluadas error dio lugar a esta medida para estar sesgados a tal punto que las estimaciones puntuales prorrogado por debajo del valor nulo de uno. Las estimaciones de LRS y se RUP también ligeramente afectados por el componente sistemático (media) de la estructura de error. A diferencia de las AUC, estas medidas dependen de la distribución subyacente de valores porque están calculados para un pequeño número de categorías fijas.

La dirección del sesgo no es fácil de describir como estar lejos de o hacia el valor nulo de LRS investigado. Sin embargo, todos los LRS estimado de las estructuras evaluadas error podría ser descrito como sesgada de una forma resultante en la prueba que tenga menos capacidad para discriminar su habitual función en esa categoría. Por ejemplo, la categoría más baja a menudo es útil para "excluir" habida cuenta de que la infección (es decir, "negativo") El resultado de la prueba. La observó un sesgo hacia la causa un resultado de la prueba que corresponden a esta categoría a ser menos útil para ese fin. El resultado de la prueba de mayor tamaño son las categorías más positiva (0,30 es el habitual de corte positivo para la brucelosis c-ELISA [33]] y, por tanto, un mayor después de la prueba de probabilidad de infección (en comparación con el pre-test de probabilidad) sería el efecto deseado. Todas las estructuras de error se debió a LRS para estas categorías a estar sesgados hacia cero, lo que significa que la prueba es menos útil para este fin (calculada después de la prueba de probabilidad de infección inferior al valor real). La observó dirección de los sesgos de este estudio podría haber dado lugar a partir de las distribuciones de resultados de pruebas de infectados y no infectados individuos y un conjunto de datos diferentes no puede demostrar la misma relación.

A fuerza de los empleados de simulación de procedimiento es que las distribuciones de errores se agregaron a la media SAO medida a partir de duplicar los ensayos y muestras de control. Densidades ópticas, y no inhibidores de la proteasa, serían en realidad los valores afectados por el error de medición. Un análisis similar añadir error a los inhibidores de la proteasa no directamente simular este tipo de error. Lognormal error distribuciones se evaluaron para simular el error de medición que dependen de la magnitud del valor medido. En el ejemplo de c-ELISA, OD valores más altos corresponden a más negativo (menor número de competidores anticuerpos) muestras. Por lo tanto, este error tiene una estructura de mayor impacto sobre la distribución de valores en las personas no infectadas como se vio en las cifras presentadas. Investigados error estructuras podrían sobrestimar cierto error de medición y sólo un número limitado de las distribuciones se evaluaron conduce a la dificultad de generalizar los resultados a todas las posibles situaciones de error. Sin embargo, añadió error distribuciones se basan en una verdadera observaciones a partir de la media conjugada-sólo controla que no tienen anticuerpos que compiten. Por lo tanto, la variabilidad inherente a estas medidas debería ser una representación válida de la verdadera variabilidad de las pruebas del sistema. Se espera que algunas fuentes de error se depende de la placa nivel y día a nivel de factores tales como reactivos, temperatura del laboratorio, y los tiempos de incubación que sería igual para ambos ensayos y muestras de control. Por lo tanto, la adición de no-diferencial de error independiente para poner a prueba los valores de control y representa el límite superior de los posibles efectos sobre la precisión de medidas de prueba.

No diferencial error aleatorio añadido a través de una distribución de probabilidad podría dar lugar a errores de clasificación diferencial de las categorías resultado de la prueba como lo demuestran los datos presentados en el Cuadro 2. La proporción de personas incorrectamente clasificada en las cuatro categorías resultado de la prueba no parece ser igual entre infectados y no infectados individuos. Un hallazgo similar se ha informado para no diferencial error de medición de la exposición [21, 31, 32]. En este estudio, sin embargo, es imposible saber qué personas fueron incorrectamente clasificada debido a que sólo cuenta con un total puede ser calculado y una evaluación precisa de la magnitud de los errores de clasificación no se pudo determinar. Sólo es posible saber el resultado neto de los errores de clasificación y no el número de personas incorrectamente que entren o salgan de cada categoría. La clasificación errónea de todo el resultado de la prueba de las categorías también depende de la distribución subyacente de valores.

El verdadero estado de infección de las personas evaluadas en el conjunto de datos no se conocía y la clasificación de los individuos se realizó sobre la base de resultados no de una prueba estándar de oro estudio de evaluación. Por lo tanto, los datos originales se espera que contienen algunos resultados que fueron incorrectamente clasificada sobre la base de la infección. Estos errores no se espera que afecten indebidamente resultados de la simulación de estudio porque se aplican por igual a la línea de base y error-aumentada situaciones. Las distribuciones de los resultados de las pruebas en infectadas y no infectadas las personas, sin embargo, podría no reflejar adecuadamente la verdadera causa de las distribuciones de este potencial errores de clasificación.

Este estudio muestra que la falta de error de medición diferencial puede conducir a resultados sesgados en la evaluación de pruebas de diagnóstico con resultados cuantitativos. Es especialmente importante reconocer que no son LRS constantemente hacia el nulo incluso cuando el error de medición no es exclusivamente de diferencial. Estos sesgos no se reducirá simplemente por el aumento de tamaño de la muestra, sino que sería necesario aumentar el número de observaciones sobre cada unidad de muestreo para reducir el impacto de este error. Por lo tanto, es posible que un estudio imparcial (presencia de error aleatorio sin un componente sistemático) para obtener valores sesgados población a través de la no-error de medición diferencial. Esta situación es posible cuando el parámetro de población que se calcula en el estudio (por ejemplo, LR de la prueba) no es una simple a una transformación de los datos afectados por el error de medición (por ejemplo, OD). La atenuación observada en las AUC que cabe esperar que se produzcan en todas las situaciones en los que no se diferencia de error de medición, pero la dirección del sesgo medido en LRS se espera que varían según el monto de error subyacente y distribución de los resultados de las pruebas.

Abreviaturas

O - odds-ratio

LR - coeficiente de probabilidad

ROC - receptor de características de funcionamiento

AUC - la superficie receptor-curva característica de funcionamiento

CV - coeficiente de variación

c-ELISA - competitiva inmunoensayo enzimático

OD - densidad óptica

PI - porcentaje de inhibición

Conflicto de intereses

El autor declara que no tiene intereses en competencia.

Autores de las contribuciones

FFG realizado todos los análisis y escribió el manuscrito de fondo sin las contribuciones de otros investigadores.

Agradecimientos

Me gustaría dar las gracias al Dr Saraya Tavornpanich sugerencias útiles para que condujeron a la realización de mejoras en el documento.