Emerging Themes in Epidemiology, 2006; 3: 6-6 (más artículos en esta revista)

Análisis de regresión con categorizada calibrado exposición de regresión: algunas conclusiones interesantes

BioMed Central
Ingvild Dalen (ingvild.dalen @ medisin.uio.no) [1], John P Buonaccorsi (johnpb@math.umass.edu) [2], Petter Laake (petter.laake @ medisin.uio.no) [1], Anette Hjartåker (anette.hjartaker @ medisin.uio.no) [3], Magne Thoresen (magne.thoresen @ medisin.uio.no) [1]
[1] lnstitute de Ciencias Médicas Básicas, Departamento de Bioestadística, Universidad de Oslo, PO Box 1122, Blindern, 0317 Oslo, Noruega
[2] Departamento de Matemáticas y Estadística, Universidad de Massachusetts, 710 North Pleasant Street, Amherst, MA 01003-9305, EE.UU.
[3] Instituto de Medicina Comunitaria, Facultad de Medicina de la Universidad de Tromsø, 9037 Tromsø, Noruega

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Regresión de calibración como un método de medición para el manejo de error es cada vez más conocido y utilizado en la investigación epidemiológica. Sin embargo, la versión estándar del método no es apropiado para la exposición analizar en un categórico (por ejemplo quintil) escala, un método comúnmente utilizado en estudios epidemiológicos. Una tentadora solución podría ser utilizar la continua exposición prevista se hayan obtenido mediante el método de calibración de regresión y tratarla como una aproximación a la exposición real, es decir, incluir los clasificados calibrado exposición en los principales análisis de regresión.

Métodos

Usamos semi-analítico y los cálculos de simulación para evaluar el desempeño del enfoque propuesto en comparación con el enfoque de ingenuo no se rectifica el error de medición, en situaciones en las que los análisis se realizan a escala quintil y cuando la incorporación de la escala original en las variables categóricas, respectivamente. Presentamos también el análisis de datos reales, que contiene medidas de ingesta de folatos y la depresión, el noruego de la Mujer y Cáncer de estudio (NOWAC).

Resultados

En los casos en que la información adicional está disponible a través de repetirse las mediciones y no datos de validación, calibración de regresión no tiene cualidades importantes de la exposición real de distribución, por lo tanto, las estimaciones de la varianza y percentiles pueden ser severamente sesgados. Se demuestra que el enfoque expuesto mantiene mucho, en algunos casos la totalidad, la clasificación errónea de encontrarse en la exposición observados. Por esa razón, el análisis de regresión con la variable corregida incluido en una escala categórica es todavía parcial. En algunos casos, corregir las estimaciones analíticamente son iguales a los obtenidos por el enfoque ingenuo. Regresión de calibración, sin embargo, muy superior a los ingenuos método para la aplicación de las medianas de cada categoría en el análisis.

Conclusión

Regresión de calibración en sus más conocidos forma no es apropiado para la medición de corrección de errores cuando la exposición se analiza en un percentil escala. En relación a la escala original de la exposición resuelve el problema. La conclusión respecto a todos los modelos de regresión.

Introducción

Error de medición es reconocida como un problema común en los estudios epidemiológicos. Muchas variables interesantes son registrados con un relativamente alto grado de incertidumbre, a menudo debido a la baja de precios y métodos de medición simple. Los errores pueden ser aleatorios (por ejemplo, debido a fluctations biológicos sobre una media), sistemática (por ejemplo, debido a diferentes calibraciones de los instrumentos de medición), o ambos, es que la mayoría de las veces el caso. Es bien sabido que el error de medición en efecto predictores sesgos en las estimaciones de modelos de regresión. Por esta razón, error de medición ha sido objeto de amplias investigaciones a lo largo de las últimas décadas, y varios métodos se han propuesto para el manejo del problema. En los modelos lineales estándar de referencia es [1], mientras que Carroll et al. [2] ofrecen una excelente visión de conjunto de métodos aplicables a los no-lineal de los modelos.

Uno de los métodos para hacer frente a error de medición que ha ganado popularidad es el llamado método de calibración de regresión, véase por ejemplo el capítulo 3 del [2]. Esto es más probable debido a su naturaleza intuitiva, relativa facilidad de uso y aplicabilidad general. También se ha demostrado que tienen buenas propiedades en muchas situaciones. Regresión de calibración fue presentado a la comunidad epidemiológica de Rosner et al. [3, 4]. En otra formulación del mismo método [5], la idea es predecir el unobservable propenso a errores variable por medio de regresión y, a continuación, a fin de incluir esta variable previsto en el análisis principal. El enfoque incluye esfuerzos para de alguna manera se relacionan las variables observadas para la subyacente "verdadera" variable, ya sea a través de un sub estudio de validación donde el verdadero valor se observa directamente de algunos de los individuos, a través de mediciones repetidas para algunos o la totalidad de las personas, o mediante el uso de las llamadas variables instrumentales que proporcionaran información acerca de los verdaderos valores en relación con los valores medidos. También es posible solicitar información de fuentes externas. Software para la realización de regresión de calibración se encuentra disponible en STATA [6] y en el SAS [7, 8].

La más conocida versión de regresión de calibración es el continuo desarrollado por variables explicativas. Sin embargo, en estudios epidemiológicos, también es común clasificar a la exposición en función de variables como el rango quintiles, y una selección de ejemplos más recientes de los estudios que utilizan este enfoque es [9 - 13]. Por lo general, un análisis comparando cada grupo al quintil más bajo (de referencia) del grupo se complementa con una prueba de tendencia para el quintil números. Otra tendencia se aplica estimador de la mediana de los valores quintil grupos [14, 15]. La razón para la categorización de la exposición podría ser la de obtener los análisis que requieren menos estrictos supuestos y que sean más robustos para la periferia valores [16]. Ahora que la regresión de calibración es cada vez más estándar en la comunidad epidemiológica, uno puede fácilmente imaginar una situación en la que este método se aplica a una variable continua, que posteriormente se clasifican antes de que sea incorporado en los principales (regresión) el análisis. El investigador puede entonces confiar en que él o ella ha tomado las precauciones necesarias en relación con el error de medición.

Estudiamos los resultados de este enfoque menores de 3 modelos diferentes sistemas, todos los que aplican las mismas categorías de acuerdo a los quintiles: en regresión (A) variables "dummy", (B) quintil números, y (C) valor mediano dentro de los grupos quintil, con lo que la obtención de lo que uno puede llamar a una mayor tendencia estimador. Los correspondientes análisis de resultados con la exposición continua se incluyen para la comparación. De regresión lineal se utiliza como marco para nuestra demostración, pero, como se verá, los resultados son válidos para otros modelos de regresión también.

Nos parece que para el análisis de variables "dummy" y por simple análisis de tendencias, en la mayoría de los casos el efecto corregido las estimaciones son aproximadamente iguales a los obtenidos sin hacer la corrección. En algunos casos, son idénticos. Nosotros sostenemos que la categorización de la exposición corregido aún conserva errores de clasificación similar a los errores de clasificación obtenidos mediante la exposición observados. Esto induce a errores de clasificación sesgo en el sentido de las estimaciones. Al introducir el valor medio de cada categoría para el análisis, el método de corrección recupera algunos de sus habituales ventaja sobre el enfoque ingenuo. La razón de esto se convertirá en claro.

Empezamos fuera de la definición de los modelos utilizados y, a continuación, presentar analíticos y semi-analítica argumentos y los resultados de las diversas configuraciones definidas en el punto anterior. Los resultados están ilustradas por ejemplos simulados y también de un ejemplo de la vida real, donde hemos examinado la relación entre la ingesta de folatos y el riesgo de depresión en un estudio prospectivo de cohortes de mujeres noruego, el Consejo Noruego para la Mujer y Cáncer de estudio (NOWAC).

Métodos

En la siguiente vamos a suponer que una exposición variable X se mide con error y en efecto es unobservable. La verdadera exposición X se observó en lugar a través de un valor medido W, y nosotros asumimos un aditivo modelo de error tal que W = X + U, donde U es el error de medición, con valor esperado E (U) = 0. Observamos también una respuesta o una enfermedad variable Y y, a veces, una de covarianza Z, ambos medidos sin error. Es importante señalar que damos por sentado que el error de medición no es diferencial, es decir, F (W | X, Y) = F (W | X). Esto implica que W no aporta nueva información sobre Y aparte de lo que ya está en X.

La idea de calibración de regresión [3 - 5, 17 - 19] es predecir el unobservable variable X por medio de regresión y, a continuación, a fin de incluir esta variable previsto en el análisis principal. Como tal, es aplicable a cualquier establecimiento de modelos de regresión. Extra necesidades de información que debe suministrarse a fin de relacionar la verdadera variable a la observada propenso a errores variable. Suponemos que hemos replicado medidas de la exposición. Es decir, suponemos que para cada i hay k i repetir las mediciones de X i, habida cuenta de W ij = X + U i ij, j = 1 ,..., k i, i = 1, ..., n . Su media es i. Las repeticiones se supone que son uncorrelated dado X. Tras [2], en los casos con datos replicados, el mejor predictor lineal de X dado y Z, viene dada por

donde μ X, y μ μ W Z denotan los valores esperados de X, W y Z, respectivamente; , y son las varianzas de X, U y Z, y por último XZ σ denota la covarianza entre X y Z. Dado que E (U) = 0, X = μ μ W. Ecuación (1) define el RC predictor para el propenso a errores de exposición X. Los parámetros en (1) debe ser estimado a partir de los datos, por ejemplo, tal y como se describe en [2], páginas 47-48, o ver [6] para un procedimiento detallado en STATA.

La exposición real y la X Z covarianza se supone que son asociados con la variable respuesta Y en un modelo de regresión. En el caso de un modelo de regresión lineal, la relación entre el continuo X y Z y el continuo Y viene dada por

E (Y) = β 0 + β 1 X + β 2 Z. (2)

Sin embargo, como se ha mencionado, estamos interesados en la estimación de los efectos de la exposición clasifican de acuerdo con los quintiles. Se define tres sistemas de modelización de la siguiente manera: En el modelo A que se aplican variables "dummy" para ver por separado los efectos de los diferentes grupos quintil en comparación con los más bajos (de referencia) del grupo:

E (S) = α 0 + α 1 I 1 + α 2 I 2 + α 3 I 3 + α 4 I 4 + α 5 Z, (3)

donde r es 1 si x y 0 en caso contrario. F X denota la distribución acumulada de X, por lo tanto, RTH es el punto RTH quintil en la distribución de X. Al evaluar el desempeño de este método, sobre todo ver a α 4, que es la diferencia en la respuesta media entre los grupos de extrema quintil de la exposición. La covarianza Z sigue siendo analizados en la escala continua.

Utilizando el modelo B, vamos a obtener una simple tendencia estimador de la exposición, que a menudo es complementado en el sentido de las estimaciones de modelo A. Escribimos

E (Y) = 0 + γ γ 1 X + c γ 2 Z, (4)

X, donde c es un número de 0 a 4, según el cual quintil grupo se divide en X. Por lo tanto, si x entonces x = c r.

El estimador de tendencia en el modelo C es un incremento de uno en el modelo B, en el sentido de que conserva parte de la información original de las mediciones continuas, pero aún así se refiere a valores extremos y la distribución desigual de exposición. El modelo se define por

E (Y) = 0 + ψ ψ 1 X med ψ + 2 Z, (5)

donde X med son la mediana de los valores de las personas caigan en las distintas categorías. Por lo tanto, si x , Entonces x med se le asigna el valor mediano de todos los individuos en el quintil RTH RTH grupo.

Al comparar el efecto de las estimaciones obtenidas a partir de un adecuado modelo de regresión de la participación de la RC categorizada como predictor de la exposición a los obtenidos utilizando un ingenuo predictor ( ) Y que el verdadero efecto de previsiones (obtenido a partir de X), clasificar los dos primeros quintiles de acuerdo a sus respectivos en las distribuciones. Por lo tanto, los puntos de corte para el ingenuo predictor y la RC de predicción por lo general no ser las mismas que para la exposición real. Tampoco los valores medianos.

Si la respuesta es variable Y en lugar dichotomuous, por ejemplo, que representa una enfermedad variable, donde el valor 1 se asigna a las personas enfermas y 0 se asigna a los sanos, tenemos que sustituir E (Y) con el logito transformar log [E (Y) / ( 1 - E (Y)]. Transforma similares se aplican a otros modelos de regresión.

Con respecto a los errores estándar para la RC corregido las estimaciones, estos se subestima por métodos ordinarios, ya que no tienen en cuenta la diferencia en la estimación de X. Dado que el cálculo de fórmulas explícitas para el error estándar es bastante tedioso [5], los errores estándar son generalmente obtenidos a través de bootstrapping [2, 20].

Resultados
Los resultados analíticos

En una situación sin necesidad de covariables, Ecuación (1) simplifica considerablemente. Podemos escribir

donde el factor es una versión modificada de la ratio de fiabilidad, por lo general se define como . En la siguiente nos fijamos en primer lugar a la situación en la que todas las personas se miden con el mismo número de veces, en cuyo caso obtenemos los resultados analíticos de todos los modelos de CA. Cuando permitimos que el número de repeticiones para variar, tenemos que confiar en semi-métodos analíticos para la realización de inferencias.

Ilustración con datos simulados

Hemos simulado una variedad de situaciones para obtener resultados numéricos en relación con los sesgos de los ingenuos y los correspondientes efectos estimaciones. Estas simulaciones se realizaron utilizando el programa informático R versión 2.2.1 [21], en el que la base integrada de rutina para los modelos lineales generales se aplican a conjuntos de datos generados de tamaño n = 100000.

La exposición real X y Y la respuesta fueron generados a partir de la distribución normal. El error fue U distribuido normalmente con media cero y varianza decidió por diversos fija los niveles de la ratio de fiabilidad . La covarianza Z fue omitido.

Se estudiaron los casos en que la correlación ρ XY entre la respuesta y la verdadera exposición continua, y, por tanto, el efecto β 1, ya sea 0,7 o 0,2, consulte la Ecuación (2). Estos casos se corresponden con las diferencias de medias cierto α 4 de 1,96 y 0,56 entre los quintiles extremos en el modelo A (Ecuación (3)), ingenuo tendencias γ 1 de 0,47 y 0,13 (modelo B, la ecuación (4)), y los efectos de 1 ψ 0,76 y 0,22 utilizando medias en grupos como variables explicativas (modelo C, ver Ecuación (5)).

Los resultados fueron producidos para tres niveles de la ratio de fiabilidad λ: 0,2 (que corresponde más bien a un gran error de medición), 0,5, y 0,8 (modesta situación de error de medición). Norma errores para corregir el efecto de las estimaciones se obtienen a través de remuestreo pares de arranque con 200 muestras de arranque [20].

Dos patrones de replicación se estudiaron. En primer lugar, hemos simulado situaciones en las que todos los individuos se midieron dos veces, es decir k i = k = 2. A continuación, miró a situaciones en las que un 20% al azar subconjunto de las personas se miden 5 veces, mientras que el resto sólo tenía 1 de medición (1 patrón de replicación del Cuadro 1]. Todos los resultados se recogen en el cuadro 2.

Vemos que en situaciones con un constante número de repeticiones, las estimaciones de calibración de regresión son iguales a las obtenidas a partir de los ingenuos, a menos que el original escala de medición es de alguna manera incorporado. Ninguno de los métodos realizado muy mal siempre y cuando el error de medición no es demasiado grande, sin embargo los efectos fueron atenuados por un factor de casi 0,6 en ambos modelos A y B en el más grave error de medición situación estudiados = 0,2). Cuando λ = 0,5, el factor de atenuación de estos modelos fue justo por encima de 0,8. Por lo tanto, el efecto estimaciones difieren considerablemente de los verdaderos efectos en muchos casos. Por otra parte, una disminución de la ratio de fiabilidad se asocia con un mayor sesgo, como era de esperar.

Utilizando la mediana de los valores en el modelo C, vemos que la regresión de calibración de enfoque imparcial da efecto a las estimaciones. Esto es en contraste con el enfoque ingenuo, que en los casos más graves = 0,2) indica que los efectos son aproximadamente 1 / 3 de los verdaderos efectos.

Cuando el número de repeticiones varía, vemos una vez más que la regresión de calibración no mejora significativamente el efecto de las estimaciones en relación con el planteamiento ingenuo, salvo con el modelo C. En estos resultados, vemos algunos pequeños, aunque no sustanciales, las diferencias entre los dos enfoques para los modelos A y B, debido a la confusión efecto mencionado anteriormente. También vemos que, al contrario de lo que cabía esperar de la Tabla 1, se calibrará la regresión estima que son un poco mejor. A pesar de que el ingenuo enfoque da un mayor porcentaje de casos clasificados correctamente, la media distancia al cuadrado entre la verdad y la categoría observado es en realidad más grande que para el enfoque RC (1,23 vs 1,20), al explicar esta aparente contradicción. Anuncio también que los resultados son generalmente peores de replicación con este patrón que cuando todos los individuos se midieron dos veces.

Ejemplo

Para ilustrar nuestros resultados, utilizamos los datos suplementarios sobre la no ingesta de folatos, la ingesta total de energía y tener una percepción de la depresión de la mujer y el noruego Cáncer (NOWAC) Estudio de cohorte se inició en 1991 [22]. Los datos fueron recolectados por cuestionarios de frecuencia alimentaria (FFQs), y se analiza un subconjunto de replicación estudio en el que una muestra de la cohorte se midieron por segunda vez. La submuestra reproducirse consta de 898 personas que no tienen los datos que faltan. Por lo tanto, hemos W ij = estimado ingesta de folatos a través de los alimentos (en μ g μ g / MJ) para cada i en FFQ j, e Y i = auto-reporte de la depresión (sí / no) para cada i, donde i = 1, .. ., 898, j = 1, 2. La prevalencia de depresión en la muestra fue de 19,7%.

La ingesta de folatos, ajustado por la ingesta total de energía, está relacionada con una percepción de la depresión utilizando modelos de regresión logística. El uso de la continua exposición, el ingenuo odds-ratio (OR) se estima como 0.70 (SE = 0.13) por cada 10 μ g μ g / MJ aumento de la ingesta de folatos, mientras que la regresión de calibración de enfoque dio = 0.62 (bootstrapped SE = 0.16). En cuanto a los efectos de ir desde el primer hasta el último quintil (modelo A), encontramos = 0,57, con errores estándar 0,15, para ambos enfoques. El simple tendencia (modelo B) se estimó en 0.87 (SE 0.05) para ambos enfoques. La aplicación de los valores medios en el modelo C, el ingenuo efecto estimación se = 0.61 (SE = 0.13) por cada 10 μ g μ g / MJ aumento de la ingesta de folatos, mientras que la estimación fue corregida 0.52 (SE = 0.15).

Evidentemente, todos estos resultados son bastante inestables. Sin embargo, nos damos cuenta que en situaciones en las que la escala original se incorpora, la regresión de calibración de enfoque da efecto a las estimaciones más fuerte que el enfoque ingenuo. Por el contrario, cuando el análisis se realiza en el quintil de la escala, los dos enfoques dar resultados similares.

Las 898 personas incluidas en el estudio de replicación se tomaron muestras de un grupo más amplio (n = 19740 no con los datos que faltan), con mediciones de la ingesta de folatos. Incluido el total del grupo en el análisis, tenemos los siguientes resultados: El uso de la continua exposición, el ingenuo odds-ratio fue de 0.84 (SE = 0.03) por cada 10 μ g μ g / MJ aumento de la ingesta de folatos, mientras que la regresión de calibración de enfoque dio = 0.75 (SE = 0.05). Bajo el modelo A, encontramos = 0.71 (SE = 0.04) para ambos enfoques, así como el simple tendencia (modelo B) se estimó en 0,92, con error estándar 0,01, una vez más para ambos enfoques. La aplicación de los valores medios en el modelo C, el ingenuo efecto estimación se = 0.78 (SE = 0.03) por cada 10 μ g μ g / MJ aumento de la ingesta de folatos, mientras que la estimación corregida fue 0,67 (SE = 0.05).

A pesar de que ahora tienen distintos números de repeticiones, los dos enfoques todavía dar los mismos resultados para los modelos A y B, probablemente debido a un total de dos mediciones en sólo 4,5% de los individuos no es suficiente para introducir la confusión efecto mencionado anteriormente. En total, 98,7% de los individuos fueron clasificados en pie de igualdad con los dos enfoques, y ninguno de ellos diferían en más de 1 categoría. Los resultados globales en cuanto a la comparación ingenuo RC vs enfoque se mantienen sin cambios.

Discusión

Encontramos en este documento que los excelentes resultados de la regresión del método de calibración para hacer frente a error de medición continua en las exposiciones en el análisis de regresión, se ve disminuida cuando la exposición está organizada por categorías efecto antes de las estimaciones se obtienen. Como puede verse, hay que referirse de nuevo a la escala original para el enfoque de ser valioso.

En particular, encontramos que el efecto utilizando las estimaciones RC son comparativos a los obtenidos por un enfoque de ingenuo no se rectifica el error de medición, cuando la exposición se analiza en una escala categórica. En algunos casos, analíticamente son iguales. La razón principal de los pobres resultados que está utilizando la categorización de la exposición corregido aún conserva clasificación errónea, que es similar a los errores de clasificación obtenida con el enfoque ingenuo, y esto induce a errores de clasificación sesgo en el sentido de las estimaciones. Cuando se utiliza la mediana valor medido la exposición de cada grupo como variable explicativa, las obras de regresión de calibración de la disminución de la propagación en la exposición de distribución, por lo que en efecto las estimaciones más grandes.

Para el análisis de regresión incluyendo una covariable medido sin error, nos encontramos con algunas diferencias entre la ingenuidad y la RC, sobre todo cuando la correlación entre la exposición y la covarianza es fuerte. Sin embargo, ninguno de los enfoques son especialmente buenas.

Dado que la razón de los magros resultados se encuentra en el tratamiento de la variable explicativa, nuestras conclusiones generales son la mayoría ciertamente no exclusiva de cualquier modelo de regresión, pero puede extenderse a otros se refieren a modelos de regresión.

En las pruebas de diagnóstico, por ejemplo, es bastante común para clasificar de acuerdo a una determinada línea de corte, donde una enorme valor como se diagnostica un caso. Por otra parte, en estudios epidemiológicos, uno puede también estar relacionada con grupos fijos de exposición / exposición grupos que se definen de forma independiente los datos observados, por ejemplo la clasificación de fumar en (0), (1 - 10), (11 - 20) y (> 20) cigarrillos por día, o índice de masa corporal (IMC) en la insuficiencia ponderal (<18,5), un peso inferior al normal (18,5 a 24,9), sobrepeso (25 a 29,9) y obesidad (≥ 30). Un pequeño estudio de simulación se llevó a cabo para explorar si los resultados actuales, cuando estos mantener fijo los puntos de corte se aplican, y RC parece que ahora gana una pequeña ventaja en comparación con el enfoque ingenuo. Por otra parte, la más extrema de cortar el punto, cuanto mayor sea la diferencia entre los dos enfoques. Esta situación corresponde a la verdad cuando los percentiles se conocen, aunque la interpretación de los resultados es algo diferente.

Nos hemos centrado en una situación con repeticiones. Sin embargo, como se indica en la Introducción, otras fuentes de información en relación con el error de medición puede ser interna o externa o estudios de validación de variables instrumentales. El método estudiado en este documento, todavía ascienden a un adecuado modelo de regresión para la verdad, dada la exposición medidos, y en particular la prevista exposición de este modelo en el análisis principal. Por otra parte, los percentiles se predicho por el mismo modelo, tan ingenuo y corregida por categorías de exposición son los mismos en estas situaciones.

En algunos casos puede que no sea adecuado utilizar la escala original en el análisis, el investigador podría específicamente desea referirse a las variables categóricas. En nuestra opinión, hay dos posibles enfoques para obtener estimaciones eficientes efecto en estos casos. O bien a) algunos se necesita información acerca de errores de clasificación probabilidades o b) una mejor manera es necesario para clasificar el original de mediciones continuas.

No podemos lograr una) utilizando simplemente repetir las medidas (sin más las hipótesis sobre la distribución de X), pero podría si tuviéramos la validación de datos. Por ejemplo, Rosner [16] sugirió que simplemente tratar estas situaciones como problemas de clasificación errónea, ordinal utilizando procedimientos de regresión con datos de validación. Un enfoque similar latente la participación de la clase de modelado de datos replicados se ha propuesto [23]. Recientemente, Küchenhoff et al. [24] desarrolló el MC-SIMEX metodología, para hacer frente a situaciones con errores de clasificación en categorías de exposición y / o respuesta, sin embargo el procedimiento requiere ya sea de conocimiento o una estimación de la matriz de errores de clasificación. Un enfoque bayesiano para problemas de clasificación errónea ha sugerido [25], lo que podría ser dado un paso más en nuestro medio.

Para lograr b) uno puede tratar de estimar la distribución de las X, y sus percentiles en una forma no paramétrico utilizando las medidas de replicar. Se ha realizado una amplia labor en la estimación de la distribución de X (ver [26] y las referencias en él, y una nueva idea fue propuesta recientemente por Freedman et al. [27]], sino la capacidad de estas técnicas para estimar con precisión los percentiles no se ha explorado a fondo . Se está trabajando para explorar el uso de estas técnicas en el problema actual.

En lugar de ir a través de los valores esperados de la continua exposición, se podría encontrar directamente la espera categórica exposición. Esperamos que con el análisis de espera condicional probabilidades (dada la exposición observada) de las categorías dará mejores resultados que el análisis de variables "dummy". Esta última asciende a ajustar la probabilidad de que la más probable para la categoría 1 y todas las demás probabilidades a 0, con lo que haciendo caso omiso de la información que reside en la incertidumbre de la clasificación.

El trabajo futuro debería tratar de desarrollar adecuada y funcional procedimientos de corrección en los análisis que la exposición variable se clasifican de acuerdo a percentiles, y las investigaciones deben llevarse a cabo con el fin de decidir qué método es el mejor o más adecuada para las recomendaciones a incluir en análisis de rutina.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

ID es responsable de la mayor parte del estudio de diseño, el análisis y la escritura. JPB, PL y MT ayudó con la conceptualización y la escritura del artículo, AH hizo la preparación de datos.

Agradecimientos

Esta labor fue apoyada por una beca del Counsil de Investigación de Noruega, que también suministra un visitante de la subvención para Buonaccorsi.