Epidemiologic Perspectives & Innovations, 2006; 3: 8-8 (más artículos en esta revista)

Precisión de geocodificación comerciales: evaluación e implicaciones

BioMed Central
Eric A Whitsel (ewhitsel@email.unc.edu) [1], P Miguel Quibrera (mqm@email.unc.edu) [2], Richard Smith L (rls@email.unc.edu) [3], Diane J Catellier (diane_catellier@mail.cscc.unc.edu) [4], Duanping Liao (dliao@psu.edu) [5], Amanda C Henley (ahenley@refstaff.lib.unc.edu) [6], Gerardo Heiss ( gerardo_heiss@unc.edu) [2]
[1] Departamentos de Epidemiología y Medicina de la Universidad de Carolina del Norte, Programa de Enfermedades Cardiovasculares, Bank of America Center Suite 306, 137 East Franklin Street, Chapel Hill, NC 27514, EE.UU.
[2] Departamento de Epidemiología, Universidad de Carolina del Norte, Programa de Enfermedades Cardiovasculares, Bank of America Center Suite 306, 137 East Franklin Street, Chapel Hill, NC 27514, EE.UU.
[3] Departamento de Estadística e Investigación Operativa de la Universidad de Carolina del Norte, 201 Smith Building 128, Chapel Hill, NC 27599, EE.UU.
[4] Departamento de Bioestadística de la Universidad de Carolina del Norte, Estudios de Coordinación de Colaboración Center, 137 East Franklin Street, Chapel Hill, NC 27514, EE.UU.
[5] Departamento de Evaluación de Ciencias de la Salud, la Universidad Estatal de Pennsylvania College of Medicine, 600 Centerview Drive Suite 2200, A210, Hershey, PA 17033, EE.UU.
[6] Walter Davis Real Biblioteca de la Universidad de Carolina del Norte, de referencia del Departamento de Servicios de Información Geográfica, Chapel Hill, NC 27599, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Publicado estudios de geocodificación precisión a menudo se centran en una sola zona geográfica, la dirección fuente o vendedor, no ajustar la precisión de medidas para abordar las características, y no examinar los efectos de inexactitud en la exposición. Hemos abordado estas cuestiones en un Women's Health Initiative auxiliares estudio, la Epidemiología Ambiental de Arrhythmogenesis en WHI.

Resultados

Direcciones en 49 estados de EE.UU. (n = 3615) con las coordenadas fueron geocoded por cuatro vendedores (AD). Hubo diferencias importantes entre los vendedores coinciden en dirección tasa (98% y 82%, 81%, 30%), concordancia entre los proveedores establecidos y asignados por secciones censales (85% y 88%, 87%, 98%) y la distancia entre establecido y los proveedores de coordenadas asignadas (media ρ [metros]: 1809, 748, 704, 228). Ρ media fue más baja entre la calle acompañado, completa con código postal-, sin editar y direcciones urbanas, y las direcciones de América del Norte con el Datum de 1983 o Sistema Geodésico Mundial de 1984 coordenadas. En modelos mixtos restringido a los vendedores con mínimamente aceptables tasas de partido (AC), y adaptado para atender las características, dentro de la dirección de correspondencias, y entre los proveedores de heteroscedasticity ρ, las diferencias de medias ρ eran pequeños de la calle del tipo de partidos (280, 268, 275 ), Es decir, el sesgo probable que los resultados dependen de ellos sobre la misma para la mayoría de las aplicaciones. En contraste, las diferencias entre el baricentro del tipo de partidos son importantes en algunos contrastes vendedor, pero no otros (5497, 4303, 4210) la interacción p <10 -4, es decir, es más probable que los resultados de sesgo diferente en muchas aplicaciones. El odds ajustada de una dirección partido fue mayor para los proveedores frente a una C (odds-ratio = 66, 95% intervalo de confianza: 47, 93), pero no B versus C (OR = 1,1, IC 95%: 0,9, 1,3). Ese censo de concordancia del tracto superior no era para un vendedor versus C (OR = 1,0, IC 95%: 0,9, 1,2) o B versus C (OR = 1,1, IC 95%: 0,9, 1,3). Clasificación errónea de una medida relacionada con la exposición - la distancia más cercana a la autopista - aumentó con la media ρ y en ausencia de confusión, la no clasificación errónea diferencial de esta distancia sesgada su hipotética asociación con enfermedad coronaria la mortalidad hacia el vacío.

Conclusión

Geocodificación de error depende de las medidas utilizadas para evaluar, tratar y las características de proveedores. Selección de proveedores presenta un trade-off entre los posibles para obtener datos que faltaban y error en la estimación de atributos definidos espacialmente. Informada la selección es necesaria para controlar el comercio de despegue y ajustar los análisis de sus efectos.

Fondo

Diversas fuentes de error de medición tiene consecuencias considerables para la exactitud de las estimaciones epidemiológicas. La exposición error de medición, por ejemplo, pueden surgir cuando los sistemas de información geográfica son de confianza sin reconocer las limitaciones de los procesos que dependen de ellos. Dentro de estos procesos se pongan en venta dirección, la vinculación automática de coordenadas (latitud, longitud) y la tabulación de estadística (por ejemplo, secciones censales), con direcciones de calles, típicamente usando TIGER / Línea de calle u otros archivos de datos [1]. El proceso - que es también conocido como geocodificación - se ha descrito en detalle [2, 3]. Geocodificación implica generalmente se pongan en venta las direcciones concretas a segmentos de la calle luego de posicionamiento a lo largo de las direcciones de los segmentos suponiendo una distribución equitativa de los números de la calle dentro de ellos. Aunque esta forma de geocodificación implica la interpolación lineal y las hipótesis que pueden ser inadecuadas, su inexactitud puede ser pasado por alto en gran medida, basados en la población estudios de asociaciones entre interpolados espacialmente las exposiciones ambientales, los resultados de salud, y su contexto, modificadores del efecto socioeconómico. Sin embargo, geocodificación precisión es fundamental, cuando estos estudios se centran en la exposición mecanismos que operan en distancias cortas [4].

Aunque error en la asignación de latitudes, longitudes y secciones censales tiene el potencial de sesgo tanto la estimación de la ubicación específica de las exposiciones y los contextos socioeconómicos en que se producen [5, 6], estudios recientes han informado de errores de posición media en geocoded dirección comercial entre las coordenadas cincuenta y 300 metros [7 - 11]. Se trata de una distancia a la que media a largo plazo la contaminación atmosférica concentraciones, meteorológicos y sus medidas de seguimiento para supervisar temporal de las correlaciones son relativamente constante [12 - 14]. Sin embargo, las concentraciones de tráfico relacionados con el rápido descenso de emisiones a los niveles ambientales comparables dentro de distancia que les separa de la calle-centro de las líneas [15]. Por otra parte, la posición de error puede ser pertinente en una gama aún más amplia de si los estudios se informó anteriormente rango de distancias (50 - 300 m) es una subestimación. La falta de ajuste para hacer frente potencialmente importantes características sugiere que se trata de una posibilidad real. La densidad de población en los alrededores de una dirección, por ejemplo, es tan firme y asoció inversamente con la posición de error informó de que las distancias pueden estar sesgados por incluso pequeñas diferencias en la relación de las zonas rurales a las urbanas y suburbanas dirección coincide con [16, 17]. Error posicional también varía notablemente con el tipo de concordancia, es decir, si coinciden con los proveedores individuales a las direcciones específicas a las calles o centros de tabulación áreas de estadística (centroides) [18], pero hasta la fecha, la mayoría de los estudios no tienen en cuenta para estos factores.

Publicado estudios de error posicional tiene varias características adicionales que son pertinentes en este contexto. Muchos restringido su enfoque a un solo establecimiento geográfica, la dirección fuente de códigos geográficos o vendedor, mientras que los que se centran en múltiples proveedores no cuenta para los proveedores heteroscedasticity o dirección dentro de la correlación de error posicional [19, 20]. Otros ignorado potencial de sesgo de verificación [21] y con una notable excepción, ninguno examinó los efectos del error posicional en la exposición medidas [7]. En conjunto, estas observaciones sugieren que la próxima generación de estudios en este ámbito deben concebirse con generalizar, validez y utilidad en mente.

Con este fin, el estudio estableció tres objetivos: (i) para comparar los vendedores múltiples códigos geográficos utilizando la misma muestra de direcciones con coordenadas conocidas seleccionados a partir de una amplia gama de fuentes de datos y áreas geográficas, (ii) para estimar la precisión y la geocodificación cuenta de dirección características que la afectan utilizando los procedimientos estadísticos apropiados, y (iii) para estimar los efectos de imprecisión observada en individuales y contextuales-a nivel de exposición. Hemos realizado este estudio para informar a la investigación que emanan de dos estudios. La primera, La Epidemiología Ambiental de Arrhythmogenesis en WHI [22], es un auxiliar de estudio electrocardiográficos mecanismos de vinculación de la contaminación del aire y las enfermedades cardiovasculares en EE.UU. 68133 mujeres de edades 50-79 años al inicio del estudio en el Women's Health Initiative (WHI) de ensayos clínicos [23 ]. El segundo, el Atherosclerosis Risk en Comunidades (ARIC) study, es un estudio prospectivo de las enfermedades cardiovasculares en EE.UU. 15792 hombres y mujeres con edades 45-64 años al inicio del estudio [24]. Esta revisión institucional aprobada por la Junta auxiliares estudio cumplió con todos los reglamentos que rigen los sujetos de investigación (Universidad de Carolina del Norte Médico IRB # 03-EPID-12).

Métodos
El montaje y la limpieza de direcciones

Hemos examinado siete, electrónicas disponible al público las fuentes de datos para las direcciones en las zonas contiguas de los EE.UU. que contiene los 75 WHI y cuatro ARIC examen sitios [25 - 27]. Las direcciones fueron elegibles para su inclusión en este estudio si fueran únicos, asociados a una latitud, longitud, la calle (o la vía o apartado de correos), ciudad y estado, y válido en EE.UU. Censo año 2000. Screening 3615 identificaron la dirección: 2522 de EE.UU. Agencia de Protección Ambiental (EPA) de calidad del aire en los monitores del sistema en los 48 estados contiguos de Estados Unidos y el Distrito de Columbia; 1050 de ensayo clínico WHI participantes en cinco condados que contienen la mayoría de WHI participantes que residen en Carolina del Norte ( Durham; Forsyth; Guilford; Orange; Wake), y 43 de EE.UU. Servicio Geodésico Nacional (NGS) en las estaciones de las cuatro comunidades ARIC (Forsyth County, NC; Washington County, MD; de la ciudad de Jackson, MS, ocho suburbios de Minneapolis, MN). Hemos limpiado las direcciones (ediciones menores) cuando no se ajusten a Servicio Postal de EE.UU. normas [28]. También utiliza basado en la web los servicios públicos [29 - 32] para investigar y corregir la información de dirección (las principales modificaciones), cuando en conflicto con que en el acompañamiento de notas de campo (sólo se ocupa de la EPA). Si ninguna condición se cumple, no editar las direcciones y marcadas como "sin editar". Los lugares y las características de las direcciones que se describen en la Figura 1 y Tabla 1.

Calidad de Datos Espaciales

Coordenadas en grados decimales con al menos seis dígitos significativos después del punto decimal acompañado todas las direcciones. EPA coordenadas se establecieron de acuerdo a una norma federal precisión de <25 m [33], NGS coordenadas, de acuerdo a una norma federal <10 m [34], las coordenadas y WHI, mediante la aplicación de una rutina espacial que determina los puntos del centro residencial parcelas de tierra en mapas digitales (adaptado de O'Rourke [35]]. La mediana de la exactitud de este último método se aproxima a la de alta resolución fotografía aérea, de 8 a 15 m dependiendo de la densidad de población [16]. Estas coordenadas y sus asociados bloque de grupo, las vías, y el condado de identidad (EE.UU. Censo 2000 de Procesamiento de Información Federal de Normas [FIPS] códigos) actuó como el criterio que las normas contra la exactitud de su proveedor asignado la codificación geográfica se midió.

Geocodificación direcciones y la estimación de la precisión

Nos envía a las direcciones a cuatro bien conocidos vendedores (AD) a menudo contratados por los epidemiólogos de geocodificación y las formas conexas de servicios o productos (Cuadro 2]. Nosotros los vendedores etiqueta genérica en este documento para ocultar su identidad, una práctica coherente con nuestros datos actuales acuerdos de uso y aplicadas anteriormente en contextos similares [5, 7, 20]. Para examinar si presenta el error de edición, también presentó las versiones no editadas de la EPA editado aborda a uno de los proveedores. Se estimó la exactitud de la codificación geográfica asignada por los vendedores utilizando tres medidas previamente definidos: (i) la dirección coincide con la tasa (%), es decir, el porcentaje de todas las direcciones a las que un determinado proveedor asignará una latitud, longitud y código FIPS, (ii) la concordancia (%) entre los proveedores asignado y el criterio estándar FIPS códigos, y (iii) la distancia en metros entre los proveedores de criterio asignado y las coordenadas estándar, medido utilizando el esférico Haversine fórmula de la Tierra (ρ) [20]. Estamos basados en las medidas en análisis de datos espaciales que nos transforma, cuando sea necesario, a un nivel geográfico sistema de coordenadas utilizando ArcGIS ® 9,0.

Análisis de varianza

Se utilizó análisis de varianza (ANOVA) para cuantificar la variación de ρ (log-transformado para satisfacer la asunción de Gaussian errores) entre los vendedores, antes y después de controlar por las características que afectan a la precisión de códigos geográficos: dirección fuente (EPA; WHI; NGS), Tipo de dirección (completa, sin número de calle, intersección), código postal (actual; ausente), edición (sin editar; menor; principales), la densidad de población del censo del tracto asociados (personas / km 2), y coordinar dato original (América del Norte Dato de 1983 [NAD83] o Sistema Geodésico Mundial de 1984 [WGS84]; Datum de América del Norte de 1927 [NAD27]; desconocido). En este contexto, "sin número de calle" incluye la ruta rural y apartado de correos direcciones. Después de la prueba para la modificación efecto (importancia de la interacción entre el vendedor y el tipo de concordancia), estratificado modelos ANOVA. Hemos calculado ajustado, menos cuadrado medio entre los proveedores utilizando ponderaciones que se proporcional a la distribución observada de covariables en nuestra base de datos. - Estamos de vuelta transformado predijo valores a la escala original de la siguiente manera: , Donde y fueron las específicas de su proveedor cuadrados menos medios y las diferencias de log ρ, este último estimado de los residuos. Se utilizó la regresión logística para estimar el odds ratio y el 95% intervalos de confianza (OR, IC del 95%) para coincidir con la dirección y censo del tracto concordancia entre los vendedores, antes y después del ajuste para la misma dirección las características utilizadas en los modelos de ANOVA. Hemos elegido arbitrariamente vendedor C como una base de comparación en estos modelos logísticos.

Dentro de la dirección y dependencia entre los proveedores de heteroscedasticity ρ

Reconociendo que el análisis anterior no cuenta para observar la dependencia de las coordenadas asignadas a la misma dirección por diferentes vendedores y la heterogeneidad de las diferencias a través de los proveedores (entre baricentro de tipo partidos), análisis repetidos usando modelos de efectos mixtos. Este marco permite el modelado simultáneo de la especificación dentro de la dirección y dependencia entre los proveedores de heteroscedasticity ρ. Asumiendo los valores de ρ proporcionados por diferentes proveedores son igualmente correlacionadas, hemos utilizado un compuesto simétrico (intercambiables) la estructura de covarianza. Nosotros no estábamos interesados en las pruebas de hipótesis en relación con las varianzas y covarianzas de la dirección dentro de la matriz de covarianza. Simplemente los consideró como molestias a los parámetros que necesitan ser controlados. También se consideraron las direcciones como una muestra aleatoria de una mayor población definida, y la muestra de vendedores fijos. Inferencias, por lo tanto, se refieren a los cuatro proveedores.

Solicitud

Hemos examinado los efectos de la geocodificación de error observado en el rango de ρ en un 5% muestra aleatoria de la calle de tipo coincide con la dirección (n = 2608) y un censo de baricentro de tipo coincide con la dirección (n = 2671) de La Epidemiología Ambiental de Arrhythmogenesis en el WHI, 1999-2002 [36]. En pocas palabras, desplazadas las coordenadas asociadas a cada una de las direcciones al azar más de una distribución uniforme de θ (rango, 0-360 °) y la distribución lognormal de ρ con medias y desviaciones estándar aproximación de la gama de valores observados en este contexto. Se utilizó ArcGIS ® 9,0 a ceder el original y el desplazamiento de las coordenadas para el año 2000 del Censo de EE.UU. y extensiones para calcular la distancia entre las coordenadas y la interestatal más cercana, EE.UU., o el estado o carretera principal arteria de tráfico en ese momento. De acuerdo con la literatura previa, dichotomized esta distancia a 100 metros para crear un simple proxy para el tráfico de contaminación del aire relacionada con la exposición [15, 37]. Luego se analizó el efecto del desplazamiento en esta representación, exposición a las tasas de errores de clasificación y censo de las vías de concordancias. Hemos completado todos los análisis utilizando el SAS, versión 9,1 paquete de software.

Resultados

De puerta a puerta retorno veces geocodificación y gastos razonables en general a través de proveedores: rango, 2-5 días hábiles y $ 16 - $ 25 por cada 1000 direcciones. Sin embargo, los análisis de la base de datos de direcciones editado puesto de manifiesto grandes diferencias entre los vendedores de AD en dirección coincide con la tasa (98% y 82%, 81%, 30%), censo del tracto concordancia (85% y 88%, 87%, 98%) y media ρ (1809, 748, 704, 228 m) (Tabla 3 y Figura 2]. Dirección y coincide con la tasa de concordancia del tracto censo eran relativamente alta y media ρ, relativamente baja entre WHI, completa con código postal-, sin editar, y urbanos o suburbanos direcciones; direcciones con NAD83 o WGS84 criterio estándar de las coordenadas y la calle de tipo partidos (Cuadro 4 ).

En el análisis restringido a los vendedores con mínimamente aceptables tasas de partido (AC), entre proveedores diferencias en media ρ eran pequeños de la calle del tipo de partidos (293, 287, 288 m). En contraste, las diferencias entre el baricentro del tipo de partidos son importantes en algunos contrastes vendedor, pero no otros (6375, 4854, 5524 m), para la interacción p <10 -4. Adaptación a las características de dirección, dentro de la dirección y correlación de ρ heteroscedasticity reducido la media y desviación estándar de ρ (Cuadro 5]. El patrón de media ajustada ρ entre los vendedores que refleja el ajustado de las probabilidades de un discurso partido: fue mayor para los proveedores frente a una C (OR = 66, IC 95%: 47, 93), pero no B versus C (OR = 1,1 , IC 95%: 0,9, 1,3). Las probabilidades de ajustarse censo del tracto concordancia son, por comparación, no superior a un vendedor versus C (OR = 1,0, IC 95%: 0,9, 1,2) o B versus C (OR = 1,1, IC 95%: 0,9, 1,3) ( Cuadro 6].

Si se restringiera análisis a los registros con éxito geocoded de todos los proveedores AC atenuada significa ρ y su patrón de diferencias entre ellos. Match tipo de censo y del tracto concordancia fueron mucho más bajos, y la media de ρ, mucho más alto en los análisis de la frente sin editar editado EPA direcciones (datos no presentados).

El porcentaje de la calle de tipo coincide con la dirección <100 metros de la carretera más cercana fue relativamente constante en la media ρ (Cuadro 7]. Esta aparente ausencia de errores de clasificación se relacionó para contrarrestar los efectos de equilibrio aproximadamente igual de falsos positivos y falsos negativos en las tasas de valores de la media ρ entre 150 y 600 metros. Juntos, representaron un aumento del 14% en la tasa de error total en el mismo rango. Este incremento fue acompañado por una disminución del 20% en el censo del tracto concordancia.

En contraste, el porcentaje de baricentro de dirección coincide con el tipo clasificado como <100 metros de la carretera más cercana fue aproximadamente dos veces mayor a cero frente a valores no nulos de media ρ (Cuadro 7]. Este hallazgo se relaciona con la de dos a tres veces el exceso de falsos negativos frente a las tasas de falsos positivos en los valores de ρ media entre 2500 y 10000 metros. El total de aumento de tasa de error de 3% y el censo del tracto concordancia disminuyeron en un 24% durante el mismo rango.

Discusión

Persistentes preocupaciones sobre los posibles efectos de geocodificación inexacta interpolados espacialmente en las exposiciones ambientales, la exposición de resultados asociaciones, contextuales y sus efectos modificadores han estimulado el interés en el error posicional de dirección comercial geocoded coordenadas. Sin embargo, los estudios del tema a menudo han informado de la posición media de errores en el rango de cincuenta a 300 metros [6 - 9, 16 - 20]. A pesar de que estos informes han reducido esas preocupaciones, pocos estudios se han centrado en varias zonas geográficas, las fuentes y la dirección de los proveedores; ajustada precisión medidas importantes para la dirección y características metodológicas, y estima que la influencia de inexactitud en individuales y contextuales a nivel de exposición. El generalizar, la validez y la utilidad de estas estimaciones, por lo tanto, es poco claro.

Abordamos esta cuestión en un Women's Health Initiative auxiliares estudio, la Epidemiología Ambiental de Arrhythmogenesis en WHI, mediante la presentación de las direcciones seleccionadas de una amplia gama de fuentes de datos y áreas geográficas a cuatro bien conocidas a menudo los proveedores contratados por los epidemiólogos de geocodificación y servicios conexos o productos (en el momento de la presentación, que había estado en el mercado por un total combinado de> 35 años, empleada> 650 personas, e informó de> 50 millones de dólares de ventas anuales [38]]. A continuación, examinó las diferencias entre los vendedores coinciden en dirección tasa de concordancia del tracto censo y media ρ.

Se encontró que geocodificación de error depende de las medidas utilizadas para evaluar y vendedor. Más concretamente, los vendedores se pongan en venta las proporciones más bajas de direcciones geocoded con mayor precisión espacial, es decir, el censo del tracto superior e inferior de concordancias de media ρ. También se encontró que la geocodificación de error depende de las características dirección. La media de ρ, por ejemplo, fue relativamente alta entre la EPA, incompleta, con código de descomprimir, editado rural y direcciones; direcciones con NAD27 criterio estándar de las coordenadas, y en particular, baricentro de tipo coincide con la dirección. Después de estratificar por tipo de concordancia, luego de ajustar por el resto de abordar las características y otros factores metodológicos, con una media de ρ permanecido veinte veces más alta entre un vendedor del baricentro-frente a la calle de tipo coincide con la dirección. El ajustado probabilidades de coincidir con una dirección también se mantuvo más de sesenta veces más alto para un vendedor que cualquiera de los dos B, o C. Por último, de forma aleatoria dirección coordina el desplazamiento de más de la gama media de ρ observó en este contexto, encontramos que el tráfico de la contaminación relacionada con la exposición clasificación errónea y el aumento de las tasas de censo de las vías disminuyó concordancia con los correspondientes incrementos en media ρ.

Considerado en conjunto, estos hallazgos sugieren que la selección de proveedores presenta un trade-off entre los posibles para obtener datos que faltaban y error en la estimación de atributos definidos espacialmente, como la exposición medioambiental y el contexto socioeconómico. También indican que el trade-off puede ser bastante desequilibrado. Vendor D, por ejemplo, corresponde inaceptablemente baja proporción de direcciones, pero ellos geocoded singularmente con un alto grado de precisión espacial. Por otra parte, la asociación observada entre los datos que faltan y error posicional a través de los proveedores sugiere que, si bien los vendedores pueden ser dirigidos a diferentes puntos a lo largo de la trade-off del espectro, tienden a mantener las observaciones que puedan tener errores de posición. Eliminar estas observaciones, por supuesto, se traducen en la reducción potencial de sesgo debido al individuo-y contextual a nivel de error de medición de la exposición, pero no queda claro si los proveedores pueden aumentar la precisión de los datos sin comprometer su disponibilidad.

Aunque estos resultados pueden tener una mayor generalizar, la validez y la utilidad que los que se informó anteriormente, nuestro criterio de las normas puede haber sido imperfecta. Interpretación tanto, debemos reconocer el potencial de sesgo debido a la elusiveness definitiva de un criterio estándar. De hecho, coincide con la tasa de concordancia y puede haber sido sobreestimado y media ρ, subestimado porque utilizando normas imperfectas criterio tiende a inflar artificialmente exactitud [21].

Desde errores de precisión en las medidas varían en función de los errores de criterio de las normas imperfectas, por lo tanto, editado direcciones cuando no se ajusten a las normas de EE.UU. postal o en conflicto con notas de campo. Edición de estar destinadas a reducir errores, misspaced abreviado o mal estado, calles secundarias o sufijo unidad designaciones como "apartamento" [28]. Aunque bien intencionadas, la edición de Mayo han introducido error en lugar de reducirla. Consciente de esta posibilidad, hemos presentado tanto el editado y sin editar versiones de la EPA se ocupa de geocodificación. Hemos encontrado que, en promedio, y coinciden con tasa de concordancia del tracto censo eran mucho más altos y media ρ, mucho menor en los análisis de los editados frente a las versiones no editadas de la base de datos. Este hallazgo confirma que, en promedio, tiende a la edición de corregir direcciones y por lo tanto, reducir el error de precisión en medidas, sino como medida de precaución, también ajustado las medidas de precisión para editar tipo.

Incluso después de la edición de direcciones, nuestro criterio puedan tener las normas que figuran las coordenadas erróneas de la EPA monitores, estaciones de NGS WHI y los participantes. Tales errores han sido identificados, por ejemplo, dentro de bases de datos de la EPA de los peligros ambientales en Carolina del Sur [39]. Aunque las tesis errores varía en los diferentes fuentes de datos, entre los estados y con el tiempo, su posible existencia, en este contexto, no es menos preocupante. La EPA llevado a cabo su Política de los datos de localización en 1991 en respuesta a las inquietudes de este tipo. Se estipula la adopción de métodos uniformes, el uso de sistemas de posicionamiento global y la recogida de supervisar las coordenadas de acuerdo con un Federal Interagency Comité de Coordinación para la Cartografía Digital nivel de precisión 25 metros [33]. Cinco años más tarde, la EPA también lanzó sus datos de localización del Proyecto de Mejoramiento como un vehículo para nuevas mejoras en la exactitud de sus bases de datos [40]. Por otra parte, la NGS se adhiere a una más estrictas, 1998 Comité Federal de Datos Geográficos nivel de menos de diez metros [34] - una distancia idéntica a la parcela entre el centro y puntos auténtico lugares residenciales en las zonas urbanas y un poco menor que en las zonas rurales [16 ]. También ajustada precisión de medidas para abordar las diferencias entre las fuentes a pesar de estas garantías.

Interpretación de los resultados aquí presentados deben tener en cuenta los desafíos inherentes a Aclarar las el efecto general de los proveedores y el efecto específico de un determinado método de códigos geográficos. Calle compensar - la distancia perpendicular entre los proveedores de coordenadas asignadas y la correspondiente central de la calle - sirve como un ejemplo ilustrativo. Aunque los investigadores son a menudo perturbada por los proveedores del supuesto de que esta distancia es igual para todas las direcciones, otro estudio de diseño que se han visto obligados a discriminar los efectos de compensar los proveedores y porque como por defecto, los proveedores utilizan distintos AD compensaciones entre cero y cincuenta pies. Sin embargo, una repetida medidas de diseño - uno en el que aborda la misma habría sido geocoded en repetidas ocasiones por los mismos proveedores con diferentes compensaciones - no era viable: la opción de cambiar valores por defecto no se dispone de manera uniforme entre los proveedores AD. Incluso si hubiera sido, con anterioridad los informes que sugieren que la contribución de geocodificación para compensar la precisión es más bien modesto en el estrecho rango de valores por defecto observado en este contexto son tranquilizadores [11, 16].

Conclusión

Con estas advertencias en mente, llegamos a la conclusión de que informó a la selección de geocodificación prácticas y enfoques para el análisis de datos involucra la estimación de potencial de equilibrio entre los trade-off entre, y en su caso, para ajustar los efectos de los datos que faltan y error en el espacio definido atributos. Le sugerimos iniciar este proceso mediante la presentación (enmascarados) direcciones asociadas con un alto criterio de calidad estándar de las coordenadas en una determinada área de estudio para los proveedores de códigos geográficos, la estimación de la exactitud de los proveedores de coordenadas asignadas, y la selección de proveedores que equilibrar el compromiso entre los datos que faltan y la subsanación de errores en los medios que mejor se ajusten a las necesidades de estudio. Si editado y sin editar formas de la misma dirección se incluyen en el geocoded conjunto de datos, dirección de los procedimientos de limpieza - que debería (aunque tal vez no) ser normalizada - puede ser evaluado simultáneamente.

La comparación de las limitaciones de los métodos comúnmente utilizados para analizar datos incompletos con los que se utilizan para ajustar la posición o la exposición error de medición puede ayudar a priorizar las necesidades de estudio individual de antemano [41 - 44]. Álgebra básica, por ejemplo, se puede utilizar para ajustar las asociaciones para la exposición error de medición [44]. Considere las células observadas en un hipotético estudio de casos y controles de la asociación entre la distancia más cercana a la carretera y las enfermedades coronarias la mortalidad (Cuadro 8]. La sensibilidad (Se) y especificidad (sp) de los 100 m de distancia en la clasificación significa ρ = 150 m puede calcularse a partir de la correspondiente falsos negativos (fn) y falsos positivos (FP) en las tasas de Cuadro 7:

se = 1 - fn = 1 - 0,06 = 0,94

sp = 1 - fp = 1 - 0,08 = 0,92

En virtud de la no clasificación errónea diferencial, las células corregidas se

a = (a * - 0,08 × (a + * c *)) ÷ (0,94 + 0,92 - 1) = 81,40

b = (b * - 0,08 × (b + * d *)) ÷ (0,94 + 0,92 - 1) = 88,19

c = (a * c * +) - a = 143,61

d = (b + * d *) - b = 313,81

y en ausencia de confusión, corregir la odds ratio es

OR = (a × d) ÷ (b × c) = (81,40 × 313,81) ÷ (88,19 × 143,61) = 2,0

Este odds ratio es más extrema que sin su contraparte, O * (Cuadro 8], que está sesgado hacia el vacío. Corregida de distribución de probabilidad puede estimarse utilizando simulación de Monte Carlo [45].

Sin embargo, la magnitud de la exposición error de medición en una variable continua como la distancia más cercana a la carretera no puede variar directamente con la magnitud de una exposición de resultados asociación. Cuando es independiente del estado de la enfermedad, la resultante de errores de clasificación comúnmente utilizado categorías de exposición (por ejemplo, la distancia <o ≥ 100 metros) puede ser diferenciado y varían en formas imprevistas. Aparentemente los ajustes pertinentes también pueden ser inexactos, aun cuando este tipo de errores de clasificación no es diferencial [43]. Esos ajustes tanto, deberá aplicarse con cautela.

Sin embargo, ayuno de selección de prácticas de geocodificación y análisis de datos que parece ser una alternativa menos deseable, sobre todo en estudios de exposición de los mecanismos que operan en las distancias cortas. Los errores posicionales informó aquí sugieren que el "corto" debe ser definida como menos de 280 metros para potencialmente geocodable direcciones corresponde a la calle y menos de 5,5 kilómetros para los que venga, el nivel de baricentro conocido con los proveedores mínimamente aceptable partido tasas . Críticas distancias, sin embargo, pueden ser sustancialmente más bajos, dada la no despreciable tasas de errores de clasificación se observó cuando el consumo de ρ es aproximadamente la mitad del tamaño de estos valores. Más de códigos geográficos precisos métodos que implican de posicionamiento global o se pongan en venta las parcelas pueden ser usados para reducir el riesgo potencial de sesgo en los estudios que requieran dichos altos niveles de resolución espacial [2, 16]. El uso de este último método se espera que aumente con el tiempo a medida de alta calidad, de paquetería a nivel de bases de datos cada vez más disponibles de manera uniforme a través de grandes áreas de estudio.

Abreviaturas

ARIC riesgo de aterosclerosis en las comunidades

CASS codificación precisión sistema de apoyo

EPA Agencia de Protección Ambiental

FIPS Federal de normas de tratamiento de la información

NAD27 y NAD83 Datum de América del Norte de 1927 y 1983

NGS Servicio Geodésico Nacional

TIGER Topologically integrada de codificación geográfica y referencias

USPS Postal de los Estados Unidos del sistema

WHI Women's Health Initiative

WGS84 Sistema Geodésico Mundial de 1984

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Autores de las contribuciones

EAW concebido del estudio, lo diseñó y redactó el manuscrito. PMQ reunió y analizó los datos, y ayudó a redactar el manuscrito. SPI dirigió el análisis estadístico y ayudó a redactar el manuscrito. DJC ayudó a dirigir el análisis estadístico y el proyecto de el manuscrito. DL ayudó a diseñar el proyecto de estudio y el manuscrito. ACH dirigido manipulación de los datos geográficos y ayudó a redactar el manuscrito. GH ayudó a diseñar el proyecto de estudio y el manuscrito.

Agradecimientos

El Instituto Nacional de Ciencias de la Salud Ambiental financiado este estudio auxiliar (5-R01-ES012238). El Instituto Nacional del Corazón, Pulmones y Sangre, EE.UU. Departamento de Salud y Servicios Humanos financia el programa de WHI. Los autores publican sus conclusiones preliminares como un resumen [18] y reconocer las contribuciones de investigadores de WHI en el:

Oficina del Programa (Instituto Nacional del Corazón, Pulmones y Sangre Institute, Bethesda, Maryland), Barbara Alving, Jacques Rossouw, Shari Ludlam, Linda Pottern, Joan McGowan, Leslie Ford, y Nancy Geller.

Clinical Coordinating Center (Fred Hutchinson Cancer Research Center, Seattle, WA) Ross Prentice, Garnet Anderson, Andrea LaCroix, Charles L. Kooperberg, Ruth E. Patterson, Anne McTiernan; (Wake Forest University School of Medicine, Winston-Salem, NC) Sally Shumaker; (Medical Research Labs, Highland Heights, KY) Evan Stein; (University of California at San Francisco, San Francisco, CA) Steven Cummings.

Clinical Centers (Albert Einstein College of Medicine, Bronx, NY) Sylvia Wassertheil-Smoller; (Baylor College of Medicine, Houston, TX) Jennifer Hays; (Brigham and Women's Hospital, Harvard Medical School, Boston, MA) JoAnn Manson; (Brown University, Providence, RI) Annlouise R. Assaf; (Emory University, Atlanta, GA) Lawrence Phillips; (Fred Hutchinson Cancer Research Center, Seattle, WA) Shirley Beresford; (George Washington University Medical Center, Washington, DC) Judith Hsia; (Harbor-UCLA Research and Education Institute, Torrance, CA) Rowan Chlebowski; (Kaiser Permanente Center for Health Research, Portland, OR) Evelyn Whitlock; (Kaiser Permanente Division of Research, Oakland, CA) Bette Caan; (Medical College of Wisconsin , Milwaukee, WI) Jane Morley Kotchen; (MedStar Research Institute/Howard University, Washington, DC) Barbara V. Howard; (Northwestern University, Chicago/Evanston, IL) Linda Van Horn; (Rush Medical Center, Chicago, IL) Henry Black; (Stanford Prevention Research Center, Stanford, CA) Marcia L. Stefanick; (State University of New York at Stony Brook, Stony Brook, NY) Dorothy Lane; (The Ohio State University, Columbus, OH) Rebecca Jackson; (University of Alabama at Birmingham, Birmingham, AL) Cora E. Lewis; (University of Arizona, Tucson/Phoenix, AZ) Tamsen Bassford; (University at Buffalo, Buffalo, NY) Jean Wactawski-Wende; (University of California at Davis, Sacramento , CA) John Robbins; (University of California at Irvine, CA) F. Allan Hubbell; (University of California at Los Angeles, Los Angeles, CA) Howard Judd; (University of California at San Diego, LaJolla/Chula Vista, CA ) Robert D. Langer; (University of Cincinnati, Cincinnati, OH) Margery Gass; (University of Florida, Gainesville/Jacksonville, FL) Marian Limacher; (University of Hawaii, Honolulu, HI) David Curb; (University of Iowa, Iowa City/Davenport, IA) Robert Wallace; (University of Massachusetts/Fallon Clinic, Worcester, MA) Judith Ockene; (University of Medicine and Dentistry of New Jersey, Newark, NJ) Norman Lasser; (University of Miami, Miami, FL) Mary Jo O'Sullivan; (University of Minnesota, Minneapolis, MN) Karen Margolis; (University of Nevada, Reno, NV) Robert Brunner; (University of North Carolina, Chapel Hill, NC) Gerardo Heiss; (University of Pittsburgh, Pittsburgh , PA) Lewis Kuller; (University of Tennessee, Memphis, TN) Karen C. Johnson; (University of Texas Health Science Center, San Antonio, TX) Robert Brzyski; (University of Wisconsin, Madison, WI) Gloria E. Sarto; (Wake Forest University School of Medicine, Winston-Salem, NC) Denise Bonds; (Wayne State University School of Medicine/Hutzel Hospital, Detroit, MI) Susan Hendrix.