International Journal of Health Geographics, 2006; 5: 58-58 (más artículos en esta revista)

Sobre la utilización de códigos de área y código postal tabulación zonas (ZCTAs) para el análisis espacial de los datos epidemiológicos

BioMed Central
Tony Grubesic H (tgrubesi@indiana.edu) [1], Timothy C Matisziw (matisziw.1 @ osu.edu) [2]
[1] Departamento de Geografía, Universidad de Indiana, Bloomington, IN 47405-7100, EE.UU.
[2] Center for Urban and Regional Analysis, The Ohio State University, Columbus, OH 43210-1361, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0], que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que la obra original es debidamente citados.

Resumen
Fondo

Aunque la utilización de datos espacialmente referenciados para el análisis de datos epidemiológicos es cada vez más, las cuestiones relacionadas con la selección de la unidad geográfica apropiada de análisis son también emergentes. Una unidad especialmente problemático es el código postal. A falta de normalización y muy dinámico en su estructura, el uso de códigos de área y código postal tabulación zonas (ZCTA) para el análisis espacial de la enfermedad presentan un desafío único para los investigadores. Los problemas asociados con estas unidades para la detección de patrones espaciales de la enfermedad se exploran.

Resultados

Una breve revisión de códigos de área y su representación espacial se lleva a cabo. Aunque con frecuencia representados como polígonos para facilitar el análisis, códigos de área son realmente define a una mayor resolución espacial que refleja las direcciones de calles que sirven. Esta investigación demuestra que su generalización como continua regiones es una estructura de impuesto que puede tener graves consecuencias en la interpretación de los resultados de la investigación. ZIP códigos de áreas definidas y Censos ZCTAs, dos de uso común poligonal representaciones de código postal rangos de direcciones, son examinados en un esfuerzo por identificar las sensibilidades de estadística espacial que emerge dadas las diferencias en la forma en que estas representaciones se definen. En este sentido, el análisis comparativo se centra en la detección de patrones de cáncer de próstata en el Estado de Nueva York. De particular interés para los estudios de utilización de locales, espacial pruebas estadísticas, es que las diferencias en las estructuras topológicas de código postal y zonas ZCTAs dar lugar a diferentes patrones espaciales de la enfermedad. Estas diferencias están relacionadas con las diferentes metodologías utilizadas en la generalización del código postal de información. Dada la dificultad asociada con la generación de código postal fronteras, código postal y zonas ZCTAs contienen numerosos errores de representación que puede tener un impacto significativo en el análisis espacial. Si bien el uso del código postal polígonos para el análisis espacial es relativamente sencilla, ZCTA representaciones contienen características topológicas adicionales (por ejemplo, lagos y ríos) y contienen los polígonos fragmentados que pueden dificultar el análisis espacial.

Conclusión

Se debe tener precaución al utilizar los datos con referencia espacial, en particular la que se atribuye a códigos de área y ZCTAs, para el análisis epidemiológico. Los investigadores deben ser conscientes de representación de los errores asociados con las dos geografías y sus derivados desajuste espacial, especialmente cuando se comparan los resultados obtenidos utilizando diferentes representaciones topológicas. Aunque ZCTAs puede ser problemática, topológica correcciones son de fácil aplicación en un sistema de información geográfica para remediar los efectos de agregación errónea.

Fondo

A medida que la producción y el consumo de datos espaciales sigue aumentando, el posterior uso y abuso de los datos referenciados espacialmente también va en aumento. Jacquez [1], proporciona un tiempo a la revisión de las cuestiones clave, esbozando una serie de limitaciones para trabajar con espacial y temporal de datos. Por ejemplo, uno de los principales problemas que enfrentan los analistas se desajuste espacio-temporal. En sentido amplio, esto ocurre cuando los datos recogidos tanto en el espacio y el tiempo no coinciden. Por ejemplo, Jacquez [1] pone de manifiesto un reciente estudio de cáncer de pulmón en Long Island el cáncer que utiliza los datos recogidos en el ZIP +4 informó nivel de 1994-97 [2]. La incidencia de cáncer fue comparado a tóxicos atmosféricos de datos de la Agencia de Protección Ambiental de 1996. En este caso particular, el desfase es a la vez espacial y temporal.

Una segunda preocupación de relieve por Jacquez [1] y otros [3 - 5] es la cuestión de granularidad en los datos epidemiológicos. En suma, granularidad se refiere a la resolución espacial y temporal de los datos. Porque la salud humana, las aplicaciones deben adherirse a los protocolos de privacidad del paciente, los datos a nivel agregado es con frecuencia a las grandes unidades espaciales para el análisis. Por ejemplo, en lugar de utilizar geocoded hogar datos correspondientes a pacientes individuales, estos registros se agregan a las código postal nivel para el análisis. Este proceso evita que la divulgación no deseados o la reconstrucción de la identidad del paciente [1]. Sin embargo, también reduce la capacidad de los analistas para comparar los datos a través de unidades espaciales. Por ejemplo, si un conjunto de datos agregados a las secciones censales y otra serie de códigos de área, las cuestiones relativas a la unidad de área modificables problema emerge [6].

Un tercer gran tema de interés es más de carácter técnico, que de polígonos, topología y la geometría computacional. Como se ha señalado por Jacquez [1], muchos espacial técnicas estadísticas se basan en la representación exacta de las unidades de área (polígonos), puntos y líneas. Si hay problemas con las unidades de áreas, tales como la libre intersección, los análisis estadísticos resultantes pueden ser entrelazado con errores.

Como con la mayoría de las cuestiones técnicas, los epidemiólogos, geógrafos y otros analistas son conscientes de las limitaciones y salvedades de trabajar con datos espaciales. Por ejemplo, en un estudio de la enfermedad cerebrovascular en el Estado de Nueva York, Han et al. [7] nota:

"[t] aquí pueden ser algunos prejuicios relacionados con el ámbito espacial desajuste, ya que hemos utilizado el código postal de datos a nivel de hospitalización y ZCTA de la población y el nivel de ingresos de datos en nuestro análisis .... Lamentablemente, no hemos podido encontrar ningún estudio empírico que valida esta cuestión de la falta de adecuación espacial. "

De particular interés en la declaración anterior es la cuestión de parcialidad y falta de correspondencia espacial entre las zonas código postal y código postal tabulación zonas (ZCTA). De hecho, los problemas de desajustes espacio-temporales entre estas dos unidades han pasado inadvertidos. Aunque Kreiger et al. [8] proporcionar una breve reseña acerca de muchas de las diferencias técnicas entre los códigos de área y ZCTAs, un tratado completo de las diferencias, especialmente cómo estas diferencias pueden sesgo de análisis empírico, no está disponible.

El objetivo de este estudio es 1) reexaminar el uso y mal uso de códigos de área y ZCTAs para el análisis epidemiológico, 2) proporcionar suficientes detalles técnicos sobre la construcción de código postal y ZCTA fronteras, y sus características, para abastecer los analistas con una visión más panorama completo de su utilidad para el análisis espacial, 3) proporcionar una forma empírica basada en el análisis de la estadística espacial y falta de correspondencia entre las zonas código postal y ZCTAs, destacando su relativa debilidad, y 4) desarrollar un enfoque metodológico para corregir los problemas inherentes a ZCTA topologías, de modo que un mayor número de comparaciones directas entre ZCTA y código postal basado en el análisis puede ser realizado.

Resultados y discusión
Las cuestiones de ordenación del espacio y la tergiversación desajuste

En el contexto del análisis longitudinal espacial, la capacidad de adecuar unidades espaciales a través del tiempo es importante. Afortunadamente, el jerárquicamente anidados unidades espaciales proporcionada por la Oficina del Censo (por ejemplo, bloques, grupos de bloques, extensiones, condados, etc) simplificar esta tarea. En la mayoría de los casos, los cambios en la estructura espacial de las secciones censales e incluso bloquear grupos, se pueden rastrear entre las encuestas decenales. Como resultado de ello, precisa el análisis longitudinal es mucho más fácil de realizar. Sin embargo, para el tiempo y el espacio dinámico de las unidades de áreas que no están jerárquicamente anidados, los problemas de desajuste espacio-temporal son importantes. No es de extrañar que el código postal y sus características espaciales son motivo de preocupación. Extremadamente popular para el análisis epidemiológico, el código postal se ha convertido en una de facto unidad espacial para el estudio de la enfermedad de distribución y etiología [9 - 13].

Zona plan de mejora de los códigos, o códigos de área, ya que se conoce comúnmente, se inició como una forma de clasificar los segmentos de la calle, rangos de direcciones y puntos de entrega para agilizar la entrega de correo. Habida cuenta de que códigos de área puede estar asociada con la mayoría de los lugares de habitación humana en los Estados Unidos, que presentan los investigadores con un medio alternativo de recogida, visualizar y analizar la información espacial. Sin embargo, dada su utilización en la dirección de la distribución de mail, códigos de área, no se relacionan con el espacio en general, sino más bien a las carreteras, las oficinas de correos, y otras instalaciones dentro de los EE.UU. sistema postal. Por ejemplo, si un área no cuenta con un reconocido punto de entrega o rango de dirección, código postal no es asignado. Geográficamente, los mejores ejemplos de ello son en desolada y en lugares como el Desierto de Sonora en Arizona, el desierto de Mojave en California y las Montañas Klamath en Oregon. En pocas palabras, si no zonas residenciales o establecimientos comerciales existen, no hay necesidad de entregar el correo o asignar cinco dígitos código postal. El proceso de toma de códigos de área accesible para el análisis espacial, ha supuesto su generalización en las unidades poligonal que representa la extensión espacial del código postal de entrega zonas (denominado aquí como zonas código postal). En gran parte, el suelo de baldosas de los Estados Unidos, con código postal zonas ha sido realizada por diversos vendedores de datos privados. Más recientemente, los EE.UU. Oficina del Censo ha elaborado su propio código postal topología de la zona basada en las representaciones - Código postal Áreas de tabulación (ZCTAs).

El uso de códigos de área para aplicaciones distintas de distribución postal puede presentar muchos problemas y hay varias cuestiones importantes vale la pena resumir. En primer lugar, los Estados Unidos Postal Service (USPS) hace cambios a sus códigos de área con regularidad [14], ofrece esta información en el Boletín quincenal Postal. Sin embargo, para los analistas familiarizados con un área en particular, comprender la magnitud y la naturaleza de estos cambios es todo un reto. Por ejemplo, no es raro que las rutas de distribución postal para alinearla o códigos de área para que se corte. Más importante aún, códigos de área puede ser interrumpido, añadido o ampliado entre los meses / años. Así pues, cuando los estudios longitudinales se refiere, incluso la más mínima modificación a códigos de área y de su correspondiente cobertura puede crear una discontinuidad espacio-temporal [8]. Muchos vendedores de datos privados y actualizar el área de código postal bases de datos trimestrales. Sin embargo, incluso esta relativamente corto lapso de tiempo comprendido entre las actualizaciones pueden ser problemáticas para las áreas importantes donde se hicieron cambios, sobre todo para la vigilancia sindrómica o brotes infecciosos. Además, si los analistas no hacer uso de las actualizaciones disponibles, los problemas también pueden surgir. Otra de las dificultades asociadas con código postal áreas importantes es la variación en la extensión geográfica [8, 10]. Grubesic [15] señala que el tamaño medio de un área de código postal en Wyoming es (1430 kilómetros cuadrados), mientras que el tamaño medio de un código postal en el área de Nueva Jersey es 12,8 km 2. El USPS hace intento de optimizar el tamaño de población o la asignación de códigos de área, dado que el único propósito de la código postal es acelerar la distribución del correo. Como resultado de ello, códigos de área puede variar en tamaño desde un solo edificio a una zona que abarca la entrega de cientos de millas cuadradas y el cruce de varias jurisdicciones políticas [16].

Como se mencionó anteriormente, ZCTAs se desarrollaron como unidades espaciales de los EE.UU. Oficina del Censo de 2000 para el censo decenal. De hecho, ZCTAs fueron específicamente diseñados para "satisfacer las solicitudes de los usuarios de los datos para los datos estadísticos de la zona Código postal" [17]. Dada la Oficina del Censo de las motivaciones, Krieger et al. [8] nota que hay diferencias significativas en las definiciones técnicas de códigos de área y zonas ZCTAs. El cuadro 1 pone de manifiesto los detalles técnicos de ZCTAs. En primer lugar, ZCTAs puede discontiguous. Por definición, la contigüidad espacial se refiere a la posibilidad de viajar desde cualquier punto en un polígono a cualquier otro punto interior sin salir de él. Cuando dos o más polígonos se consideran, contigüidad espacial es propiedad de compartir una frontera común o vértice [18]. La falta de contigüidad territorial puede tener un dramático impacto en el análisis estadístico espacial, sobre todo si ZCTAs con un identificador común, se dividen en diferentes no polígonos adyacentes. En segundo lugar, ZCTAs se compilan sobre la base de censo bloque topología. En la generación de un ZCTA, en cada bloque se le asigna uno y sólo un código ZCTA - independientemente de su ubicación. Por lo tanto, es posible que los bloques que abarcan más de un ZCTA o código postal. Esto puede ser problemático, al agregar los datos de población de ambas unidades.

Para proporcionar cierta perspectiva sobre el alcance de estos problemas, considere lo siguiente. El cuadro 2 pone de manifiesto la diferencia numérica entre sin editar código postal y ZCTA archivos de base geográfica (FMB) disponibles para el Estado de Nueva York. Además de la existencia de 851 entradas adicionales / polígonos ZCTA en el archivo, el tamaño medio de estos polígonos es significativamente menor (51,90 km 2 v. 70,26 km 2) que las que se encuentran en el código postal FMB. Si bien la numérica características de estos ficheros son sin duda diferentes, estas estadísticas sólo en pista a la gravedad de la falta de adecuación espacial actual entre estas dos áreas geográficas.

Como se señaló anteriormente, código postal información se utiliza a menudo para generar representaciones poligonales de código postal de entrega. Durante este proceso de conversión, la gran mayoría de los problemas de desajuste espacial comienzan a surgir. En gran parte, esto puede atribuirse a los intentos de generalizar características lineales (es decir, segmentos de la calle) en las zonas de conveniencia de representación [15]. Por ejemplo, la Figura 1 ilustra código postal 14225 en Buffalo, Nueva York. En este ejemplo, el código postal frontera está claramente delimitada como unidad discreta poligonal de límites [19]. Sin embargo, debido a códigos de área son, de hecho, asociados con características lineales, los límites reales de 14225 no son tan claras. Como se muestra en la Figura 1, hay un total de siete calles en el polígono 14225 que en realidad pertenecen a otros códigos de área. Las consecuencias de tales tergiversaciones espacial puede ser problemático, sobre todo si se tiene en cuenta la aplicación de geocoded datos para el análisis epidemiológico [20]. Cuando los registros individuales son geocoded a una dirección de calle, punto a base de representaciones de coordenadas de latitud y longitud se asignan a una calle central, y luego colocado en una distancia adecuada para compensar representan la ubicación de un hogar o negocio [21, 22]. Sin embargo, si la ubicación real de la calle y su segmento central de asociados se desvía de su "nativo" código postal polígono, tanto la incertidumbre y el error puede ser introducido en el análisis, aunque la codificación geográfica es una combinación perfecta. Por ejemplo, un punto geocoded podría ser asignado a corregir el código postal, sobre la base de los datos de la red, pero el área de código postal o ZCTA relativo a su ubicación real puede ser diferente. En otras palabras, los datos de la red y el ZIP polígonos no están en correspondencia. Por lo tanto, aunque los datos se ha agregado a la correspondiente código postal, su representación espacial no se precisa en cuenta en el análisis. Del mismo modo, si los pacientes códigos de área se recogen y que se atribuye a los polígonos sobre la base de un obsoleto código postal topología, el error es introducido también. Además, incluso cuando los organismos de salud pública más tradicionales evitar geocodificación rutinas (es decir, el punto a base de la representación de coordenadas de latitud y longitud) pueden surgir problemas. Por ejemplo, existen situaciones donde la base de códigos geográficos en la calle red puede fallar. En estos casos, los analistas atribuyen a Mayo código postal información basada en la inspección visual, como resultado posible en una clasificación errónea. Si bien uno o dos de estos errores podrían no representar una diferencia significativa a un estudio local, la acumulación de error para el estado nacional o análisis a nivel puede ser significativo.

En un esfuerzo para diagnosticar el nivel local de incertidumbre asociada con el problema de no nativos calle segmentos dentro de los polígonos código postal, considere la figura 2. Exhibidos son el resultado de un cálculo elaborado para este documento llamado el Coeficiente de incertidumbre Código postal, o C i ZU. CZU i mide la concentración de locales que no sean nativas calle segmentos dentro de un área de código postal en relación con el número de no nativos segmentos para todos los códigos de área en el Estado de Nueva York. Como diagnóstico, el índice resultante valores ofrecen una medida de referencia espacial de la incertidumbre y la posible representación de error asociado con cada código postal. La interpretación de CZU i es el siguiente:

CZU i <= 1 disminuye el nivel de incertidumbre

CZU i = 1 = nivel medio de la incertidumbre

CZU i> 1 = mayor nivel de incertidumbre

Figura 2 sugiere que, si bien muchos de los GDT códigos de área en el Estado de Nueva York son menos de lo esperado número de no nativos segmentos de la calle, muchos otros mostrar un mayor nivel de incertidumbre. Evidentemente, esto sugiere la presencia de un relativamente importante brecha entre los códigos de área asignada a funciones lineales y su ubicación en relación con interpolados código postal. Curiosamente, gran parte de esta incertidumbre puede atribuirse al proceso de código postal polígono interpolación, que se describe en la siguiente sección.

Código postal polígono interpolación

El proceso para desarrollar el área de código postal polígonos es relativamente laborioso. Como se mencionó anteriormente, estas unidades de áreas no se han desarrollado y distribuido por el USPS [15]. Por el contrario, los vendedores de datos privados, como GDT / TeleAtlas [19] y Caliper [23] de generar los límites. Los límites son creados mediante el uso de varios importantes piezas de información. En primer lugar, los proveedores de datos de palanca correo-stop (es decir, residenciales y domicilios sociales) la información de la USPS y sus correspondientes segmentos de la calle. En segundo lugar, otros no-la calle también son características analizadas, incluidos los cuerpos de agua, parques y grandes extensiones de tierras ociosas. En tercer lugar, ZIP +4 estado directorios se utilizan para diferenciar las zonas de entrega y los correspondientes límites de las zonas que podrían no tener un claro grupo de segmentos de la calle. Por último, los técnicos realizar consultas telefónicas a las oficinas de correos área en un esfuerzo por determinar códigos de área predominante [24]. Una vez que toda esta información se recoge, código postal polígonos son digitalizados manualmente. Este proceso, en particular el uso de rutinas de digitalización manual, puede conducir a la generalización polígono y un "suave" límite geográfico de archivo.

El proceso de desarrollo ZCTAs de los EE.UU. Oficina del Censo es muy diferente. Como se destaca en el cuadro 1, ZCTAs tienen algunos rasgos bastante distintos códigos de área que no lo hacen. Muchas de estas características se refieren a las características del Censo de los bloques en que se basan. No hay ninguna norma de alcance espacial del Censo de bloques. Algunos bloques son relativamente pequeñas (es decir, los que están situados en una ciudad), mientras que otros son grandes e irregulares, que abarca muchos kilómetros cuadrados. Utilizando los límites del Censo de bloque, USPS código postal y los datos de 2000 Master Dirección de Archivos (MAF) [25], la Oficina del Censo calculó el número de direcciones asociadas con cada código postal representados en cada bloque de tabulación y, a continuación, se les aplicará el ZCTA que representa la mayor frecuencia se producen código postal dando preferencia a las direcciones residenciales. Si el código postal no se dispone de datos, códigos ZCTA fueron asignados de un bloque adyacente. Por último, es importante recordar que desde el tamaño de los bloques del Censo varían ampliamente en el espacio, zona de delimitación se guía más por el Censo de geografías que la distribución de direcciones con código postal.

La Figura 3 muestra un ejemplo de barrio que gráficamente se destacan algunas de estas peculiaridades. Por ejemplo, el Servicio Postal de los Estados Unidos asigna un código postal de 12345 a ambos lados de Park Ave, sino que asigna un código postal de 12347 a los segmentos al sur de Park Ave, incluidas Rogers St Si bien esta parece ser una rareza, el USPS a menudo utiliza las líneas de retaguardia de propiedad para la asignación de códigos de área [17]. Por lo tanto, la resultante código postal polígono que straddles ambos lados de Park Ave. no es sorprendente. Sin embargo, esta singularidad geográfica no es característica de ZCTAs, porque los bloques son asignados uno, y sólo uno, ZCTA código. Por lo tanto, debido Park Ave. es dividir la serie de sesiones entre dos bloques, toda la parte sur de Park Ave. hereda un código erróneo ZCTA de 12347, en lugar de corregir su código postal de 12345. Un segundo ejemplo interesante es ilustrada por la fábrica ubicada en ZCTA 12345, que se le asigna un código postal de 12346. En muchos casos, USPS clientes que reciben un volumen extraordinariamente elevado de correo se les asigna su propio código postal. Esto podría ser un gran campus empresarial u otra institución. Debido a que estos lugares son tratados como puntos de entrega de la USPS, son sistemáticamente excluidos de la Oficina del Censo y no aparecen en el archivo ZCTA frontera. Esto es comprensible ya que estos puntos de entrega no tienen límites espaciales ni están asociados con ningún censo demográfico o relacionados con la información socioeconómica. Por otra parte, la imposibilidad de localizar con precisión las estructuras y la falta de límites disponibles bloque para muchas de estas localidades influye en la decisión de excluir muchas de estas características. Por último, la Oficina del Censo de tres dígitos asigna códigos de área (por ejemplo, 123 HH) asociados a las zonas con agua y donde no existen registros dentro de la Dirección Master File (MAF). Sin embargo, a causa del Censo de los bloques se elaboraron antes de ZCTAs, los límites resultantes ZCTA tenido que ajustarse a los límites bloque de tabulación. Como resultado de ello, cualquier intento de asignar los cuerpos de agua, como un río, a un ZCTA daría lugar a un polígono con una cola-como característica. En un esfuerzo para evitar estos problemas, la Oficina del Censo de estas áreas designadas con el código alfanumérico en lugar de un período de cinco dígitos ZCTA. En otros casos (no se muestra en la Figura 3], esto podría incluir un código 123XX. La XX códigos son asignados a grandes extensiones de tierra donde las direcciones de correo no se encuentran y no códigos de área son mantenidos por el USPS. La decisión de asignar un período de tres dígitos comodín ZCTA código (por ejemplo, HH o XX) a algunas zonas en los Estados Unidos es complejo y especulativo uno [17]. Teniendo en cuenta que ZCTA geografías incorporar estas nuevas características del paisaje, los problemas suelen surgir en la evaluación de ZCTA contigüidad.

Por ejemplo, para ilustrar los problemas topológicos que las características del agua crear ZCTA en el archivo de base geográfica, observar la Figura 4. Ilustrado es Blossvale, NY (13308), una pequeña comunidad cerca de Siracusa, situada al norte de la Interestatal 90 y alrededor de 2 millas al noreste del Lago Oneida. El código postal 13308 (como fusionada por el Estado de Nueva York Departamento de Salud), incluye también las comunidades de Sylvan Beach, North Bay, Verona Beach y McConnellsville.

La norma GDT (2000) Código postal límites para Blossvale son resaltadas en amarillo. El ZCTA límites para el mismo código postal y el vecino Lago Oneida se muestran en rojo. Hay varios puntos críticos por valor de abordar aquí. En primer lugar, el 13308 ZCTA GDT y código postal zona representaciones no están en completa correspondencia espacial, habida cuenta de que hay una serie de ligeras desviaciones entre estas dos unidades de área. Evidentemente, esto representa un desajuste espacial. En segundo lugar, aviso de que un pequeño elemento agua, Fish Creek, los recortes 13308 ZCTA a la mitad. Cuando uno examina la materia prima base geográfica para archivos ZCTAs, 13308 realmente aparece dos veces. Es decir, hay dos separadas y distintas entradas en el fichero base geográfica para el 13308 ZCTA. Por lo tanto, si la sigue sin ZCTA, los datos asignados a la ZCTA estará representada dos veces. Además, si una matriz de adyacencia se construye, como a menudo es necesario en el análisis estadístico espacial, el 13308 ZCTAs no son tratados como vecinos porque están divididos por los 130 HH agua característica polígono. Por lo tanto, la inclusión de estos polígonos pueden confusión las relaciones espaciales entre ZCTAs que han socioeconómico, demográfico y epidemiológico de datos asociados con ellos. Es evidente que cualquier falta de ajuste de la base geográfica ZCTA archivo incorpora estos tipos de errores en el análisis posterior.

Habida cuenta de estos antecedentes en el área de código postal interpolación y ZCTA desarrollo, hay varias preguntas pendientes de respuesta. En primer lugar, ¿cómo estas posibles inconsistencias espaciales pone de manifiesto en el mundo real? En segundo lugar, qué tipo de impacto que estos problemas tienen en espacio-el análisis estadístico? En tercer lugar, ¿cómo corregir estos problemas para asegurar la coherencia y la precisión en un análisis?

La mitigación topológica anomalías en la base geográfica ZCTA archivo

Para ilustrar algunas de las cuestiones relacionadas con el uso de código postal y zonas ZCTAs en el análisis espacial, tanto topologías para el Estado de Nueva York se obtuvieron para el análisis. Con el fin de comparar código postal zonas con ZCTAs en Nueva York, varias medidas importantes debe llevarse a cabo para mitigar las anomalías topológica entre estos dos archivos de base geográfica. Sobre la base de año 2000 Código Postal datos de GDT, Nueva York está cubierta por código postal 1599. Por el contrario, 2450 Censo ZCTAs cubrir el estado (Tabla 2]. En parte, este elevado número de ZCTAs es un producto de las 398 características del agua se encuentran en el estado que fragmentan la ZCTAs. Para lograr estos dos geografías en una mayor acuerdo, varias medidas deben tomarse para ajustar el ZCTA archivo para detectar la presencia de estas características [15]:

1. Con el fin de rectificar la topológica anomalías en la ZCTA archivo, hay que eliminar todos los ZCTAs con códigos HH. Esto elimina todas las características del agua en el expediente. Si bien las características son todavía visibles, ya no son entidades en el archivo de base geográfica. No es tan crítica para eliminar las características XX con los códigos, ya que estas representan en realidad las masas terrestres con direcciones no formal en el sistema, rara vez una división ZCTA en múltiples funciones, como un río o arroyo podría (Ver Figura 4].

2. Los cinco dígitos ZCTA entradas que constará de varios polígonos (por ejemplo, dividido por una característica de agua) debe ser disuelto en un atributo ID. En casi todos los casos, esto puede ser el ZCTA código. El proceso de disolución de la fusión de polígonos en las características individuales, la eliminación de dobles o triples inscripciones en el fichero base geográfica y haciendo caso omiso de cualquier polígono se divide en la continuidad que pueden haber sido creados por agua.

3. Cáncer casos incidentes, la población, o lo que sea de interés variables están siendo analizados, debe ser reaggregated volver a la topologically rectificado ZCTA geográfica fichero base para el análisis. Esto elimina eficazmente los errores de agregación (por ejemplo, el doble cómputo) de el archivo original.

4. Por último, si se está llevando a cabo un análisis estadístico espacial que se basa en información vecindario, la matriz de adyacencia debe ser recalculado usando el archivo ZCTA rectificado. Una vez más, debido a que el agua se eliminan, y ZCTA polígonos son ahora disuelto en un atributo, la nueva matriz de adyacencia calculado representará una postura más realista y precisa instantánea de las relaciones espaciales entre los polígonos.

Después de corregir para los polígonos de agua, las ZCTA y código postal zona fronteriza archivos están en correspondencia casi completa. Para el análisis que sigue, basada en código postal de próstata incidencia se obtuvieron los datos de la Nueva York Departamento de Salud del Estado (NYSDOH) [26]. Como se discutió en la sección de metodología, los datos de algunas zonas de código postal se agregaron a este conjunto de datos en particular. En un intento de representar con exactitud estos datos, tanto de Nueva York el área de código postal y geografías ZCTA utilizados en este análisis fueron sometidos a similares agregación de las zonas donde sea necesario. Habida cuenta de esta formación, el GDT código postal zonas, posteriormente modificadas para ajustarse a los requisitos de confidencialidad de la NYSDOH, que llevan los números 1384, mientras que el topologically ajustado ZCTA archivo ahora incluye zonas 1389 - dando una diferencia de sólo el 5 polígonos. Esta pequeña diferencia se puede atribuir a cinco particiones de la tierra no con cinco dígitos códigos de área - zonas mantenida por la Oficina del Censo en el ZCTA archivo (es decir, los códigos XX).

Desajuste de Estadística

Figura 5 muestra la incidencia del cáncer de próstata en el Estado de Nueva York para el período 1999-2003 que fue recopilada a partir del Estado de Nueva York Registro de Cáncer [26]. En concreto, la Figura 5a ilustra las tasas de cáncer de próstata utilizando el código postal polígonos sobre la base de datos modificados GDT. En contraste, la figura 5b ilustra las tasas de cáncer de próstata utilizando ZCTA polígonos a partir del año 2000 distribuidas de los EE.UU. Oficina del Censo. Cartográficamente, hay poca diferencia discernible entre estos dos mapas. Teniendo en cuenta esta distribución de las tasas, un análisis epidemiológico formal podría buscar un enfoque que facilita la identificación de alto riesgo códigos de área o grupos de códigos de área para la intervención. Este análisis también podría beneficiarse de la identificación de bajo riesgo códigos de área o grupos de códigos de área para exploración adicional. Por ejemplo, Han et al. [7] utilizado ZCTAs y análisis de conglomerados para estudiar la variación geográfica de la enfermedad cerebrovascular en el Estado de Nueva York, mientras que Moonan et al., [27] utilizados ZCTAs básicos de cartografía y análisis para examinar las áreas de transmisión de la tuberculosis y la incidencia.

A los efectos de este estudio, nuestro objetivo no incluye un análisis epidemiológico formal de cáncer de próstata, per se. Estamos sobre todo interesados en identificar el potencial de estadística espacial y desajustes entre los resultados obtenidos mediante el uso de códigos de área y zona ZCTA geografías. Curiosamente, la figura 5 se indica relativamente importantes diferencias en las tasas de cáncer de la próstata cuando se comparan las estadísticas descriptivas entre el código postal y zonas ZCTAs. Como se señala en la introducción, topológica cuestiones relacionadas con estas áreas son fundamentales las unidades de la hora de realizar análisis estadísticos espaciales. En un esfuerzo por ilustrar el problema de la falta de adecuación espacial y el impacto de la topología, considere la Figura 6. Figura 6a muestra estadísticamente derivada del cáncer de la próstata agrupaciones para el Estado de Nueva York, generó local utilizando un indicador de asociación espacial (Moran's I) [28, 29], con sede aquí en un primer orden de la reina contigüidad. En concreto, las áreas representadas en la figura 6 corresponden a una de las cinco clasificaciones generados a través de la prueba de asociación espacial local. Por ejemplo, las zonas señalados en el rojo más oscuro son indicativos de código postal zonas de alta tasas de cáncer de próstata que están rodeadas por otras de alta tasa de código postal. Por el contrario, códigos de área señalados en el color azul oscuro son indicativos de la baja tasa zonas rodeadas por otras zonas de baja tasa. El resto de clasificaciones son de alta-baja, baja-alta y no significativa (p <= 0,05). Es importante señalar que la figura 6a utiliza el código postal GDT zonas, mientras que la figura 6b utiliza ZCTAs. Al comparar estas dos cifras, hay algunas diferencias notables en los resultados estadísticos. Incluso la simple inspección visual indica que estos patrones de asociación espacial entre las zonas código postal y ZCTA datos no coinciden, aunque los datos sobre la incidencia de cáncer de próstata es idéntico. Por ejemplo, la figura 6a muestra un área relativamente grande de alto-alto códigos de área en los Adirondacks y varios bajos en los grupos de bajos porciones occidentales de Nueva York y Long Island. Esto no es corroborada por el patrón generado ZCTAs utilizando como unidades de análisis. Estadísticamente, las diferencias son también relativamente obvio. Por ejemplo, hay 108 código postal zonas clasificadas como de baja-baja agrupaciones en Nueva York. Por el contrario, sólo 96 ZCTAs se clasifican como de baja-baja.

Hay cuatro tipos principales razones de estas diferencias en los patrones de surgir. First, although all of the ZIP code areas and ZCTAs share identical identifier codes (eg 12065), this does not guarantee that they share the same geographic boundary or extent. For example, Figure 7 illustrates a composite map of four ZIP code areas and ZCTAs in Upstate New York. In this case, there is a clear difference in spatial extent and bounding between the two geographic base files. As a result, when a spatial weights matrix is constructed, the local neighborhoods for each of these ZIP codes will be different. Further, once a statistical test is constructed for examining local spatial association, the derived results will also be different (see Figure 6 ). A second factor relates to the inclusion of XX coded ZCTAs in the spatial adjacency matrix. While it is possible to remove these polygons, the resulting map does not convey the true geography of New York State. Moreover, because these polygons do represent a landmass, it is important to include them to assure the continuity of the spatial weights matrix. A third problem relates to how other spatial data can be associated with these units the ZIP code areas and ZCTAs. For example, in this study, Census block population data are used to calculate prostate cancer rates. Specifically, male population for each block was aggregated to each ZIP code area and ZCTA, ensuring that each block was only counted once. Clearly, if the ZIP code area and ZCTA polygons are different in spatial extent, the results of this aggregation process will differ. As Figures 5 and 6 suggest, these differences can substantially impact the resulting analysis. Finally, many of the more obvious spatial mismatches in New York are in sparsely populated areas such as the Adirondack Mountains. In part, this can be attributed to the sensitivity of the local Moran's I test to low population counts. In these instances, cluster results can fluctuate dramatically based on small differences in observed cases [ 30 ]. That said, there are still numerous cases of spatial mismatch in heavily populated areas, particularly Long Island.

In summary, ZIP code areas and ZCTAs are not directly comparable units of observation. In addition to displaying significant differences in size and extent, there is a major disconnect in the way these units are generated. These differences stem from the fact that ZIP codes are based on address ranges, developed for mail delivery and their representation as polygons does not accurately portray all of the linear features in a ZIP code. Given the methods by which these areal units are generated, there are many instances where ZIP ranges are misclassified by ZIP code areas and ZCTAs. Our research also suggests that ZCTAs present some challenges with which analysts must address, particularly in their spatial representation. As noted previously, Census blocks are used for building ZCTA boundaries. In addition to the errors introduced by representing linear features with polygons, each block is assigned a single ZCTA code. While this is good for looking at census data, if there is overlap or underlap between ZIP code segments, the ZCTA zoning scheme is unable to accurately portray these differences. Further, the incorporation of water features and uninhabited areas into the ZCTA geographic base file can also complicate spatial analysis.

In conclusion, the problem of spatiotemporal mismatch is significant for ZIP codes and ZCTAs. Caution must be used when attempting to compare statistical results across both time and space when these units are used. More importantly, analysts must also weigh the cost/time benefits of rectifying ZCTA topology for conducting epidemiological analysis. While this certainly involves more work and GIS processing time, the benefits of these modifications are significant.

Métodos
Data

Observed values of prostate cancer incidence were retrieved from the New York State Cancer Registry. ZIP code boundaries were created by Geographic Data Technology for the year 2000 and subsequently modified by the NYSDOH [ 26 ]. These modifications include the following:

1. Some adjacent ZIP codes were combined due to confidentiality requirements because an insufficient numbers of cases of prostate cancer were reported.

2. A subset of residential point ZIP codes with no defined delivery area and ZIPs too small to be included in the GDT file were also combined with adjacent ZIP code areas.

3. NYSDOH also eliminated uninhabited islands from the ZIP code area file.

ZCTA boundaries were delineated by the US Census Bureau for the year 2000. The street network used for calculating CZU i were based on TIGER 2000 data [ 23 ].

Modeling

The coefficient of ZIP code uncertainty is calculated as follows:

C Z U i = x i / y i i n x i / i n y i ( Equation 1 ), MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGdbWqcqWGAbGwcqWGvbqvdaWgaaWcbaGaemyAaKgabeaakiabg2da9maalaaabaWaaSGbaeaacqWG4baEdaWgaaWcbaGaemyAaKgabeaaaOqaaiabdMha5naaBaaaleaacqWGPbqAaeqaaaaaaOqaamaalyaabaWaaabCaeaacqWG4baEdaWgaaWcbaGaemyAaKgabeaaaeaacqWGPbqAaeaacqWGUbGBa0GaeyyeIuoaaOqaamaaqahabaGaemyEaK3aaSbaaSqaaiabdMgaPbqabaaabaGaemyAaKgabaGaemOBa4ganiabggHiLdaaaaaakiaaxMaacaWLjaWaaeWaaeaacqqGfbqrcqqGXbqCcqqG1bqDcqqGHbqycqqG0baDcqqGPbqAcqqGVbWBcqqGUbGBcqqGGaaicqaIXaqmaiaawIcacaGLPaaaaaa@5860@

Where

x i =the number of non-native ZIP code street segments in ZIP code i

y i = the number of street segments in ZIP code i

As mentioned previously, CZU i measures the local concentration of non-native street segments within a ZIP code area relative to the number of non-native segments for a larger spatial unit (eg a metropolitan area or a state). Segments with no ZIP codes were not included in this computation given that there is no way of telling whether or not they actually contained an address and which ZIP it was attributed to. It is also important to remember that CZU i says nothing about the length of these street segments. However, with a slight adjustment to both the numerator and denominator, the magnitude of uncertainty, as measured by the distance associated with each non-native street segment could be quantified.

ZIP code and ZCTA contiguity measurements were quantified through the use of a spatial weights matrix, W . Elements of W are specified as:

w i j = c i j j = 1 n c i j ( Equation 2 ), MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG3bWDdaWgaaWcbaGaemyAaKMaemOAaOgabeaakiabg2da9maalaaabaGaem4yam2aaSbaaSqaaiabdMgaPjabdQgaQbqabaaakeaadaaeWbqaaiabdogaJnaaBaaaleaacqWGPbqAcqWGQbGAaeqaaaqaaiabdQgaQjabg2da9iabigdaXaqaaiabd6gaUbqdcqGHris5aaaakiaaxMaacaWLjaWaaeWaaeaacqqGfbqrcqqGXbqCcqqG1bqDcqqGHbqycqqG0baDcqqGPbqAcqqGVbWBcqqGUbGBcqqGGaaicqaIYaGmaiaawIcacaGLPaaaaaa@50DA@

Where c ij = 1 if i and j share a common boundary or vertex; 0 otherwise. For the purposes of this study, first order properties include only those vertices and boundaries that are contiguous to the observation (ZIP code or ZCTA) in question (viz. a Queen's contiguity matrix). While there are alternatives to this spatial weight matrix (eg rook, or distance based), the selection of a queen's based measure provided an effective approach for highlighting the topological complexities of the ZCTA geographic base layer. A more robust contiguity matrix, using other spatial lags, or polygon boundary lengths would be appropriate for a formal analysis of cancer incidence and clustering.

The statistical analysis of local spatial association was conducted by using a local Moran's I test statistic. The local Moran's I [ 28 ] is defined as:

I i = z i j w i j z j ( Equation 3 ), MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGjbqsdaWgaaWcbaGaemyAaKgabeaakiabg2da9iabdQha6naaBaaaleaacqWGPbqAaeqaaOWaaabuaeaacqWG3bWDdaWgaaWcbaGaemyAaKMaemOAaOgabeaaaeaacqWGQbGAaeqaniabggHiLdGccqWG6bGEdaWgaaWcbaGaemOAaOgabeaakiaaxMaacaWLjaWaaeWaaeaacqqGfbqrcqqGXbqCcqqG1bqDcqqGHbqycqqG0baDcqqGPbqAcqqGVbWBcqqGUbGBcqqGGaaicqaIZaWmaiaawIcacaGLPaaaaaa@4DA2@

Where

x i and x j are observations for locations i and j (with mean μ )

z i = ( x i - μ ),

z j = ( x j - μ ), and

w ij = spatial weights matrix with values of 0 or 1.

Authors' contributions

THG designed the study, conducted the analysis, drafted the manuscript and developed the coefficient of ZIP code uncertainty. TCM collaborated on the design of the analysis, manuscript revisions and coded several of the processes in TransCad and ArcGIS.