Environmental Health, 2005; 4: 11-11 (más artículos en esta revista)

Análisis espacial de pulmón, colorrectal, cáncer de mama y en Cape Cod: Una aplicación de modelos aditivos generalizados a los datos de casos y controles

BioMed Central
Verónica Vieira (vmv@bu.edu) [1], Thomas Webster (twebster@bu.edu) [1], Janice Weinberg (janicew@bu.edu) [2], Ann Aschengrau (aaschen@bu.edu) [3 ], David Ozonoff (dozonoff@bu.edu) [1]
[1] Department of Environmental Health, Boston University School of Public Health, 715 Albany Street, Boston, MA 02118, USA
[2] Department of Biostatistics, Boston University School of Public Health, 715 Albany Street, Boston, MA 02118, USA
[3] Department of Epidemiology, Boston University School of Public Health, 715 Albany Street, Boston, MA 02118, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

La disponibilidad de información geográfica del cáncer de defecto de nacimiento y los registros públicos se ha incrementado la demanda de investigación de los conglomerados de enfermedades percibidas. Muchos barrio nivel grupo investigaciones son metodológicamente problemático, mientras que los mapas hechos de registro de datos, a menudo hacer caso omiso de la latencia y muchos factores de riesgo conocidos. Basados en la población de casos y controles y estudios de cohortes proporcionar una base más firme para la epidemiología espacial posibles factores de confusión debido a la latencia y la enfermedad se pueden abordar.

Métodos

Se investigaron la asociación entre la residencia y el colorrectal, de pulmón, cáncer de mama y superior en Cape Cod, Massachusetts (EE.UU.) a través de extensos datos sobre covariables y residencial historia de dos estudios de casos y controles para 1983-1993. Hemos generado mapas utilizando modelos aditivos generalizados, el suavizado de longitud y latitud en tanto que para el ajuste de las covariables. La superficie resultante continua estimaciones tasas de la enfermedad en relación con toda el área de estudio. Utilizamos pruebas de permutación de examinar la importancia general de la ubicación en el modelo y determinar las zonas de mayor y menor riesgo.

Resultados

Mapas de cáncer colorrectal son relativamente planas. Suponiendo que los 15 años de latencia, el cáncer de pulmón fue significativamente elevados sólo Massachusetts noreste de la Reserva Militar, aunque el resultado no celebrar cuando nos limita a las residencias de más larga duración. A principios de la epidemiología espacial no había encontrado una débil asociación entre el cáncer de pulmón y la proximidad a armas de fuego de mortero y de las posiciones en la reserva. El cáncer de mama puntos calientes tendido a aumentar en magnitud a medida que el aumento de la latencia y se ajuste para covariables, lo que indica que fueron en parte la clandestinidad de confusión estas áreas. Importantes puntos calientes de cáncer de mama se encuentra cerca de las aguas subterráneas conocidas plumas y el Massachusetts Military Reservation.

Discusión

Epidemiología espacial de la población basada en estudios de casos y controles se abordan muchas críticas metodológicas de los estudios de grupo y genera nuevas hipótesis de exposición. Nuestros resultados proporcionan pruebas espaciales de la agrupación de cáncer de mama superior en Cape Cod. El análisis sugiere que una investigación más a fondo el potencial de asociación entre cáncer de mama y la contaminación plumas basa en la exposición de modelado.

Antecedentes

Local cartografía de la enfermedad ( "cluster"), las investigaciones suelen ser deseado por las comunidades, pero muchos epidemiólogos resistir a la presión para buscar las causas ambientales de las agrupaciones. Los críticos argumentan que tales estudios son improductivas y viciada, ya que a menudo se combinan enfermedades no relacionadas, de aplicación arbitraria o incluso "gerrymandered" las fronteras, contiene un número insuficiente de casos, y pasar por alto la densidad de población, la latencia, y los factores de riesgo conocidos [1]. Los datos basados en los registros de cáncer son generalmente levantamiento de los datos de diagnóstico de la ciudad (o de otra unidad geográfica), y contienen datos limitados sobre covariables. Esto resulta en mala resolución espacial, el potencial espacial de confusión, y la incapacidad de considerar la posibilidad de latencia. Espacial de confusión se produce cuando los factores de riesgo para una enfermedad que no se distribuyen, por ejemplo, un grupo de cáncer de pulmón puede deberse a un aumento de la densidad de fumadores. Dado que el cáncer generalmente tardan muchos años en desarrollarse, la residencia en el momento del diagnóstico es probable que sea una mala medida de la exposición. Mapas que hacen caso omiso de latencia pueden tender a ser más horizontal, si los movimientos de la población es al azar con respecto al estado de la enfermedad [2]. No obstante, el grupo investigaciones pueden ser una parte importante de la respuesta a las preocupaciones del público, incluso si no hay nuevo conocimiento etiológico es adquirida [3, 4].

En 1988, una elevada incidencia de cáncer en la parte superior de la región de Cape Cod Massachusetts (Figura 1] impulsó una serie de estudios epidemiológicos para investigar los posibles factores de riesgo ambientales, incluida la contaminación atmosférica y del agua asociados con el Massachusetts Military Reservation (MMR), para aplicaciones de plaguicidas Arándano ciénagas, partículas en la contaminación del aire de una gran central eléctrica, y tetracloroetileno contaminado el agua potable de vinilo forrados de asbesto cemento las tuberías de distribución [5 - 15]. Se observaron asociaciones positivas, pero las exposiciones ambientales explica sólo una parte del exceso de incidencia de cáncer. Estos estudios proporcionan un valioso conjunto de datos para el análisis espacial. Basados en la población estudios de casos y controles pueden proporcionar información detallada sobre las distintas covariables a nivel residencial y la historia. Los casos se identificaron mediante los registros de cáncer mientras que los controles de proporcionar una estimación de la densidad de población subyacente. Sujetos o parientes más próximos son entrevistados para obtener datos pertinentes sobre covariables y residencial de la historia. Geocodificación de esta información produce una rica, punto basada en conjunto de datos que pueden ser analizados con la ayuda de los sistemas de información geográfica (SIG).

Métodos de punto de cartografía de base de datos epidemiológicos han recibido menos atención que la cartografía de áreas de datos [16]. Modelos aditivos generalizados (GAMs), un tipo de modelo estadístico que combina suavizado con la capacidad de analizar los datos de resultado binario y ajuste de las covariables, proporcionan un marco útil para el examen de tales datos de puntos [17 - 19], Webster et al. Presentado. Uso de la información a nivel individual y la ubicación en el modelo aditivo generalizado, se calculó el crudo y las odds ratio ajustado de pulmón, colorrectal, cáncer de mama y en el Alto Cape Cod asumiendo diferentes períodos de latencia. Estos análisis tienen varios objetivos: i) para comprobar si la enfermedad mapas son planos, ii) para determinar si las áreas de aumento o disminución de riesgo se deben a la confusión espacial, iii) para examinar el efecto en los mapas de aumento de la latencia, iv) Sugerir hipótesis de exposición para una investigación más a fondo, y v) para demostrar la epidemiología espacial utilizando modelos aditivos generalizados.

Métodos
Estudio de la Población

Se investigaron la asociación entre la residencia y el de mama, pulmón y cáncer colorrectal en Upper Cape Cod, Massachusetts (EE.UU.) con datos de población basados en estudios de casos y controles [10 - 12]. El Registro de Cáncer de Massachusetts se utilizó para identificar los casos incidentes de cáncer de mama diagnosticados entre 1983-1993 y los casos incidentes de cáncer de pulmón y colorrectal diagnosticados de 1983-1986. Los participantes se limita a los residentes permanentes de la región de Cabo superior con total residencial historias. Un total de 638 casos de cáncer de mama, 243 casos de cáncer de pulmón, cáncer colorrectal y 309 casos fueron incluidos.

Los controles fueron seleccionados para representar a la población subyacentes que dieron origen a los casos, es decir, los residentes permanentes de las mismas ciudades durante el mismo período de tiempo. Los controles fueron emparejados a los casos en la edad, género, y el estado vital. Debido a que muchos de los casos eran ancianos o fallecidos, tres fuentes distintas de los controles fueron utilizados: (1) dígito de marcación aleatoria de los controles que viven menos de 65 años de edad, (2) Centros para Servicios de Medicare y Medicaid (anteriormente, la Administración de Financiamiento de Cuidado de la Salud ) Para la población que vive 65 años de edad o más, y (3) los certificados de defunción de los controles que han muerto desde 1983 en adelante. Hubo 842 controles de cáncer de mama, cáncer de pulmón de los controles de 1205, y 1138 controles de cáncer colorrectal.

Los participantes o de sus parientes más próximos completado una extensa entrevista, el suministro de información sobre datos demográficos (edad, sexo, estado civil, y educación), de cuarenta años de historia residencial, y posibles factores de confusión. "Índice de años" fueron asignadas aleatoriamente a los controles en una distribución similar a la de años para los casos de diagnóstico. Se usó el índice de años para calcular la longitud y el tiempo de exposición ambiental a los controles de una manera comparable a la de los casos. Ver documentos anteriores [10 - 12] para una descripción detallada de los métodos utilizados para definir la población de estudio, incluyendo la justificación de los métodos de control de la selección. La Junta de Revisión Institucional de la Universidad de Boston Medical Center aprobó la investigación.

Sistema de Información Geográfica (SIG)

Todas las direcciones residenciales comunicadas por los participantes en la parte superior del área de Cape Cod largo de los cuarenta años antes de que el diagnóstico o índice de años fueron elegibles para el análisis espacial. Se excluyeron todas las direcciones en que el tiempo de residencia se inició después de la fecha de diagnóstico de los casos o índice de la fecha de los controles. El cáncer de mama conjunto de datos incluyeron 638 casos que representan 1061 viviendas y 842 localidades que representan a los controles de 1371 localidades. El cáncer de pulmón conjunto de datos incluyeron 243 casos que representan 385 localidades residenciales y 1205 controles de 1927 en representación de los lugares residenciales. El cáncer colorrectal conjunto de datos incluyeron 309 casos que representan 469 localidades residenciales y 1138 controles de 1791 en representación de los lugares residenciales. Así, cada uno de los participantes puede haber contribuido más de una dirección.

La ubicación de las residencias de los participantes fueron geocoded utilizando el Estado de Massachusetts avión con Sistema de Coordenadas Datum de América del Norte de 1983 (NAD1983) y vinculado a la entrevista los datos del participante. Geocodificación, proceso en el que la longitud y la latitud se determinan para cada dirección, se hizo sin conocimiento de causa, y los datos finales se verificó la exactitud. SIG nos permite mapa las coordenadas de los participantes y la ubicación de enlace adicional individual y la información ambiental. La Figura 2 muestra la distribución de pulmón, colorrectal, cáncer de mama y de casos y controles en el área de estudio. Para preservar la confidencialidad, la cifra fue creado colocando de forma aleatoria dentro de las residencias de una pequeña red, que incluye la ubicación real. Efectiva de los lugares han sido utilizados en el análisis.

Métodos estadísticos para la cartografía basada en el punto de datos epidemiológicos

Métodos estadísticos para la cartografía de la zona basado en datos epidemiológicos, por ejemplo, las tasas de enfermedad por ciudad o condado, están muy avanzados [20]. Cartografía de esos datos a menudo tiene dos componentes principales: el ajuste de las covariables, a menudo a través de la normalización, y geográficamente contendientes con diversos grados de precisión, a menudo por suavizado. Métodos de punto de base de datos están menos desarrollados [16]. Uno de los enfoques del núcleo utiliza métodos para estimar la densidad de los casos y la densidad de la población, dando lugar a los casos [21, 22]. Su ratio ofrece una estimación de la tasa. Alternativamente, uno estimaciones de la densidad de la población que utiliza los controles. Cuando se controla adecuadamente la muestra de la población de un área geográfica, el caso / control ratio - odds enfermedad - en una sub-área debe ser proporcional a la tasa de incidencia de la enfermedad en esa sub-región. Desgraciadamente, la ratio de densidad enfoque no proporciona método fácil de ajustar para covariables [23]. Otros métodos de múltiples pasos se han sugerido [24, 25].

Por lo menos dos métodos para proporcionar marcos unificado punto de la cartografía de base de datos epidemiológicos, de ajustar por las covariables, y de hipótesis: modelo lineal generalizado mixto formulaciones de kriging [15, 23, 26, 27] y modelos aditivos generalizados (GAMs) utilizando bivariado núcleo o Loess smoothers [18, 19, 23]. Los dos son prometedores pero relativamente inexplorado métodos de la epidemiología en la ordenación del territorio. Por ejemplo, el núcleo de base GAMs se han utilizado para cartografiar los riesgos de cáncer de pulmón [18], la cirrosis biliar [28], y la mortalidad infantil [29].

Cartográfica a través de modelos aditivos generalizados (GAMs)

Se estimó la odds local de la enfermedad utilizando modelos aditivos generalizados, una forma de no-paramétrica o semi-paramétrica de regresión con la capacidad de analizar los datos de resultado binario mientras que el ajuste de las covariables [17]. Estamos modelo ubicación, una posible medida indirecta de la exposición, usando un buen bivariado (S) de la latitud (x 1) y longitud (x 2)

Logit [p (x 1, x 2)] = S (x 1, x 2) + γ 'z (1)

Donde el lado izquierdo es el registro de la enfermedad en lugar odds (x 1, x 2), z es un vector de covariables, y γ es un vector de parámetros. El modelo es semiparamétrico porque tiene tanto con técnicas y componentes paramétricos. Sin el buen funcionamiento, S (x 1, x 2), el modelo se convierte en una corriente de regresión logística en la covariables. Omitiendo la covariables produce un crudo mapa (sin ajustar). Se utilizó un loess suave que se adapta a los cambios en la densidad de la población [17]. La cantidad de suavizado depende del porcentaje de los puntos de datos en el barrio, conocido como el span tamaño. GAMs también permite la selección de "óptima" span tamaño y pruebas de hipótesis. Webster et al. (Presentado) proporciona una discusión detallada de los métodos estadísticos, análisis utilizando datos sintéticos, y una comparación con el núcleo del método y Kelsall Diggle [18]. Se utilizó S-Plus [30] para realizar el aditivo generalizado de modelado y ArcView [31] mapa de los resultados de nuestros análisis. Código de programa está disponible a petición.

Se determinó la cantidad óptima de suavizado para cada mapa por minimizar el Criterio de Información de Akaike (AIC). Los pequeños tamaños span bumpier producir superficies más grandes y abarcan los tamaños producir superficies más suaves. Como el lapso tamaño aumenta, la cantidad de parcialidad en la adecuación y aumenta la diferencia disminuye [17]. Hemos creado una malla rectangular que abarca el área de estudio utilizando el mínimo y máximo de coordenadas de latitud y longitud de la serie de datos original. Grid puntos mentir fuera el mapa de la zona de estudio se cortado, al igual que las zonas donde la gente no puede vivir (por ejemplo, los océanos o refugios de vida silvestre). Según nuestras estimaciones, el crudo y ajustado log odds en cada lugar de la parrilla de salida utilizando el S-Plus función predict.gam. Como esta función barrios define sobre la base de una combinación de los puntos de datos y la red, que puede producir discrepancias entre las predicciones basadas en los datos originales solas [32, 33]. Hemos comprobado, por tanto, todos los mapas y encontró que las discrepancias son menores, si no se cambian las conclusiones del caso.

Tenemos la conversión de las probabilidades para acceder odds-ratio (OR) a través de toda el área de estudio como referencia, dividiendo las probabilidades en cada punto de la cuadrícula por la Casa calculado por el modelo de reducción de omitir la ubicación de suavización plazo. El odds-ratio estimaciones de la tasa y el índice de riesgo relativo. Con el fin de hacer comparables los mapas visualmente, estudiamos todos los resultados utilizando el mismo color azul oscuro a rojo oscuro continua (sin clasificar) color de la escala y el alcance de las odds ratios, 0.25-2.50. Esta gama cubre la mayoría pero no la totalidad de las RUP observado en nuestro análisis, la prevención de mapas de ser lavada por una zona de máxima o de bajo RUP. Se utilizó una escala lineal de las odds ratio; aunque un registro escala es una buena opción, puede ser más difícil para muchas personas de interpretar. Como odds ratio de cerca de la unidad aparecerá como una luz verde, esta escala es cerca de divergentes, una forma efectiva de comunicar las desviaciones de la ruta de planitud en ambas direcciones. Spectral escalas, como la nuestra, son útiles cuando hay un claro valor central - aquí, un odds-ratio de uno - de la que la divergencia es importante (Véase Brewer et al [34] para una discusión útil de esquemas de color). Cáncer mapas utilizan tradicionalmente azul y rojo para las zonas de baja y alta tasa [35]. Azul y rojo son comúnmente asociados con el frío y caliente, ayudar interpretabilidad de las zonas con disminución o aumento del riesgo.

Se determinó la presencia de confusión espacial por comparar visualmente cruda y ajustada mapas. Si su óptimo span tamaños difieren, también en comparación mapas utilizando un espacio común, lo que nos permite distinguir entre los cambios debido al ajuste y los cambios debidos a span.

GAMs también proporcionar un marco para la realización de pruebas de hipótesis. Hay una serie de formas para poner a prueba la hipótesis nula que a nivel mundial el estado de la enfermedad no depende de la ubicación, es decir, que la ruta es plana. Similar al análisis de la varianza en la regresión lineal ordinaria, hemos examinado la importancia general de la localización utilizando la diferencia en la desviación de la modelo completo (ecuación 1) y el modelo reducido omitiendo la suavización plazo. El S-Plus software proporciona una aproximación de p-valor de esta estadística suponiendo una distribución chi cuadrado. Debido a este último supuesto, en general no es cierto en el caso de GAMs [17], se calculó el valor de p usando una permutación de prueba. Para probar la hipótesis nula de no asociación entre caso / control de la situación y ubicación, reasignado al azar a las personas a las residencias elegibles. Este procedimiento relabeling conserva el número de casos y controles y de la relación entre el caso / control de la situación y las covariables, pero cualquier desviación de un piso mapa se debe a la casualidad. Nos muestra de la nula permutación de distribución de 999 veces además de la original. Para cada permutación, que se corría el GAM óptima utilizando el espacio de los datos originales y de la desviación estadística computada. Hemos dividido el rango de los valores observados en 1000 para obtener la aproximación de permutación p-valor. Para la comparación, también calculado una permutación p-valor de la estadística utilizada por Kelsall y Diggle [18].

Si la desviación estadística indicó que la ubicación fue significativa en el nivel 0,05, realizamos pruebas de permutación pointwise para identificar las áreas con un riesgo aumentado o disminuido. Se obtuvo una distribución de probabilidades el registro en cada punto utilizando el mismo conjunto de permutaciones que utilizar para el cálculo de las estadísticas mundiales. Las áreas de significativa disminución en el riesgo ( "puntos fríos") que incluye todos los puntos en la parte baja del rango 2,5% de la pointwise distribuciones. Áreas de riesgo significativamente elevado ( "hot spots") que incluye todos los puntos en la parte superior del rango 2,5% de la pointwise distribuciones. En el dibujo el 2,5% y el 97,5% las líneas de contorno, el mapa de zonas y disminuyó significativamente mayor riesgo.

Covariables y los datos que faltan

Un grupo de centrales de confusión, a priori, elegido sobre la base de la bibliografía científica actual o el diseño del estudio, se incluyó en todos los análisis ajustados de cáncer de mama: período de tiempo de determinación de los casos y el estado vital en la entrevista, la edad en el momento del diagnóstico o índice de años, historia familiar de Cáncer de mama, antecedentes personales de cáncer de mama (antes de este diagnóstico o índice de años), edad al primer nacido vivo o muerto, y la exposición a solventes. Un número de otras covariables se conservaron debido a que cambió el aspecto de la ruta: historia de cáncer de mama benigno, raza, índice de masa corporal, la historia de exposición a la radiación, y uso de alcohol. Hemos caído otras covariables del modelo porque no cambiar la apariencia del mapa, incluida la utilización de los últimos dietilestilbestrol (DES), los anticonceptivos orales y la menopausia las hormonas, la historia de tabaquismo, estado civil, religión, nivel de educación, de la exposición a tetracloroetileno Las tuberías de distribución, y el nivel de actividad física. El cáncer de pulmón datos fueron ajustadas por edad en el momento del diagnóstico o índice de año, sexo, el estado vital en la entrevista, el consumo de tabaco (cigarrillos, pipa y puros), que viven con un fumador, la exposición laboral a sustancias cancerígenas de pulmón (puestos de trabajo con arsénico, el amianto, cromo, el carbón Brea de alquitrán de exposición), y la exposición a la radiación. Eliminado covariables incluyeron la historia de alcohol, uso de plaguicidas y herbicidas en el jardín, la exposición a tetracloroetileno de las tuberías de distribución, y si la residencia ha sido tratado por las termitas. Para el cáncer colorrectal, ajustada por edad en el momento del diagnóstico o índice de año, sexo, el estado vital en la entrevista, la historia de la enfermedad inflamatoria intestinal, y la historia asociada con el cáncer de colon (puestos de trabajo con la exposición al amianto o disolvente). Historia del uso del alcohol y la exposición a la radiación no afecta a la apariencia de los mapas.

Nos limita el análisis a los sujetos con historias completas residencial. En nuestro análisis inicial, los temas que faltan datos para otras covariables se incluyeron en el análisis de las variables, pero se codificaron como desaparecidas utilizando un indicador variable [36]. Si bien este método es adecuado a menudo en nuestra experiencia, que puede en teoría dar lugar a los prejuicios [37]. Por lo tanto, para garantizar que los resultados positivos no son sesgados por el uso del método de indicadores, hemos utilizado la imputación de múltiples variables con más de 10% de los datos que faltaban. La cantidad de datos faltantes era inferior al 10% por variable para el cáncer de pulmón (15 años de latencia del análisis) y el cáncer colorrectal (sin análisis de latencia). La mayoría de las covariables cáncer de mama (20 años de latencia del análisis) tenían menos de 10% de los datos que faltaban. Las excepciones fueron los antecedentes familiares de cáncer de mama (10%), antecedentes personales de cáncer de mama benigno (10%), la historia de la utilización de anticonceptivos orales (11%), la historia de exposición a la radiación (13%), el tratamiento con hormona de la menopausia (19%) y Pasado el uso de DES (20%). Para el cáncer de mama (20 años de latencia), que se imputan seis conjuntos de datos completos, y luego corrió el modelo GAM y estadísticas sobre cada una de ellas. Se combinaron los seis mapas por pointwise promedio de los odds ratios antes de la exponenciación.

Residencial Historia

Nuestra inicial, no se incluyeron todos los análisis de latencia residencias elegibles, es decir, las exposiciones ocurridos hasta el diagnóstico se supone que contribuyen al riesgo de la enfermedad. Sin embargo, el cáncer iniciado por la exposición a carcinógenos ambientales suelen tener más de una década de desarrollo. Para ello hemos realizado una latencia de quince años de análisis por la restricción de la inclusión de las residencias ocupadas por los participantes por lo menos quince años antes de que el diagnóstico o el índice de año (dentro de las Residencias de los quince años fueron excluidos debido ventana de la situación geográfica dentro de la ventana que se presume que no pertinentes a los resultados ). Entre el 46% y el 48% de las viviendas se mantuvo en función de los resultados. Además, porque los casos de cáncer de mama se obtuvieron durante un período de diez años, hay casos suficientes para realizar una veinte años de latencia del análisis; el 37% de las residencias sigue siendo elegibles.

Algunos de los participantes vivían en más de una ubicación en Cape Cod o más de una vez en un solo lugar, si se marcharon y regresaron más tarde. Para determinar los efectos múltiples residencias puede haber tenido en los mapas, también se realizaron análisis que incluye para cada persona sólo la residencia de más larga duración que se reunió latencia hipótesis. Dado que el conjunto de datos resultante es más pequeña, la óptima span elegido por la AIC es a menudo, pero no siempre, más grande. Como mapas pueden cambiar debido a los diferentes tamaños de span, también analizaron la reducción del conjunto de datos utilizando el espacio óptimo de los datos originales.

Resultados
Cáncer de Mama

Si no se latencia, la ubicación no fue estadísticamente significativa en el nivel de 0,05 (Tabla 1 y Figura 3a]. Suponiendo 15 años produjo una estadísticamente significativa, aunque todavía relativamente plana mapa (Figura 3b]. Suponiendo 20 años de latencia el aumento de la magnitud de los puntos fríos y calientes (Figura 3c] y la importancia general de la ruta (Tabla 1]. El ajustado mapa (Figura 3c] había más pronunciada caliente y fría las manchas de crudo mapa (Figura 3d]. Espacial de confusión fue parcialmente enmascarar diferencias en el análisis crudo. La raza es la variable más importante responsable de esta diferencia, en el momento, había una gran población de nativos americanos que viven en la parte superior Cape Cod. El punto de sabio pruebas de significación mostró un gran foco de tensión que se extiende por los municipios de Falmouth, Mashpee, y Sandwich del Sur (Figura 3e]. Otros puntos críticos fueron identificados en el sureste y el noroeste de Barnstable Bourne. Odds enfermedad en determinadas zonas fueron cinco veces mayor que el área de estudio en su conjunto. Áreas de manera significativa disminución en el riesgo relativo a la totalidad del área de estudio se encuentran dispersos a lo largo de la costa sur de Falmouth y Mashpee y por el centro de Barnstable. Para los individuos en el análisis suponiendo que el cáncer de mama de 20 años de latencia, el 66% tenía sólo un derecho de residencia, el 22% tenía dos, el 8% tenía tres, y el 4% tenía cuatro o más.

Hemos restringido el próximo ajustado de 20 años de latencia del análisis a las residencias de más larga duración. Un tercio vive en su residencia de más larga duración de menos de 20 años, 37% de 20-29 años y el 30% durante 30 o más años. Utilizando el mismo tamaño que se extienden antes de (0.15), Figura 4a muestra que, si bien el grupo tamaño y la forma ha cambiado, el patrón espacial general sigue siendo bastante similar. El óptimo lapso de mayor duración fue 0,45 análisis, y utilizando el espacio más amplio de tamaño se traduce en una superficie suave (Figura 4b]. Puntos calientes y puntos fríos fundidas, la reducción de sus magnitudes, pero siguen siendo estadísticamente significativas.

En comparación con el mapa original producidos utilizando variables indicadoras de los datos que faltan (5 bis), múltiples imputación sólo había menores efectos sobre la aparición de los 20 años de latencia del análisis de todas las residencias (Figura 5b], como los seis imputados mapas (y su promedio) mirar Prácticamente idénticos, nos muestran sólo una. Sin embargo, el óptimo lapso fue 0,35 para el imputado mapas, más grande que el espacio de 0,15 para el mapa original. En este lapso superior, el imputado mapa aparece más suaves (Fig. 5c]. Comparación de las curvas de la AIC para la original e imputados mapas (prácticamente idénticos a los seis imputados conjuntos de datos) indica que tanto tienen dos locales se extiende a los mínimos de 0,15 y 0,35 (Fig. 6a, 6b]. Aunque bastante similar en magnitud, en la AIC span 0,15 es ligeramente menor para el conjunto de datos originales mientras que la AIC en span 0,35 es ligeramente menor para el imputado conjuntos de datos. Desde un punto de vista estadístico, tanto span tamaños parecen ser adecuados. Sin embargo, debido a la baja densidad de población en torno a la base militar, el uso de las más grandes span tamaño tiende a fusionar dos "puntos calientes" en el centro y la esquina noroeste del mapa (Fig. 5b, 5c]. Las estadísticas globales de los imputados mapas fueron muy significativas span independientemente de su tamaño.

Cáncer de pulmón

Caliente y fría spots hizo evidente a medida que el aumento de la latencia de 0 a 15 años (Cuadro 2 y Figuras 7a, b]. Ajuste de aumento de las odds ratio de covariables en la parte norte del mapa (Comparar las cifras 7b, c]. Ubicación fue estadísticamente significativa para los 15 años de latencia. La parte superior de la región norte y sur de Cape Cod Barnstable fueron importantes zonas de mayor riesgo en relación con el área de estudio, mientras que las pequeñas zonas de Falmouth había zonas de importante disminución en el riesgo (Figura 7d]. Para los individuos en el análisis suponiendo que el cáncer de pulmón de 15 años de latencia, el 61% tenía sólo un derecho de residencia, el 22% tenía dos, el 11% tenía tres, y un 5% tenía cuatro o más.

Para ajustar la latencia de 15 años de análisis restringido a las residencias de más larga duración, el 23% de los sujetos vivía en su residencia de menos de 20 años, 18% de 20-29 años y el 30% durante 30 o más años. La restricción de los 15 años de latencia del análisis a las residencias de más larga duración cambiado el mapa, la eliminación de los importantes focos de tensión y de la importancia mundial de localización (Figura 7e, preparado utilizando el mismo espacio como la figura 7d]. Este resultado puede implicar que la inclusión de múltiples residencias sesgada de no limitarse análisis. El óptimo lapso de análisis de la más larga duración aumentó de 0,30 a 0,95, la elaboración de un mapa más bien plana en apariencia (Figura 7f]. El aumento de tamaño span puede deberse en parte a la disminución de la cantidad de datos.

Cáncer colorrectal

Los mapas para el cáncer colorrectal presenta una menor variación de los odds ratios distintos de los de mama y el cáncer de pulmón. Ubicación no fue estadísticamente significativa, excepto en el supuesto de menos plausible de no latencia (Tabla 3]. Poco cambio que se observa en la odds ratio de latencia cuando se aumentó de 0 a 15 años (Figura 8]. Ni para el ajuste de las covariables ni a la restricción de las residencias de más larga duración tienen mucho efecto sobre los 15 años de latencia del análisis (no se muestran los mapas).

Comparación de las estadísticas mundiales

Como se muestra en los cuadros 1, 2, 3, el p-valor calculado para la permutación basado en la prueba y la desviación Kelsall-Diggle estadística se suele similares, con los ex generalmente poco más pequeña. El valor de p proporcionados por S-Plus para la desviación estadística de chi cuadrado usando una suposición era más pequeña, a veces mucho más pequeños, que la permutación basado en la desviación de prueba. Mientras que el chi cuadrado aproximación proporciona una aproximación áspera, se recomienda el uso de la permutación enfoque.

Discusión

En nuestro análisis, los mapas de pulmón y cáncer de mama en Cape Cod superior está representada la variación más cuando controlados por covariables y el aumento de la latencia. Situación también se convirtió en una estadística más importante de la modelo. En vez de causar la enfermedad agrupaciones como se suele suponer, de confusión espacial fue parcialmente escondidos zonas de mayor riesgo. Si los movimientos de la población es al azar con respecto al estado de la enfermedad, haciendo caso omiso de latencia debería causar nondifferential exposición errores de clasificación y tienden a hacer mapas más plano. Áreas de aumento de cáncer de mama y la disminución del riesgo se hizo más pronunciada, y los mapas se hicieron más estadísticamente significativa, cuando el aumento de la latencia de 0 a 15 a 20 años. La tendencia hacia una mayor variación espacial en ambos mama y el cáncer de pulmón con un aumento de la latencia es coherente con geográficamente clasificación errónea de factores de riesgo asociados, incluyendo exposiciones ambientales. Por otra parte, las personas que vivían en el Cabo de muchos años puede haber factores personales de riesgo, que no de control. Un reciente análisis espacial no también encontró que el riesgo de cáncer de mama se asoció con larga residencia en Cape Cod [13]. En cambio, los mapas de cáncer colorrectal son relativamente planas.

Un número de estudios han examinado la epidemiología del cáncer y la exposición ambiental en Cape Cod [5 - 15]. Brody et al. [14] Recientemente, no informó de asociación entre cáncer de mama y de área amplia de la aplicación de plaguicidas, evaluó a través de los registros históricos y los SIG. Modesto aumento de los riesgos se asociaron con la aplicación aérea de plaguicidas persistentes a los pantanos de arándano y el uso de pesticidas menos persistentes para la agricultura y el árbol de las plagas. Anteriores estudios investigaron la asociación entre el cáncer de mama, pulmón y cáncer colorrectal y el tetracloroetileno en el agua potable de vinilo forrados de las tuberías de distribución de fibrocemento [10 - 12]. Moderadamente aumento de los riesgos se encontraron de mama y el cáncer de pulmón en la mayoría de los individuos expuestos. En nuestro análisis de cáncer de mama con veinte años de latencia, 12 de los 900 residencias fueron expuestos a tetracloroetileno de las tuberías, sólo uno en un importante foco de tensión. Para el supuesto de cáncer de pulmón de 15 años de latencia, 8 de las 1053 viviendas fueron expuestos, sólo dos en un importante foco de tensión. Agregando tetracloroetileno a los modelos no tuvo efecto sobre la aparición de cualquiera de ruta.

Nuestro análisis encuentra una significativa el cáncer de pulmón "Hot Spot" norte del Massachusetts Military Reservation (comparar las figuras 1 y 7d]. A principios de la investigación había encontrado un modesto aumento en el riesgo de cáncer de pulmón a menos de 3 km de arma de fuego de mortero y de la formación sitios en la base militar [7]. También se encontró un importante foco de cáncer de mama en el borde sureste de la MMR. Francés y Wand [15] informó de un área de mayor riesgo de cáncer de próstata al sureste de la MMR. Otras sugerencias de encontrar una relación entre el bajo peso al nacer y la proximidad a la base [27].

La superposición de mapas de odds ratios con mapas de las fuentes de contaminación pueden generar hipótesis acerca de la exposición. Precaución es necesario, sin embargo, debido a que muchos accidentes geográficos pueden superponerse. Para generar hipótesis para una investigación más a fondo, nos espera en un repositorio de Massachusetts en línea codificados geográficamente características de los archivos de forma potencialmente relacionados con la exposición al medio ambiente [38]. Las aguas subterráneas plumas son de particular interés debido a la hipótesis anterior de que el cáncer de mama pueden estar relacionados con la contaminación del agua potable. Sin ningún conocimiento previo de cualquier geográfica relación con el cáncer de mama, se compararon los dos conjuntos de datos (Figura 9], y fundar una sugestiva coincidencia entre los tres importantes puntos calientes de cáncer de mama y de las aguas subterráneas plumas, algunas de la MMR. Desde las plumas que no tienen las mismas posiciones durante el período de exposición (en el supuesto de latencia) y de diversas materias utilizadas pozos privados o públicos de agua, esta concordancia no establece la exposición. Sin embargo, esta hipótesis puede ser probada mediante la identificación de los participantes de las fuentes de agua potable y de la comparación de años de residencia a los años de la posible contaminación.

Estudios de casos y controles son una de las herramientas estándar epidemiológica para investigar las asociaciones entre la enfermedad y la exposición. Al combinar estos datos con técnicas estadísticas avanzadas, hemos sido capaces de hacer frente a muchas críticas de los estudios espaciales. Un número relativamente elevado de casos de cáncer se cerciorado de un registro y de los tipos de cáncer se estudiaron por separado. Punto basada en datos de una región se utilizan, evitando la agregación dentro de las fronteras políticas arbitrarias. Controls proporciona una estimación de la subyacente, no uniforme densidad de población. Hemos sido capaces de controlar para muchos covariables no disponible en los estudios que se basan en los datos del registro solo. Residencial información de la historia hemos podido tomar en cuenta la latencia, potencialmente muy importante para enfermedades como el cáncer.

Sin embargo, nuestros resultados tienen una serie de limitaciones potenciales. Residencial lugares no cuenta para la circulación diaria de las personas. Para el cáncer de mama, existe la posibilidad de que las zonas de elevado riesgo de enfermedad se deben al sesgo de selección: la mujer en la población en que puede haber tenido mayores oportunidades para el cribado en estas áreas. Por lo tanto, examinó la asociación entre la ubicación y si ha sido objeto de los controles de mamografía, de ajustar por la edad y la historia familiar de cáncer de mama (mamografía, sólo se dispone de datos para los controles no proxy). El mapa resultante es relativamente plana y diferente en apariencia de los mapas de cáncer de mama, lo que sugiere el sesgo de selección no espacial (mapa no aparece, p-valor global de la prueba = 0,18). Nuestro uso residencial de la historia hemos podido tomar en cuenta, pero la latencia producida múltiples residencias, una fuente potencial de sesgo. Desde que se emprendió el estudio de las residencias, un aparente grupo puede ser causada por algunas personas que se desplazan en un área pequeña. Para examinar el efecto de múltiples residencias, restringido nuestro análisis a las residencias de más larga duración. A pesar de que el patrón espacial de riesgo fue similar para el cáncer de mama, hay diferencias en la ubicación y magnitud de los puntos fríos y calientes en el análisis del cáncer de pulmón. Esto puede indicar que la inclusión de múltiples residencias sesgado análisis del cáncer de pulmón. Mejora de los métodos para el análisis de datos con múltiples residencias son necesarias; ponderación por tiempo de residencia ha sugerido [39]. Aunque faltan datos de las covariables son una fuente potencial de sesgo, múltiples imputación sugirió poco efecto en los resultados de cáncer de mama con 20 años de latencia. Espacial métodos de análisis de datos de los desaparecidos covariables están subdesarrollados; el reciente documento de francés y Wand ofrece otra opción posible [15]. Hemos ajustado el nivel individual de muchos de los factores de riesgo, pero algunos autores abogan por la inclusión del nivel de grupo de variables contextuales, por ejemplo [40]. Al vincular la ubicación residencial a los datos del censo, uno podría poner a prueba la importancia de estas variables en relación a cada nivel covariables. No se dispone de información sobre algunos a nivel individual de los factores de riesgo, por ejemplo, las predisposiciones genéticas. Si bien las zonas de aumento o disminución de riesgo puede teóricamente ser causado por falta de uniformidad en el control de selección, toma de muestras de los controles en el área de estudio no depende de la geografía. Hemos calculado pointwise mundial y los valores de p, pero muchos epidemiólogos prefieren los intervalos de confianza al evaluar la precisión de las estimaciones puntuales [41]. Debería ser posible calcular la varianza bandas (también conocido como la confianza de las bandas) para nuestros mapas [17]. Se identificaron las áreas con un aumento o disminución de riesgo utilizando pointwise de hipótesis. Al hacer estas comparaciones múltiples que aumentan la probabilidad de encontrar importantes puntos calientes o fríos por casualidad. A pesar de que no se ajuste a la multiplicidad, sólo si las pruebas realizadas pointwise mundial de la prueba de desviación indica que el mapa era poco probable que sea plana. La ubicación de importantes puntos calientes y fríos, deben considerarse como exploratorio.

Desde varios sectores de alto riesgo son cerca de la costa, borde efectos debe ser considerado; GAMs pueden mostrar un comportamiento sesgado en los bordes de los datos. Sin embargo, loess pueden ser menos susceptibles a este problema que muchos smoothers [17] y con el trabajo preliminar de síntesis poco sesgo de los datos encontrados en los bordes analizados utilizando nuestro método [Webster et al. Presentados].

Semiparamétrico de estudios de la contaminación del aire comúnmente emplean GAMs. El efecto de interés se basa en parametricamente y se basan en varias covariables con smoothers. Dominici et al. [42, 43] informó de que S-Plus puede producir un sesgo coeficiente de regresión paramétrico con inflados error estándar. Ramsay et al. [44, 45], advirtió que más estrictos criterios de convergencia por sí solas no son suficientes para eliminar estos problemas: concurvity, una contraparte con técnicas de multicolinearidad, también es responsable. Hemos utilizado nuestro modelo semiparamétrico de otra manera, el modelado de "exposición" (ubicación), con un suave y parametricamente covariables, y la variación espacial de pruebas estadísticamente con métodos de permutación. La inflación de software proporcionado por errores estándar por lo tanto, no es un problema, pero el sesgo de la lisa no se descarta. Como una comprobación inicial, el modelo de síntesis de datos utilizando tanto por defecto y más estrictos parámetros de la convergencia, los mapas son muy similares y simple covariables fueron adecuadamente controlados [Webster et al. Presentados]. Se requiere un trabajo adicional sobre este tema.

Selección de ancho de banda es una de las cuestiones más importantes en el suavizado [17]. Se utilizó el Criterio de Información de Akaike, una computacionalmente factible para la selección de un método "óptimo" de ancho de banda basado en el compromiso entre los prejuicios y la diferencia de la buena. Sin embargo, hay problemas con la aplicación automática de los procedimientos de selección de ancho de banda. Seleccionar el lapso que optimiza el sesgo de diferencia desventaja no es necesariamente la misma que la comprensión de la importancia de características del mapa. El óptimo lapso tiende a ser mayor para los pequeños conjuntos de datos, resultando en una superficie más suave. Así, ciertas características en los datos no pueden ser capturados en el análisis (por ejemplo, comparar las figuras 4 a, b]. Además, las curvas de la AIC para el cáncer de mama sugieren dos opciones razonables de los anchos de banda (Figuras 6a, 6b]. En vez de utilizar un único ancho de banda, puede haber importantes aspectos de los datos a diferentes escalas. Se necesitan nuevos métodos para abordar esta cuestión, por ejemplo, [46].

Métodos estadísticos para la cartografía de ajustar, punto basada en datos epidemiológicos son un campo relativamente nuevo. Sería útil en el futuro para comparar los resultados de modelos aditivos generalizados y modelos lineales generalizados mixtos.

Conclusión

Uso de modelos aditivos generalizados y sistemas de información geográfica, mapas generados de mama, pulmón y el riesgo de cáncer colorrectal. Nuestro análisis mostró poca o ninguna asociación entre la ubicación geográfica y el cáncer colorrectal superior en Cape Cod. Se observó una zona de elevado significativamente el riesgo de cáncer de pulmón al norte del Massachusetts Military Reservation, similares a las anteriores investigaciones que vinculan el cáncer de pulmón a la proximidad a la base militar. Sin embargo, este resultado no celebrar cuando nos limita el análisis a las residencias de más larga duración. Nuestros resultados proporcionan pruebas espaciales de la agrupación de cáncer de mama superior en Cape Cod. Las áreas de mayor y menor riesgo de cáncer de mama no se explica por covariables y se hizo más extrema ya que el aumento de la latencia, en consonancia con los resultados de la exposición geográfica. Se identificaron tres importantes puntos calientes de cáncer de mama que coinciden con penachos de aguas subterráneas, una exposición hipótesis de que ser objeto de nuevas investigaciones. Nos demostró que se puede producir confusión espacial en mapas, pero en nuestro análisis que tienden a oscurecer en lugar de crear agrupaciones. Epidemiología espacial de la población basada en estudios de casos y controles se abordan muchas críticas metodológicas de los estudios de grupo y genera nuevas hipótesis de exposición. Modelos aditivos generalizados proporcionar una manera relativamente sencilla para la realización de esos análisis utilizando software estándar.

Abreviaturas

AIC, el Criterio de Información de Akaike

DES, dietiletilbestrol

GAM, modelo aditivo generalizado

Sistemas de información geográfica, sistemas de información geográfica

MMR, Massachusetts reserva militar

O, odds-ratio

Conflicto de Intereses

Los autores declaran que no tienen intereses en conflicto.

De los autores Contribuciones

VV realizó el análisis espacial y redactó el manuscrito. TW dirigido el estudio, ha colaborado en todas las decisiones de análisis y escribió el segundo proyecto. JW proporcionó un apoyo estadístico y analítico y consultados sobre cuestiones de redacción. AA proporcionó los datos y colaboró en el análisis epidemiológico y la edición. DO participado en el diseño del estudio y la edición del manuscrito. Los dos primeros autores contribuyeron por igual. Todos los autores leído y aprobado el manuscrito final.

Agradecimientos

Este trabajo fue apoyado por el Programa de Investigación Básica Superfondo Grant 5P42ES 07381. También recibieron apoyo de la Primavera Silenciosa de Cape Cod Instituto de Cáncer de Mama y de Medio Ambiente el estudio, que fue financiado por un crédito de la Legislatura de Massachusetts Massachusetts administrado por el Departamento de Salud Pública.