Environmental Health, 2005; 4: 19-19 (más artículos en esta revista)

Cluster de detección de los métodos aplicados a la Alta Cape Cod cáncer de datos

BioMed Central
Al Ozonoff (aozonoff@bu.edu) [1], Thomas Webster (twebster@bu.edu) [2], Verónica Vieira (vmv@bu.edu) [2], Janice Weinberg (janicew@bu.edu) [1 ], David Ozonoff (dozonoff@bu.edu) [2], Ann Aschengrau (aaschen@bu.edu) [3]
[1] Department of Biostatistics, Boston University School of Public Health, 715 Albany Street, Boston, MA 02118, USA
[2] Department of Environmental Health, Boston University School of Public Health, 715 Albany Street, Boston, MA 02118, USA
[3] Department of Epidemiology, Boston University School of Public Health, 715 Albany Street, Boston, MA 02118, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Una variedad de métodos estadísticos se han sugerido para evaluar el grado y / o de la ubicación espacial de la agrupación de casos de enfermedades. Sin embargo, hay relativamente poco en la literatura dedicada a la comparación y la crítica de los diferentes métodos. La mayoría de los estudios comparativos disponibles se basan en datos simulados y no en datos reales.

Métodos

Hemos elegido tres métodos actualmente utilizados para examinar los patrones espaciales de enfermedades: la M-estadística de Bonetti y Pagano; el Modelo Aditivo Generalizado (GAM) como método aplicado por Webster; Kulldorff y la exploración espacial estadística. Aplicamos estas estadísticas para analizar los datos de cáncer de mama en el Alto Cabo Incidencia del Cáncer de estudios utilizando tres diferentes hipótesis de latencia.

Resultados

Las tres hipótesis diferentes latencia produjo tres diferentes patrones espaciales de casos y controles. Durante 20 años de latencia, los tres métodos generalmente de acuerdo. Sin embargo, durante 15 años de latencia y no de latencia hipótesis, los métodos producen resultados diferentes cuando se realizan pruebas de la agrupación mundial.

Conclusión

El análisis comparativo de los datos reales de los diferentes métodos estadísticos presenta las nuevas orientaciones de la investigación. Le sugerimos un programa de investigación diseñado en torno a examinar los conjuntos de datos reales para orientar centrado la investigación de las características utilizando datos simulados, con el fin de entender cómo interpretar los métodos estadísticos aplicados a los datos epidemiológicos con un componente espacial.

Antecedentes

Unusual la distribución geográfica de la enfermedad puede dar lugar a la preocupación pública y las explicaciones son frecuentemente solicitada. La atención es a menudo dirigida hacia potenciales en el medio ambiente y otros factores asociados con la enfermedad en cuestión. Estas investigaciones a menudo tienen altos costos en tiempo y dinero, y por lo tanto, es importante verificar objetivamente que la distribución de los casos es de hecho "inusual". Una serie de métodos estadísticos se han sugerido para evaluar el grado y / o de la ubicación espacial de la agrupación de casos de enfermedades. Un buen panorama de los problemas de la estadística general de la agrupación en el ámbito de la salud pública está contenido en [1]. Para un examen más a fondo con un poco alcance más limitado, pero véase [2].

A pesar de la variedad de las estadísticas disponibles, y la importancia de la comprensión de la propia metodología, hay relativamente poco en la literatura dedicada a la comparación y la crítica de los diferentes métodos. La mayoría de los estudios comparativos disponibles se basan en datos simulados ([3, 4], entre otros) en lugar de en datos reales. Excepciones notables incluyen datos de la leucemia upstate Nueva York, que han sido ampliamente analizados con una variedad de métodos (ver por ejemplo [5]]. Las ventajas de utilizar los datos simulados son claras, a saber, patrones espaciales puede especificarse de antemano y el poder de detectar patrones en determinadas condiciones puede ser considerado. Sin embargo, la complejidad y la sutileza de los conjuntos de datos reales son con frecuencia más allá de nuestras capacidades de simulación, y la posible gran número de parámetros que intervienen en dichas simulaciones hacer investigación sistemática de los elementos particulares una tarea de enormes proporciones.

En este trabajo se comparan los métodos de análisis de cáncer de mama utilizando datos de la zona de Cape Cod Superior de Massachusetts. Geográficamente, en el Alto del Cabo tiene características interesantes que son difíciles de simular lo contrario. Su forma es más o menos rectangular, pero con los bordes desiguales. La densidad de población es muy heterogéneo, entre ellos un gran no residencial "agujero" en el cuadrante suroeste (Otis Base de la Fuerza Aérea). Estas características geográficas tienen el potencial de afectar a diversos métodos espaciales de diferentes maneras y en distintos grados, lo que hace de estos datos rica y compleja de una forma que los datos simulados a menudo no lo son. Elegimos comparar tres métodos actualmente utilizados para examinar los patrones espaciales de enfermedades; uno es un ensayo mundial para la agrupación, uno de ellos es un local de ensayo para las agrupaciones, y uno combina una desviación estadística mundial con odds ratios estimados a nivel local. Los tres métodos son relativamente fáciles de poner en práctica y exigir ninguno de software comercial. Sin embargo, sólo el análisis estadístico se ha aplicado en stand-alone software.

No intento de ofrecer una comparación de todos los métodos disponibles o de proporcionar un análisis completo de los datos de cáncer de mama, y el lector no debe interpretar los resultados de nuestra investigación en el contexto de cáncer de mama en grupos de la región de Upper Cape Cod. En contraste con los numerosos informes publicados en el New York leucemia datos, nuestro propósito aquí no es para inferir diferencias específicas entre los casos y los controles en los datos de cáncer de mama. En vez de eso, tratar de lograr una mejor comprensión de las propiedades de análisis de los métodos que hemos seleccionado, las características de los datos que pueden ser problemáticos para cada uno de ellos, y que pueden ser más adecuados para las situaciones particulares.

Cabe señalar que los tres métodos no son directamente comparables, en el sentido de que uno es esencialmente mundial (la M-estadística), es un local (el análisis estadístico), y se calcula el odds ratio de local junto con una desviación estadística ( Webster's Modelo Aditivo Generalizado (GAM)). Por lo tanto no hay razón para esperar que los resultados de las pruebas de hipótesis utilizando estos métodos muy diferentes de acuerdo. Se sostiene que los casos en que los resultados de pruebas de hipótesis usando cada uno de estos tres métodos son discordantes puede revelar aspectos importantes de los datos que no pueden ser percibidas por utilizar un método exclusivamente. En este sentido, estos métodos ofrecen puntos de vista complementarios de los datos. La información contenida en cada enfoque debe considerarse como parte de una investigación minuciosa y completa de los patrones espaciales de la enfermedad.

Datos

Los datos son de dos basados en la población estudios de casos y controles de cáncer de mama en Upper Cape Cod, Massachusetts [6 - 8]. El Registro de Cáncer de Massachusetts se utilizó para identificar los casos incidentes de cáncer de mama diagnosticados entre 1983-1993. Los controles fueron seleccionados para representar a la población subyacentes que dieron origen a los casos. Los participantes se limita a los residentes permanentes de la región de Cabo superior con total residencial historias. El caso y el control de las poblaciones fueron emparejados en la edad y el estado vital. Los casos y los controles eran geocoded lugares y entró en un Sistema de Información Geográfica (SIG). Para aquellos sujetos que se trasladó durante el período de estudio, múltiples ubicaciones residenciales fueron incluidos en todos los análisis, según proceda.

Tres latencia hipótesis se utilizaron en el presente documento. El cero latencia análisis incluyó todos los riesgos es decir, residencias ocurridos hasta el diagnóstico se supone que contribuyen al riesgo de la enfermedad. Así, todos los matriculados de los casos de cáncer de mama (n = 200, en representación de 321 diferentes lugares residenciales) y coincide con los controles (n = 471, que representan 756 localidades residenciales) se incluyen en el análisis de latencia cero.

Sin embargo, el cáncer iniciado por la exposición a carcinógenos ambientales pueden tomar mucho más tiempo para desarrollarse. Para ello hemos realizado a 15 años y 20 años de latencia del análisis de la restricción de la inclusión de las residencias ocupadas por los participantes por lo menos 15 (o 20) años antes de que el diagnóstico (o índice de años, por los controles). Los 15 años de latencia del análisis incluyen 107 casos (170 lugares) y 193 controles (389 lugares), mientras que los 20 años de latencia del análisis incluyen 248 casos (391 lugares) y 341 controles (509 lugares). Los 20 años de latencia del análisis incluye temas de un estudio de seguimiento, con lo que el número de casos y controles son más altos que de otro modo se espera debido a la suposición de latencia más restrictivas.

La hipótesis de latencia de este modo producir tres patrones espaciales, dando así y control de las residencias cero, 15, o 20 años antes de su diagnóstico. Estos datos se describen plenamente, incluida la metodología para la selección de casos y controles, la demografía, y otras características de la población estudiada, en el informe final de la totalidad del estudio, así como el seguimiento de documentos sobre el cáncer de mama de datos, ver [7, 8] para más detalles. A título de ejemplo, la distribución espacial de los casos de cáncer de mama y controles (sin latencia supuesto) se muestran en la Figura 1.

Métodos

Los tres métodos estadísticos se describen a continuación son: Bonetti y Pagano M-estadística, en base a la distribución interpunto distancia [5]; Webster's GAM enfoque, que utiliza técnicas de suavización [9], y Kulldorff la exploración espacial estadística [10]. La M-estadística es una compañía global de las imprecisiones de prueba, lo que significa que sólo se refiere a las salidas de la distribución espacial de los casos de la distribución de los mandos, sin determinar la ubicación de cualquier (posiblemente múltiple) o de otros grupos de diferencias. El GAM método mapas odds ratio de la enfermedad, ofrece un ensayo mundial para la desviación de un piso de ruta, y se determinan los lugares con un aumento o disminución de riesgo (GAM aquí es la convencional para la designación Aditivo Generalizado Modelo, no a la Máquina de Análisis Geográfico Openshaw [11] , Que también se utiliza en el grupo de investigación). Incorpora una función de suavizado de la ubicación en una convencionales de regresión logística que representa para efectos de las covariables. Kulldorff la exploración estadística, el método más utilizado por el grupo investigaciones, analiza toda la región de estudio para los locales excesos y / o reducciones de riesgo. Actualidad implementaciones de los binarios (modelo Bernoulli) versión de la exploración estadística de permitir el ajuste de las covariables sólo categórica, y la M-estadístico aplicado como no ajustar para covariables a todos (aunque permitiendo covariables categóricas a través de la estratificación parece ser una simple extensión De los métodos existentes). Para simplificar hemos optado por aplicar los tres métodos de crudo sólo datos, evitando así la necesidad de considerar las diferencias en las covariables de ajuste a través de los tres métodos.

M-estadística

Bonetti-Pagano M-estadístico [5] es una organización no-paramétrica de ensayo general para la agrupación. Funciona por representar y comparar la distribución espacial de las dos poblaciones (en este caso casos y controles) interpunto a distancia a través de la distribución. De cualquier conjunto de n lugares, se puede calcular aproximadamente el n 2 / 2 interpunto distancias entre localidades y considerar la distribución de estas distancias. Típicamente, un procedimiento de remuestreo en toda la población de estudio se utiliza para generar una línea de base (o nula) distribución. Tanto la nula distribución (que se calcula a través de remuestreo), y la distribución observada (calculado a partir de la interpunto distancias entre los casos) son binned en histogramas, cada uno de los cuales se puede representar como un vector. El resultado es entonces una Malhalanobis-al igual que la distancia entre los dos vectores, ponderados por una estimación de la covarianza entre histograma papeleras.

Más formalmente, repetidas remuestreo de toda la población de estudio (casos y controles) se utiliza para calcular la distribución de las distancias bajo la hipótesis nula de que ambas poblaciones son la muestra de la misma distribución espacial. Binning estas distancias y teniendo más de la media de todas las iteraciones espera da cuenta de cada bin del histograma. La experiencia con este método sugiere que el número óptimo de las papeleras crece aproximadamente en el orden de Donde n es el número de casos que se está evaluando (ver también [12]]. Denotar por e el vector de valores esperados en cada bin, expresado como porcentaje del número total de las distancias. Remuestreo repetida también nos permite calcular la covarianza de e, que se denotan por S, un k × k matriz cuadrada.

El interpunto distancias de los casos la enfermedad se calculan, binned, y escrito como un k-dimensional o vector, los valores observados bin (expresado en proporciones). Entonces, la M-estadística es la siguiente:

M = (o - e) 'S - (o - e)

Donde S - es la de Moore-Penrose inversa generalizada de la muestra de covarianzas S. Por lo tanto, el cálculo de la diferencia entre la espera (bajo la hipótesis nula de ninguna agrupación) bin proporciones y las proporciones observadas bin casos de la enfermedad, inversamente ponderado por el estimador de covarianza. Como S - es un semi-definida positiva la matriz, M ≥ 0.

La distribución asintótica de M se encuentra en [5]. En la práctica podemos utilizar el procedimiento de remuestreo para el cálculo de la distribución de M empíricamente bajo la hipótesis nula. Al comparar el valor calculado de la estadística de ensayo a la nula distribución da un p-valor que puede interpretarse como la probabilidad de que la distribución espacial de la enfermedad difiere de los casos de estudio a toda la población por casualidad.

GAM suavización

Webster et al. [9, 13] han utilizado un procedimiento basado en el suavizado y modelos aditivos generalizados (GAMs) para detectar la enfermedad y el mapa de clusters (ver [14] para los relacionados con el trabajo). El modelo aditivo generalizado predice el diario de las probabilidades de enfermedad (logaritmo de la proporción de casos a los controles) como una función lineal de algunas covariables y facilitar la función de las coordenadas espaciales.

En concreto, el modelo se especifica que para una persona con covariables z i y la ubicación espacial (x i, y i), la probabilidad p i de la enfermedad está dado por:

Logit (p i) = S (x i, y i) + β β z z i

Donde β denota el vector de coeficientes de regresión lineal para las covariables. S (x, y) es un buen bivariado función. Webster et al. Utilizar un loess (localmente ponderado de regresión más suaves), porque es adaptable a los cambios en los datos de densidad de población que figuran habitualmente en los mapas. Alrededor de cada punto de la zona de estudio, una ventana de tamaño variable se construye sobre la base de un número predeterminado de los vecinos más cercanos; dentro de esta ventana, de los datos que contribuyan a S (x, y) de acuerdo a una ponderación tricube función. Los detalles están cubiertos en el fondo [15]. El tamaño de la ventana (span) afectará tanto el sesgo y la varianza (es decir, la cantidad de suavizado). Reducir el span reduce el sesgo, sino que también aumenta la diferencia (reducción de suavidad). Diversos criterios se han desarrollado para equilibrar estas dos propiedades de los más suaves. Webster et al. Utiliza el Criterio de Información de Akaike (AIC), lo que representa una media de la desviación, pero penaliza el número de grados de libertad. Minimización de la AIC estimaciones de una "óptima" equilibrio de los prejuicios y de la varianza [15] en una forma viable computacionalmente. La estadística mundial de las pruebas la hipótesis nula de un piso mapa utilizando la desviación del modelo con y sin la suavización plazo. Entre las pruebas estadísticas disponibles a nivel mundial, aquí hemos utilizado la desviación estadística [9]. La distribución de la estadística se calcula utilizando la prueba de permutación, con la condición de caso-control permutada repetidamente. A pointwise prueba que se utiliza para localizar áreas con un aumento o disminución de las probabilidades de registro relativo a la ruta en su conjunto (el total de casos y controles ratio crudo para análisis). Las permutaciones también generar un registro de la distribución de probabilidades en cada lugar bajo la hipótesis nula. El local p-valor se determina mediante la comparación del registro observado contradicción con la nula distribución.

Después de todas las pruebas estadísticas se llevan a cabo, el diario de las probabilidades se convierten a razón de momios utilizando toda la población de estudio como referencia. El odds ratio de mapeadas y significativas "en caliente" y "fría" spots están delineadas por el dibujo .025 y .975 cuantiles de la pointwise valor p de la superficie. Esta pantalla gráfica es una parte natural de la estadística y ofrece una rápida interpretación de los resultados de los cálculos. Todo el procedimiento se puede ejecutar con el software existente, por ejemplo, S-Plus para el GAM y ArcView para cartografía.

Tomamos nota de que se debe tener cuidado al interpretar el mapa local de los valores de p, porque no hay ajuste para múltiples pruebas. Así, bajo la hipótesis nula de idéntica distribución espacial de los casos y controles, podemos esperar que, en general, estadísticamente significativos los valores de p local se producirá a un ritmo mayor que la tasa de error de tipo I especificado por el nivel nominal alfa. En otras palabras, el local de los valores de p no se pueden emplear para la hipótesis de la prueba, dado que no reciben un control adecuado de la tasa de error de tipo I. El local de los valores de p hacer proporcionar información sobre la medida del efecto (en este caso, el local odds ratio), pero la inferencia basada en estos locales de los valores de p por sí solo debe evitarse.

Scan estadística

Kulldorff la exploración estadística [10] se ha convertido en el más ampliamente utilizado para la prueba de la agrupación en los últimos años, tanto por su eficacia en la detección único caliente (o fría) puntos, así como la disponibilidad del software libre paquete SaTScan [16] para la aplicación de la Prueba. La idea básica de la exploración estadística es permitir circular ventanas de distintos tamaños que van a través de la región de estudio. En cada lugar, la tasa de la enfermedad dentro de la ventana que está frente a fuera de la ventana. Un caliente (frío respectivamente) terreno se caracteriza por una mayor (menor) tasa de la enfermedad localizada.

En caso de control de configuración, el análisis estadístico de la probabilidad estadística de ensayo relación en virtud de un modelo de probabilidad Bernoulli. Para una zona determinada (ventana circular) permiten Z Z p, q Z indican la probabilidad de que un punto de datos de un caso que se encuentre dentro o fuera del círculo, respectivamente. La función de verosimilitud en virtud de este modelo de Bernoulli se puede expresar en forma clara la moda en términos de p, q, y el número de casos y controles dentro y fuera de Z. Podemos entonces calcular:

Vamos Para denotar la zona de L Z que se realice con la máxima. Esto se llama la más probable es que el grupo, y podemos calcular una estadística de ensayo a través de una prueba de razón verosimilitud. Sea L 0 = sup p = q L (Z, Z p, q Z) es la probabilidad bajo la hipótesis nula (sin agrupación) y el uso

Como la estadística de interés. La razón más probable de frío in situ se calcula de manera similar.

Al igual que con los otros métodos, la inferencia se basa en la permutación de los casos y controles. En virtud de las reiteradas permutaciones, la distribución de λ bajo la hipótesis nula es generado, y se compara el valor observado de λ a esta distribución para producir un p-valor. Como se señaló anteriormente, SaTScan proporciona un riesgo relativo para la más probable de frío / calor terreno, aquí un odds-ratio en el interior del círculo dividido por una odds ratio fuera del círculo (por lo que no es exactamente comparable a la odds ratio calculada por el método GAM).

Para este estudio, hemos utilizado la versión más reciente del software a disposición del público [16] para el análisis binario (caso-control) de datos, ya sea en busca de manchas calientes o frías.

Resultados

Las tres estadísticas en cuestión se calcularon para el cáncer de mama con los datos de cada uno de los tres períodos de latencia. Los resultados, que muestran a nivel mundial los valores de p de la M-estadística y el método de GAM, y locales p-valor (el identificado "más probable cluster") para la exploración de la estadística, se resumen en la Tabla 1.

Los tres métodos, en general, no son coincidentes cuando se considera en un contexto de hipótesis. Sin embargo, los tres métodos son por lo menos sugestiva significativamente diferente de los patrones espaciales de casos y controles cuando se aplica a los 20 años de latencia del conjunto de datos. La exploración estadística de resultado, aunque no significativo en el habitual nivel de 0,05, sin embargo, es indicativa de un exceso de casos calculado en el grupo más probable, y contribuye a la evidencia una diferencia entre los casos y controles cuando se los considera en el contexto de los resultados de los otros Dos estadísticas. El suavizado mapa con el GAM método (Figura 2] muestra uno caliente y uno frío terreno, una situación en la que los tres se espera que las estadísticas de mantener cierta sensibilidad razonable. El correspondiente "más probable es que el grupo" producido por la exploración también se muestra estadística (Figura 3]. Cuando se aplica al conjunto de datos de cáncer de mama con 15 años de latencia, tanto el M-estadística y el GAM indicar diferencias en la distribución espacial de los casos y controles que son muy poco probable que se explican por el azar. La exploración estadística, sin embargo, sugiere que consideró a nivel local, sigue siendo la variación aleatoria de una explicación plausible. Examen de la suavizado mapa (Figura 4] muestra dos importantes focos de tensión y en los datos, y un frío in situ. La presencia de múltiples grupos en los datos pueden explicar en parte la divergencia de resultados. La estadística de la producción asociada de exploración también se muestra (Figura 5].

Cuando no se considera la latencia para el cáncer de mama, la M-estadística ya no es estadísticamente significativa, con lo que el GAM el único método que ofrece fuerte evidencia en contra de la oportunidad de explicar por sí sola patrones espaciales en los datos. Figuras 6 y 7 muestran el suavizado de ruta para este conjunto de datos producidos por el GAM y el grupo identificado por el análisis estadístico, respectivamente. El GAM mapa muestra una amplia, difusa zona de mayor riesgo (odds-ratio (OR) aproximadamente 2,0) a lo largo de la costa y en la periferia norte de la zona de Cape Cod. Kulldorff del riesgo basada en el método identifica a la misma zona y más o menos el mismo riesgo relativo (RR), pero el exceso de locales de los casos no es estadísticamente significativa. Ambos métodos son la detección de un solo foco, pero es alargada en lugar de la óptima (circular) para Kulldorff configuración del método. La M-estadística no aporta pruebas de las diferencias mundiales en el nivel de significación de 0,05, tal vez debido a la naturaleza difusa de la aparente Hot Spot. Así, la evidencia de la agrupación en este conjunto de datos es mixta.

Discusión

La discusión de los resultados que aquí se presenta no debe interpretarse como hallazgos epidemiológicos, sino de la producción de tres métodos estadísticos que se aplican a datos reales. Los mapas producidos son de carácter meramente ilustrativo, y no debe interpretarse epidemiológicamente (una de las razones es que no hemos controlado para covariables).

Estamos observación de que el uso común de la palabra "grupo" para describir una enfermedad Hot Spot representa sólo una especie de partida de la ordenación del territorio diferencia entre casos y controles. La exploración estadística sí solo se limita a este tipo particular de la ordenación del territorio y la mayor diferencia se hace hincapié en el único y más probable circular en caliente o en frío in situ. Hemos optado por adoptar aquí la más amplia, pero más flexible objetivo de detectar cualquier diferencia en la distribución espacial de los casos en comparación con los controles. El problema de la localización y la cuantificación de los excesos o déficit de locales es claramente importante, y tanto el análisis estadístico y el GAM abordar este problema directamente. La M-estadística no, a pesar de las extensiones de la distancia basada en métodos para el problema de la ubicación de la categoría se están desarrollando actualmente [17].

Hemos presentado solicitudes de tres bien desarrollado y fundamentado teóricamente métodos para detectar diferencias espaciales en la distribución de casos y controles en un conjunto de datos reales. Los diferentes patrones observados en este conjunto de datos, que incluye el cáncer de mama con diferente latencia consideraciones, afectará a los resultados de estos métodos. Hemos identificado al menos tres características que plausiblemente están implicados (la forma, el número y la intensidad de las áreas de inhomogeneity), pero es probable que otros aquí presentes y en otros conjuntos de datos reales. Por ejemplo, pueden tener diferentes métodos dependiendo de la sensibilidad de áreas de tamaño y / o ubicación de las diferencias espaciales. En estos casos, la sensibilidad de cada método puede variar en función de la ubicación de un lugar caliente o frío, incluso cuando el tamaño, la forma y la intensidad del frío / calor terreno son comparables (por ejemplo, diferentes "borde efectos" a través de métodos).

Cada uno de estos métodos se espera que tienen ciertas fortalezas y debilidades. La M-estadística se ha aplicado tanto en estudios de casos y controles [5], y, en la configuración de vigilancia [18], donde hay una gran cantidad de datos históricos a utilizar como base de referencia para la nula distribución de las distancias. Las simulaciones sugieren que el mismo tiene el potencial de ser sensibles a situaciones como múltiples focos de tensión, donde otras estadísticas (como la exploración estadística) puede perder el poder [3, 4], pero estos mismos estudios indican que la M-estadística normalmente underperform Otras estadísticas cuando hay un solo foco de detectar.

Siempre hay algo de historia, o de control de población suficientemente grande a partir de la cual muestra de las curvas, la M-estadística puede manejar tamaños pequeños de la muestra adecuadamente. Esto es importante en un establecimiento de la vigilancia, y es una ventaja frente a la tasa basada en estadísticas que puedan tener datos suficientes en la pequeña muestra de casos para extraer inferencias adecuadas. En la configuración de estas situaciones ambientales pueden producir en los pequeños, de tamaño barrio estudios de población.

Sin embargo, como se está aplicando actualmente la M-estadística no ajustar para covariables, pero en su lugar se utiliza en bruto, sólo de datos espaciales. Los orígenes de la M-estadística radican en la vigilancia de la salud pública donde espacial de confusión están implícitamente en cuenta en el registro histórico inmediato. Como se señaló anteriormente, la M-estadística no localizar puntos calientes, sino que detecta una diferencia entre las dos poblaciones en virtud de la comparación. Dado que estas diferencias son cuantificados interpunto a distancia a través de la distribución y no a la localización geográfica de los casos y los controles propios, los resultados no tienen una interpretación directa al igual que el "más probable cluster" de la exploración estadística de los locales o los odds-ratios de la GAM.

GAM suavización es un sólido enfoque basado en los datos que pueden ser ejecutados con el software estándar. La capacidad de la enfermedad mapa de los resultados, mientras que el ajuste de las covariables de una manera familiar para los epidemiólogos es una fuerza particular. Es semi-paramétricos, en el supuesto de un modelo lineal en las covariables con un efecto aditivo espacial. Haciendo caso omiso de las covariables y considerando los datos sobre una base puramente espacial esencialmente no existen estadísticas supuestos necesarios, aunque la elección del tamaño de la ventana puede afectar a la sensibilidad de la suavización enfoque. El GAM enfoque proporciona estadísticas mundiales para poner a prueba el mapa global de desviación de planitud, así como una prueba pointwise para localizar zonas de significativamente elevados y la disminución de riesgo de enfermedades. Suficiente para el tamaño de la muestra tasas estables también es importante, y los resultados para los pequeños tamaños de las muestras son difíciles de interpretar de manera significativa.

La exploración estadística ciertamente excel [3, 4] cuando existe un solo foco de la actualidad y que Hot Spot es aproximadamente circular en forma. La asunción de un modelo de Bernoulli de distribución dentro y fuera de una circular en la región puede ser subóptima si bien el frío / calor terreno no es circular, o si hay más de un lugar. Ha habido un trabajo adicional en la exploración estadística centra en el examen o la mejora de la robustez a la forma del punto de acceso [19 - 21].

La exploración estadística es especialmente atractivo debido a su inmediata identificación de los conglomerados más probable. Disponibilidad pública de la aplicación de software a través de la SaTScan ha aumentado su popularidad y visibilidad. Quizás lo que es más importante, el método de excepcional poder para detectar puntos calientes solo merece consideración en las situaciones en que un solo punto caliente hipótesis parece plausible, o incluso posible. Como una tasa enfoque basado en el análisis estadístico se limitan a los tamaños de muestra que proporcionan estimaciones de la tasa estable.

Datos agregados que se pueden manejar mediante un modelo de Poisson, similar en espíritu a la Bernoulli modelo utilizado para los datos de casos y controles. El software disponible actualmente puede ajustar para covariables en el caso de Poisson, y los ajustes de las variables categóricas en el modelo de Bernoulli se permiten en la más reciente liberación de los SaTScan software.

Múltiples frío / calor manchas parecen ser problemático cuando se utiliza el análisis estadístico, ya que utiliza una función de verosimilitud de un modelo basado en un único punto caliente o frío. , Que limitan la probabilidad modelo subyacente resultados claramente superiores en el poder cuando el modelo está correctamente especificado, pero la presencia de múltiples agrupaciones que implicaría el análisis estadístico ha misspecified el modelo. Por lo tanto, debe esperar que en algunas de estas situaciones la exploración estadística puede sufrir pérdida de poder. El GAM y M-estadística se espera que sea sensible a una variedad más amplia de los múltiples arreglos de concentración, pero esta flexibilidad es inherente a la naturaleza global de estas pruebas estadísticas, en contraste con la naturaleza esencialmente local de la exploración estadística.

Los resultados publicados antes citado indican que el índice de referencia para la simulación de los datos considerados, el análisis estadístico es bastante robusto para múltiples algunos arreglos de concentración. Tomamos nota de que estas comparaciones son dependientes de los datos utilizados para simular los efectos de la facultad de estudio. Múltiples frío / calor manchas pueden ser comunes en los conjuntos de datos reales, y de un más profundo esfuerzo en la generación de simulaciones realistas de estos datos es una dirección para la investigación futura.

Del mismo modo, no hay razón para asumir que las áreas de mayor riesgo se cualquier forma particular, sobre todo porque ni la población ni las posibles exposiciones son igualmente limitados. Varios trabajos recientes han seguido investigación de la exploración estadística y su cumplimiento cuando se trata de no circular focos de tensión (así como las extensiones de la metodología para mejorar la robustez en estas situaciones), ver por ejemplo [17]. Al igual que con la cuestión de los múltiples focos de tensión, más trabajo puede ser necesario para simular esos datos de manera realista. Una vez más, hacer hincapié en la importancia de los estudios que consideran los datos reales, además de los datos sintéticas, y las posibilidades de aprender de ambos tipos de datos espaciales como los métodos a seguir desarrollando y mejorando.

Conclusión

Con la variedad de enfoques para examinar el problema de los patrones espaciales de la enfermedad, no es de extrañar que algunos métodos son más eficaces que otros para detectar ciertos patrones. Una mejor comprensión de los puntos fuertes y débiles de los diferentes métodos es fundamental para la elección de la metodología apropiada. Estudios de la distribución espacial de la enfermedad también se beneficiarán de la información disponible de una variedad de métodos estadísticos, y un examen cuidadoso de la naturaleza complementaria de esta información debería ayudar en la interpretación de los resultados de los estudios con un componente espacial.

Para este punto, gran parte del trabajo para lograr este entendimiento ha llegado el análisis sintético de los datos, en donde el modelo se pueden controlar diversas funciones superpuestas y con el fin de realizar un cuidadoso estudio de estas fortalezas y debilidades. Sin embargo, algunas características de los conjuntos de datos real puede ser difícil de simular con datos sintéticos, o puede no ser evidente en el análisis y la anticipación de un mayor estudio, y los resultados a partir de datos simulados son, al menos parcialmente, depende de la particular simulaciones.

El análisis comparativo de los diferentes métodos de conjuntos de datos reales a punto de nuevas direcciones de investigación de las propiedades de cada una de las estadísticas utilizadas en el presente documento. Sugerimos un nuevo programa de investigación diseñado en torno alternativamente examinar reales y simuladas, los conjuntos de datos para este tipo de diferencias, a fin de desarrollar la aplicación práctica de los métodos estadísticos a los datos epidemiológicos con un componente espacial.

Lista de abreviaturas

AIC: criterio de información Akaike

GAM: modelo aditivo generalizado

SIG: Sistema de Información Geográfica

OR: Odds Ratio

RR: riesgo relativo

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

AO y VV se encarga de la programación de estadística. Todos los autores contribuyeron a la redacción y edición.

Agradecimientos

AO de investigación parcialmente apoyado por el NIH AI28076-RO1 subvención y subvención NLM RO1-LM007677. TW, VV, DO, JW, AA y cuentan con el apoyo de Programa de Investigación Básica Superfondo 5P42ES 07381.