Environmental Health, 2005; 4: 4-4 (más artículos en esta revista)

Global, local y centrado geográfica de la agrupación de casos y controles con datos de las historias residenciales

BioMed Central
Geoffrey M Jacquez (jacquez@biomedware.com) [1], de Andy Kaufmann (afsb@biomedware.com) [1], Jaymie Meliker (jmeliker@umich.edu) [2], Pierre Goovaerts () [Goovaerts@biomedware.com 1], Gillian AvRuskin (avruskin@biomedware.com) [1], Jerome Nriagu (jnriagu@umich.edu) [2]
[1] BioMedware, Inc., 516 North State Street, Ann Arbor, MI, 48104-1236, USA
[2] Department of Environmental Health Sciences, The University of Michigan School of Public Health, 109 S. Observatory St. Ann Arbor, MI, 48109-2029, USA

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Este artículo presenta un nuevo enfoque para la evaluación de la agrupación en caso de que los datos de control de las cuentas residenciales historias. Aunque muchas estadísticas que se han propuesto para evaluar el nivel local, clustering y mundial se centró en los resultados de salud, son pocos, si los hay, existen para evaluar las agrupaciones cuando los individuos son móviles.

Métodos

Local, global y centrado pruebas de la residencial historias se desarrollan sobre la base de series de matrices de las relaciones de vecinos más cercanos que reflejan los cambios en la topología de casos y controles. La exposición se definen las huellas que dan cuenta de la latencia entre la exposición y la enfermedad manifestación, que el uso y la exposición ventanas cuya duración puede variar. Varios de los métodos de derivados se aplican para evaluar la agrupación residencial de la historia en un estudio de casos y controles de cáncer de vejiga en el sureste de Michigan. Estos aún se están recopilando datos y el análisis se realizó sólo con fines de demostración.

Resultados

Estadísticamente significativo de la agrupación residencial historias de los casos se encontró, pero es probable debido a la demora en la presentación de informes de los casos por uno de los hospitales participantes en el estudio.

Conclusión

Datos residencial con historias son preferibles cuando la exposición y la enfermedad causante latencias se producen en un período de tiempo lo suficientemente largo que la movilidad humana. Para analizar estos datos, los métodos que se necesitan tomar en cuenta la historia residencial.

Antecedentes

EE.UU. encuestas de población estiman que los adultos pasan el 87% de su tiempo en interiores, el 69% en su lugar de residencia, y el 6% en un vehículo [1 - 3]. Hasta la fecha, la mayoría de las investigaciones publicadas enfermedad grupo geografías uso estático en el que los individuos se supone que ser sesiles. Los ejemplos incluyen el uso de geocoded lugar de residencia en el momento del diagnóstico, la muerte, y en el momento del nacimiento (por ejemplo [4]], así como la dirección de la admisión de hospital (por ejemplo [5]] para registrar ubicaciones de los eventos de salud, Aunque la mayoría de los investigadores reconocen que la movilidad residencial deben contabilizarse, en especial para enfermedades de largo con latencias como el cáncer. En una reciente revisión de los métodos estándar para la evaluación de la exposición y los riesgos, las enfermedades y la agrupación de técnicas de cartografía, métodos Bayesianos, Markov Chain Monte Carlo (MCMC) y de los métodos geoestadísticos, Mather et al. [6] identificados como importantes debilidades (1) la falta de referencias temporales de datos geoespaciales y (2) la incapacidad de los métodos para contabilizar las historias residenciales. En una reciente reunión de expertos de esta nación reconoció la necesidad de dar cuenta de la latencia y de la movilidad humana como especialmente acuciante en los estudios de cáncer [7]. Boscoe et al. [8] residencial identificado información de la historia como una necesidad primaria para el cáncer de análisis de datos.

La representación de los individuos como sesiles (inmóvil), en lugar de vagile (móvil), en parte se debe a la estática visión del mundo de software GIS, que no se adapta bien al cambio que representa temporal [9, 10]. Recientemente, los avances tecnológicos han dado lugar a los Sistemas de Inteligencia del Espacio Tiempo (por ejemplo, [11 - 13]] de que la aplicación de varias construcciones de Ciencias de Información Geográfica para la representación de la movilidad humana (ver [14] para una revisión). Los métodos presentados en este documento se basan en este órgano antes de los trabajos para producir el grupo de casos y controles para las estadísticas residencial historias.

Comenzaremos con una breve reseña histórica de los ensayos para la enfermedad de la agrupación, seguida de un resumen de los enfoques para el modelado de la movilidad humana. A continuación, desarrollar un conjunto de pruebas para la evaluación de nuevos locales, mundiales y clustering centradas en el uso residencial de historias de casos y controles de datos. Finalmente, se ilustran varias de las nuevas técnicas de cuantificación de local, global y centrado de la agrupación residencial en la historia un estudio caso-control de cáncer de la vejiga en Michigan.

Antecedentes sobre el grupo ensayos

Cluster pruebas de trabajo dentro de un marco de hipótesis de que los ingresos procedentes por el cálculo de una estadística (por ejemplo, la agrupación métricas) para cuantificar un aspecto relevante del patrón espacial en un resultado de salud (por ejemplo, caso / control de la situación, la incidencia de la enfermedad, o tasa de mortalidad). El valor numérico de esta estadística se compara entonces con la distribución de esa estadística el valor nulo en virtud de un modelo espacial, que ofrece una evaluación probabilística de la forma poco probable observa una agrupación estadística está bajo la hipótesis nula [15]. Waller y Jacquez [16] formalizó este enfoque mediante la identificación de cinco componentes de un grupo espacial de prueba. La prueba estadística cuantifica un importante aspecto de patrón espacial (por ejemplo, Moran's I). La hipótesis alternativa describe el patrón espacial que la prueba se ha diseñado para detectar. Esto puede ser una alternativa, como una circular en grupo para escanear la estadística, o puede ser el ómnibus "no la hipótesis nula". La hipótesis nula describe el patrón espacial espera cuando la hipótesis alternativa es falsa (por ejemplo, el riesgo de cáncer de uniforme). El modelo espacial null es un mecanismo de referencia para la generación de la distribución. Esto puede basarse en la teoría de la distribución, o bien puede utilizar la aleatorización (por ejemplo, Monte Carlo) técnicas. La mayoría de las enfermedades grupo heterogéneo pruebas de emplear modelos de Poisson y Bernoulli para especificar hipótesis nulas [17]. La distribución de referencia es el de distribución de la estadística de ensayo cuando la hipótesis nula es verdad. Comparación de la prueba estadística de la distribución de referencia permite calcular la probabilidad de observar que el valor de la prueba estadística bajo la hipótesis nula de ninguna agrupación. Este componente de cinco mecanismo más utilizado de base a los métodos de la agrupación.

Hay docenas de estadísticas de la categoría (ver [17 - 19] para comentarios), que pueden ser categorizados como de conveniencia global, local, y se centró pruebas. Mundial de la categoría estadísticas son sensibles a la agrupación espacial, o desviaciones de la hipótesis nula, que se producen en cualquier parte del área de estudio. Muchos principios de las pruebas de patrón espacial, tales como la I Moran [20] son globales pruebas. Si bien las estadísticas mundiales puede determinar si la estructura espacial (por ejemplo, la agrupación, autocorrelación, la uniformidad) existe, que no identificar dónde están los grupos, ni cuantificar en qué dependencia espacial varía de un lugar a otro.

Las estadísticas como local Indicadores de Autocorrelación Espacial (LISA) [21] cuantificar autocorrelación espacial y la agrupación dentro de las pequeñas zonas que en conjunto el estudio de la geografía. Local cuantificar las estadísticas de la dependencia del espacio (por ejemplo, no significativamente diferente de la nula expectativa, el grupo de altos valores, el grupo de valores bajos, altos o bajos y espacial de las demás) en una localidad dada. Muchos locales han estadísticas globales que a menudo se calculan en función de las estadísticas locales. Por ejemplo, Moran's I es la suma de las estadísticas a escala local Moran.

Cuantificar las estadísticas de la agrupación se centró en torno a una ubicación específica o enfoque. Estas pruebas son especialmente útiles para el estudio de posibles grupos de la enfermedad cerca de las fuentes potenciales de los contaminantes ambientales. Por ejemplo, Lawson y Waller [22, 23] propuso puntuación de las pruebas que cada una de las áreas de la diferencia entre la enfermedad observada y la esperada cuenta, ponderada por la exposición a la concentración (ver también [24] para una revisión de estos criterios). Un uso común de exposición es la función inversa a la distancia de enfoque (1 / d). La hipótesis nula no es la agrupación en relación con el centro, con el número previsto de casos calculado como la expectativa de Poisson utilizando a la población en situación de riesgo en cada zona y la suposición de que el riesgo es uniforme sobre el área de estudio.

Cientos de investigaciones de la categoría se registran en la literatura, y varias de ellas han dado lugar a actividades de control del cáncer, como los estudios epidemiológicos para comprender las posibles causas. Entre los ejemplos notables de los estudios incluyen el grupo de cáncer del cerebro [25], cáncer de hígado [26], el cáncer de mama [27, 28], el cáncer de próstata [29], el cáncer colorrectal [30], el cáncer y las diferencias [31], por citar sólo unos pocos .

En los estudios de pulmón, de mama y cáncer colorrectal en Cape Cod, la evidencia más fuerte para la agrupación espacial se encontró una vez la latencia se tuvo en cuenta [32]. En una población basada en estudio de casos y controles Vieira et al. [33] incorporado ubicación residencial para evaluar los riesgos de cáncer de pulmón no se explica por la edad y el tabaquismo. Han et al. [34] exploró la agrupación geográfica del cáncer de mama basado en el lugar de residencia temprano en la vida y encontró el espacio-tiempo en la agrupación de casos y controles de datos. También se exploró la agrupación de los casos utilizando el lugar de residencia en el momento crítico de puntos incluidos en el tema del nacimiento, la menarquia, y en el nacimiento de la primera mujer. Boscoe et al. [8] reconoce la representación de la movilidad residencial como principal necesidad de que los datos utilizados en los estudios de cáncer. Pero hasta la fecha y para nuestro conocimiento, la movilidad residencial todavía no se ha contabilizan directamente en el grupo de estudios.

¿Cómo podría una cuenta de la movilidad residencial en el grupo estudios? Hagerstrand [35] conceptualiza el espacio tiempo como camino de una persona física continuo movimiento a través del espacio y el tiempo, y esta representada visualmente como un gráfico de 3 dimensiones. Hornsby y Egenhofer [36] reconoció que el espacio-tiempo caminos mediar a nivel individual la exposición a los agentes patógenos y las toxinas ambientales, y la aplicación práctica que requeriría un mecanismo de localización que representan a la incertidumbre. Un espacio de tiempo prisma se refiere a la posible ubicación de una persona podría pasar por viable en un determinado intervalo de tiempo, dado el conocimiento de su real ubicación en el intervalo de tiempo que bracketing. El potencial vía área [37] muestra la ubicación de la persona puede ocupar con estas limitaciones, y representa los lugares donde la exposición podría ocurrir acontecimientos. Estas construcciones permitido nuevos enfoques de investigación en diversos campos, como estudiante de la vida [38], los deportes análisis [39], los sistemas sociales [40], transporte [37], y el análisis de las disparidades de género en la accesibilidad en los hogares [41]. Si bien estos enfoques demostrado proporcionar un mecanismo vital para el modelado geoespaciales y relacionados con construcciones, y hasta la fecha en nuestro conocimiento no existen métodos de evaluación estadística de las agrupaciones de este tipo que no sea el salvavidas de papel por Sinha y Mark [42], que utilizan Minkowski - Tipo de métrica para calcular un indicador a la disimilitud geoespaciales vitales y, a continuación, el grupo esta disimilitud métricas.

En este artículo se propone una nueva técnica para la realización de la evaluación estadística de la agrupación residencial de historias de caso-control de los datos. En primer lugar desarrollar el método, y luego aplicarlo a un estudio de casos y controles de cáncer de vejiga en el sureste de Michigan.

Configuración del Problema

Un enfoque ingenuo al considerar residencial historias es tomar un test de ordenación del territorio existentes agrupación, y luego aplicarlo en varias ocasiones para diferentes valores de tiempo. Por ejemplo, cuando se considera la distribución geográfica del cáncer de vejiga, se podría utilizar el lugar de residencia de las personas en un estudio de casos y controles de T años atrás, y luego permitir a T varían en una gama de varias décadas. Ubicaciones de lugar de residencia va a cambiar, según el número de casos y controles existentes en el área de estudio. ¿Cómo podría variar en función de los resultados cuando se observa el sistema (por ejemplo, sobre selección de T)? Para responder a esta pregunta hemos analizado los datos de una población basada en el cáncer de la vejiga estudio de casos y controles que actualmente tienen lugar en el sureste de Michigan. Los casos son contratados en el Registro de Cáncer del Estado de Michigan y se diagnosticó en los años 2000-2004.

Los controles son emparejados con los casos por edad (± 5 años), la raza y el género, y de contratación mediante un procedimiento de marcado dígitos al azar de una lista ponderada de la edad. Este conjunto de datos se describe con más detalle más adelante en este documento, y está formado por 63 casos y 182 controles. Usando Cuzick y Edwards T k estadística con k = 5 vecinos más cercanos y por la tarde se analizan estos datos en cada momento en que la topología del lugar de residencia de los casos y los controles por haber cambiado un participante moverse, entrar o salir de la zona de estudio. En el gráfico de T k a través del tiempo (Figura 1] es ascendente, lo que refleja el mayor número de casos y controles que residen en el área de estudio, en períodos de tiempo más tarde. Hemos encontrado cinco períodos en que se agrupan los casos fueron significativamente con relación a los controles: 1 de enero 1929 a enero 1 1935, 1 de enero 1941 hasta noviembre 26 1942, 1 de enero 1960 a enero 1 1961, 22 de agosto 1967 a enero 1 1975 y el 1 de enero de 1995 hasta 1 de Enero de 1997. Evidentemente, los resultados del análisis de cluster que dependen de los lugares puede ser muy sensible a la elección de la hora en la que el análisis se lleva a cabo. Lo que se necesitan son los nuevos métodos que dan cuenta de la dinámica de la topología de casos y controles que surgen como consecuencia de la movilidad residencial, y que se adaptan a múltiples análisis temporal. El desarrollo de estas técnicas es el objeto de este trabajo.

Métodos

Empecemos por definir un álgebra de historias residencial, y una matriz que describe la forma de representación espacial de vecinos más cercanos relaciones de cambio a través del tiempo. Ahora vamos a desarrollar un módulo de control local de casos de prueba, y luego extenderlo a crear mundial, local y de las pruebas se centraron en puntos específicos de tiempo, y luego de toda la historia residencial. Después de completar el desarrollo de las estadísticas de la categoría residencial historias, que describen la próxima exposición huellas que cuenta para los períodos de latencia y de la exposición ventanas. A continuación, la agrupación desarrollar métodos para la exposición huellas. Después de que se describe el conjunto de datos de cáncer de la vejiga que se analizó con los nuevos métodos. En la sección Resultados se describe la aplicación de varias de las nuevas pruebas para evaluar el grupo posible de agrupaciones residenciales de historias de casos de cáncer de vejiga en Michigan.

Notación

Definir el coordinar u i, t = (x i, t, y i, t) para indicar la ubicación geográfica del lugar de residencia del caso i ª o control en el momento t. Residencial historias de los casos individuales y los controles pueden ser representados como el conjunto de ubicaciones espacio-tiempo:

L i = (u i0 i0, i1 i1 u ,..., u iT) (Ecuación 1)

Esto define individuo i que viven en su lugar de residencia u encontrados en la i0 i0 al inicio del estudio (tiempo 0), y de trasladarse a la ubicación u i1 i1 en el momento t = 1. Al final del estudio individual i pueden ser encontrados en la u iT. T se define como el número de veces en la única observación de todas las personas en el estudio. Esto tiene cierta importancia en la comprensión de cómo se registra T es esencial para poder entender el conjunto residencial de las pruebas de las historias. En otras palabras, T es el número total de los diferentes tiempos de observación en todos los individuos, por lo que uno podría esperar varios lugares geográficos en un residencial de la historia a ser el mismo. Por ejemplo, supongamos que tenemos 2 personas (i y j) y registrar sus historias residenciales (Figura 2]. Registramos sus lugares de residencia en t = 0, inicio del estudio. En algún momento t = 1 "i" i "se traslada a otra casa, y se mueve de nuevo en el momento t = 2. "J" j "no se mueven en absoluto y, por lo tanto, tiene la ubicación de la misma inicial de lugar de residencia registrada a veces t = 0, 1 y 2. En este ejemplo T = 2. Notificación de la duración entre t = 0 en t = 1 no podrán igualdad de la duración de t = 1 en t = 2. Esto será importante más adelante, cuando desarrollamos duración ponderada de las versiones de las estadísticas.

Si bien las observaciones de residencial historias ocurren en un número finito de tiempo o de puntos de observación de los tiempos, estas observaciones no tienen que ocurrir al mismo tiempo para todos los individuos bajo control. Cuando residencial historias son auto-reporte, la observación de estos tiempos se definen por la "mover" las fechas comunicadas por el demandado. Tenemos este modelo como una instantánea desplazamiento de las coordenadas espaciales de la entidad i en el momento t (u) para los que en el momento t +1 (u, 1). Hemos definido esta instantánea como el desplazamiento se produzca en el momento t +1. Nosotros consideramos esto como un modelo de observación en la que la entidad que se supone que residen en su ubicación conocida hasta ese momento en que se observa en otros lugares (por ejemplo, Figura 2].

Residencial historias individuales que se pueden asociar con el tiempo que dependen de los atributos tales como peso, talla, estado enfermedad, el tabaquismo, la condición de caso control, y así sucesivamente. Estos atributos pueden estar asociadas con el riesgo y con ello influir en el cálculo del período de latencia y la exposición ventanas definidas más tarde. Más tarde, también utilizará momento del diagnóstico para definir las ventanas de la exposición durante la carcinogénesis, que se pensaba que se había producido. Por el momento vamos a definir un identificador de caso-control, c i que se

Definir n a ser el número de casos y b n es el número de controles. El número total de individuos en el estudio es entonces N n = a + b n.

Relaciones de vecinos más cercanos

Sea k indicar el número de vecinos más cercanos a considerar al evaluar las relaciones de vecinos más cercanos (por ejemplo [63]], y definir un indicador de vecinos más cercanos a ser:

A continuación definir una matriz binaria de k ª vecinos más cercanos relaciones en un momento dado t como:

Por convenio definimos η i, i, k, t = 0 (en la diagonal de elementos), ya que no queremos contar con personas que, como vecinos más cercanos de sí mismos. Esta matriz enumera los k vecinos más cercanos (indicado por un 1) para cada uno de los N individuos. Las entradas de esta matriz son 1 (que indica que es una j k vecinos más cercanos de i en el momento t) o 0 (que indica no es una j k vecinos más cercanos de i en el momento t). Puede ser asimétrica sobre la diagonal desde 0 vecinos más cercanos relaciones no son necesariamente reflexivo (por ejemplo Imagine 3 personas, llamamos A, B y C, de pie en una línea. B está en el medio, pero se acerca más a una persona que a la persona C . El vecino más cercano a C es B, pero el vecino más cercano a la B es A. El más cercano vecino son relaciones no reflexiva). Dado que dos personas no pueden ocupar el mismo lugar, suponemos, en cualquier momento t que toda persona tiene k singular k-vecinos más cercanos. (Si bien es cierto que dos personas no pueden ocupar el mismo lugar, como el espacio ocupado por un organismo de las personas, la historia residencial de la información puede asignar a dos personas la misma coordinar cuando viven en la misma casa. ¿Cómo podría atadas las relaciones derivadas de vecinos más cercanos De esta situación se resuelva? Dos enfoques que se han propuesto. El primero crea fraccional de vecinos más cercanos pesos [43], la segunda se propaga la incertidumbre en las relaciones de vecinos más cercanos, mediante la evaluación de las posibles permutaciones de los vecinos más cercanos de los locales vinculados a las relaciones de vecinos más cercanos [44]] . Las sumas así fila son iguales a k (η i, •, k, t = k), aunque la columna de las cantidades varían dependiendo de la distribución espacial de caso control de los lugares en el momento t. La suma de todos los elementos de la matriz es Nk. Existe una 1 × T +1 vector de veces que indica los instantes en el momento en que ya sea (1) el sistema es observado y la localización de las entidades se registran, o (2) en observación por lo menos una entidad de los cambios ubicación geográfica. Podemos entonces considerar la secuencia de los vecinos más cercanos matrices T dada por

Esto define la secuencia de k vecinos más cercanos matrices para cada temporal única observación registrada en el conjunto de datos, y por lo tanto cuantifica cómo cambiar las relaciones de vecinos más cercanos en el tiempo. Esto demuestra de una forma en la que los pesos espacial (aquí la relación de vecinos más cercanos) puede especificarse de la historia residencial. Ahora vamos a utilizar estos vecinos más cercanos para construir relaciones de caso control espacial y espacio-tiempo para los ensayos de la categoría residencial historias.

Espacial y temporalmente, el grupo local de estadística espacial

Un espacio y en el tiempo local de caso-control estadístico de la categoría es el siguiente:

Este es el recuento, en el momento t, el número de vecinos más cercanos k i caso de que los casos son, y no los controles (i suponiendo de hecho es un caso, si no es Q i, k, t = 0). Desde un determinado individuo i puede tener singular k vecinos más cercanos, esta estadística está en el rango 0 .. k. Siempre es 0 cuando i es un control. Cuando se trata de un caso, los bajos valores indican el grupo de evitación (por ejemplo, un caso rodeado de los controles), y los grandes valores (cerca k) indican un conjunto de los casos. Cuando Q i, k, t = k, en el momento t de todos los k vecinos más cercanos de los casos son i caso.

Las probabilidades, la hipótesis nula y Aleatorización

La significación estadística de Q i, k, t puede ser evaluada usando la aleatorización condicional que tiene el caso de control de identificador para cada i fijo y, a continuación, asigna el vector de los restantes N -1 caso-control a través de identificadores de los restantes individuos con una determinada función de probabilidad. Si asumimos equiprobability tal que todas las personas tengan igualdad de riesgo de enfermedades que obtenemos:

Dado el identificador de casos y controles para cada i, esta es la probabilidad de cada uno de los j ser un caso que se Goovaert y Jacquez's [45] neutral modelo Tipo IV (H IV), de la independencia espacial de riesgo para una densidad de población espacialmente heterogéneas. Como se expresa en la ecuación 7, el número exacto de casos (n) y los controles (n b) no puede ser reproducido en virtud de muestreo probabilístico.

Su modelo de tipo neutral V mantiene un determinado nivel de autocorrelación espacial y pueden ser simulados utilizando rechazo a la toma de muestras, el indicador de simulación secuencial, condicional o índice de casos y controles para lograr el canje observaron nivel de autocorrelación espacial [46]. Las probabilidades de neutral modelo tipo V son difíciles de escribir en una forma análoga a la cerrada Ecuación 7.

Las probabilidades de neutral modelo tipo H VI describir la situación en la que no todos los individuos tienen la misma probabilidad de ser etiquetados de un caso. Esto ocurre, por ejemplo, cuando se trata de la detección de grupos que surgen de riesgo adicional, más allá de la de un fondo de riesgo que es en sí espacialmente heterogéneas. Esto puede realizarse en una variedad de maneras para conocer el modelo individual y factores de riesgo ambientales. Las pruebas de la importancia de Q i, k, t son entonces la identificación de conglomerados de casos por encima y más allá de lo esperado bajo el modelo neutral.

Uno calcula el valor de la estadística de ensayo para cada realización de la distribución espacial de los casos generados en el marco del modelo elegido neutral. Estos valores se mantienen en virtud de la aleatorización y utilizados para la construcción de la distribución de referencia de la estadística en relación con los correspondientes hipótesis nula. El valor observado de la estadística de ensayo para los datos no aleatorios (marcadas ) Es comparado a la distribución de referencia para calcular el valor de p:

Aquí a es el número de randomizations condicional cuya agrupación estadística fue superior o igual a la observada para los datos no aleatorios, y b es el número total de la asignación al azar corre realizado.

Un conveniente algoritmo para la aleatorización condicional bajo neutral modelo IV es de celebrar el identificador de casos y controles para el i ª persona constante, y entonces a sacar de la 1 × N-1 vector de los restantes casos y controles nuevos identificadores de caso-control para los identificadores K vecinos más cercanos en torno a i. Este muestreo se realiza sin reposición. Alternativamente, se podría poblar el k-vecinos más cercanos sobre i usando las probabilidades de Ecuación 7. Esta ecuación es la correcta para el primer identificador de modo señalado, pero que necesita ser ajustado para el segundo, tercero y así sucesivamente. Por el m º Identificador de la probabilidad para la correcta toma de muestras sin reemplazo es:

Si uno asume el muestreo con reemplazo, de manera que los casos y controles se supone extraer de la mayor población, se puede utilizar la ecuación 7 sin modificaciones.

Este método no funciona con los modelos de tipo neutral V y VI, desde la estructura espacial en el fondo de riesgo se pierde. En lugar se calcula el valor de la estadística de ensayo para cada uno de los lugares N, para la realización de cada espacio neutral modelo (de tipo V o VI), que produce un punto de patrón espacial de casos y controles con el nivel deseado de autocorrelación espacial. La probabilidad asignada a los grupos de estas pruebas (como dado por la ecuación 8) luego cuentas para el fondo especificado variación en el riesgo de enfermedad.

Nota para cada uno de los enfoques mencionados, que una referencia de distribución, estadística de ensayo, y el correspondiente valor de p, puede ser calculado para cada uno de los lugares n de un caso.

Simes la corrección en función de la dependencia local

La P-valores para las personas que rodean a la k i º caso no son independientes unos de otros, ya que incluyen entre sí como sus propios k vecinos más cercanos. Por lo tanto, emplear una corrección modificados Simes [47] para tener en cuenta la falta de independencia en el espacio local Q estadísticas. Simes El ajuste se calcula como p i '= (k + 1 - a) p i. Aquí k es el número de los valores de p en estudio (el número de vecinos), y una es el índice (empezando por 1), indicando el rango ordenados en el vector de valores p i individual y para sus vecinos. Empleamos esta corrección se informa más adelante, cuando los valores de p para los locales de Q-estadísticas.

Global Test de Detección de conglomerados espaciales en el tiempo t

Una estadística de la agrupación espacial en el momento t puede ser construido como:

Este es el momento-se hace referencia de forma Cuzick y Edward's [43] de pruebas globales de la agrupación de casos y controles utilizados en la Figura 1. Es la cuenta, a lo largo de todos los casos, el número de casos que son k-vecinos más cercanos a los casos en el momento t. Se puede dividir esta estadística, y otros a seguir, por n un para facilitar su interpretación. La estadística de ensayo sería entonces un número medio de casos por vecino, en vez de la correspondiente al número total de casos, y facilitar la comparación entre los diferentes estudios con diferentes números de los casos. En este trabajo se utilizará el caso de contar con la versión.

La probabilidad de Q k, t IV, en virtud de H es evaluado por la asignación de casos y controles tarjetas de identificación con la misma probabilidad en los lugares N en el momento t. Q k, t continuación se calcula y este proceso se repite b veces a la construcción de la distribución de referencia y Probabilidad (Ecuación 8). Observe que ya que se trata de un ensayo mundial aleatorización condicional que tiene el caso-control para la identificación individual i constante no es necesario.

Pruebas globales de la ordenación del territorio de la agrupación residencial historias

Un prueba global de ordenación del territorio entre las agrupaciones residenciales N historia representada en la ecuación 1 es

Esta es la suma, a lo largo de todos los puntos temporales T +1, de la estadística Q k, t. Es una medida de la persistencia de las agrupaciones y mundial es grande cuando la agrupación de casos persiste a través del tiempo. Su distribución de referencia, se pueden construir en virtud de un procedimiento de aleatorización, en el caso de que el control de las identificaciones se asignan con igual probabilidad más de la historia residencial que comprende el conjunto

L (i, i = 1 .. N) (Ecuación 12)

Esta aleatorización procedimiento está condicionado a que el número total de casos y controles en el conjunto de datos, de modo que cada conjunto de datos se ha construido en virtud de la asignación al azar el mismo número de casos y controles como los datos originales.

Locales de ensayo para la agrupación espacial residencial de historias a través del tiempo

Para determinar si los casos tienden a agruparse a través del tiempo en torno a un caso específico es posible construir una estadística de ensayo:

Para el i ª residencial historia, esta es la suma, a lo largo de todos los puntos temporales T +1, de la agrupación local de estadística espacial Q i, k, t. Es el número de casos que son k-vecinos más cercanos de la historia i ª residencial (un caso), sumada sobre todos los puntos temporales T +1. Será grande cuando los casos tienden a agruparse en torno a la i ahora mismo caso a través del tiempo. Bajo neutral modelo tipo IV, la importancia de Q i, k, t se evalúa en virtud de una aleatorización condicional que tiene el caso para la id i constante, y, a continuación, asigna el resto de casos y controles tarjetas de identificación al azar más de la N -1 restantes residencial historias. Esta estadística es útil para determinar si se trata de agrupaciones locales residenciales de historias acerca de un caso específico. La estadística se puede calcular para todos los casos en el conjunto de datos para identificar a los casos cuyas historias residenciales forma espacial agrupaciones locales. Sin embargo, cuando el cálculo de importancia se debe corregir para las múltiples pruebas inherentes cuando muchos lugares espaciales se evalúan.

Test de Orientación para la Detección de conglomerados espaciales en el tiempo t

Supongamos que uno sospecha que puedan ser los casos de agrupaciones acerca de un enfoque específico definido por la línea vital (por ejemplo, registro de los domicilios sociales):

L F = F (u, 0, u F, 1, .., u M, T) (Ecuación 14)

Este registros de la ubicación de la concentración que se mueve a través del espacio-tiempo, e incluye situaciones en las que el foco no se mueve como un ejemplo degenerar. Una prueba de la agrupación espacial de casos acerca de la atención en un momento dado t es entonces:

Aquí η F, j, k, t es el índice que indica vecinos más cercanos en el tiempo t j si la persona es un ª ª k vecinos más cercanos de la ubicación geográfica de la orientación definida por F u, t. La estadística Q M, k, t es el de contar el número de k-vecinos más cercanos acerca de la atención en el momento t que son casos. Bajo hipótesis nula tipo IV aleatorización en el momento t puede lograrse mediante la asignación de los identificadores de caso control con igual probabilidad más de la N-individuos. Dado que sólo el k-vecinos más cercanos se considera que sólo es necesario asignar sus índices. Esto puede realizarse por muestreo sin reposición de la 1 × N vector de la identificación de casos y controles, o por el dibujo k caso necesario control de los identificadores con probabilidades definido por la ecuación 9 (para el muestreo sin reposición) o Ecuación 7 (para la toma de muestras con reemplazamiento ).

Test de Orientación para la Detección de conglomerados espaciales de Residencial Historias sobre un móvil Focus

Una prueba de centrado de la agrupación residencial historias a través del tiempo es la siguiente:

Este es el contar, a lo largo de la T veces, el número de casos que son k vecinos más cercanos de la atención en cada punto del tiempo. Esta estadística es grande cuando residencial historias que están cerca son el foco casos. Su máximo valor es

Max (Q M, k) = kT kT. (Ecuación 17)

Una desventaja de utilizar el vecino más cercano de las relaciones centrado pruebas es que el conjunto de los vecinos más cercanos al foco se da el mismo peso en Ecuaciones 15 y 16, independientemente de su actual dirección y la distancia geográfica con respecto a la concentración. Pero la difusión y la activa mecanismos de transporte que podrían llevar las emisiones de la atención suele traducirse en mayores exposiciones cerca de la concentración, y que por lo tanto, puede tener sentido usar una distancia máxima dentro de los cuales i k vecinos más cercanos se encuentran. En estos casos, el conjunto de vecinos más cercanos a la atención variará (de ahí el subíndice i denota la i ª concentrarse) en función del número de casos y controles encuentran dentro de la distancia especificada del foco.

Potencia de las pruebas y Especificación de Orientación de la exposición

Aviso de que el poder de los ensayos a que por Ecuaciones 15 y 16 disminuye a medida k enfoques desde Q N M, k, t = n un entero cuando k = N, y su probabilidad es entonces:

P (Q M, k, t | H 0, k = N) = 1,0. (Ecuación 18)

Cuando se desea buscar para la agrupación en los casos en que los enfoques k N poder puede ser retenido por la construcción de un modelo de peso a la función de la hipótesis de exposición. Para focos localizados geográficamente esto puede estar basada en la proximidad al foco. Una opción es

Aquí r F, j, t es el rango que indica la proximidad de la ubicación de la j ª individual en el tiempo t (dado por u j, t) a la ubicación de la atención en el momento t (F u, t). Por ejemplo, la primera de vecinos más cercanos al centro de interés ha rango 1, el segundo rango 2, y así sucesivamente.

En muchas situaciones, tales como la contaminación atmosférica o la contaminación de las aguas subterráneas, la magnitud de la exposición está en función no sólo de la proximidad con el centro, sino también de su orientación, ya que la mayoría de los procesos de dispersión (es decir, vientos, la infiltración a través de medios porosos) son anisotrópica o dirección Dependen de los productos básicos. Dependiendo de la cantidad de información disponible, la exposición de modelos de creciente complejidad se puede construir.

Una forma fácil de dar cuenta de anisotropía es reemplazar el rango de valor F r, j, t por una función de la separación de vectores jF h, t = | u j, t - F u, t | incorporarse a la ubicación de la persona jth jth En el momento t para la ubicación de la atención en el momento t. Covarianza funciones naturales parecen ser opciones para el peso funciones F w, j, t, ya que incorporan el patrón espacial de la dependencia de la exposición de datos. Por ejemplo, se podría utilizar el exponencial o gaussiana funciones de covarianza se define como:

Donde a (θ) es la práctica gama de autocorrelación de los modelos de covarianza, que es la distancia h en la que la función de covarianza es igual a 0,05. Esta gama está en función del azimut de la separación de vectores jF h, t. Por ejemplo, la gama de la exposición a una suspensión en el aire de contaminantes se espera que sea mayor en la dirección de los vientos dominantes.

Más compleja peso funciones se podrían crear si un proceso basado en el modelo de dispersión está disponible. Para el ejemplo de la contaminación atmosférica, una dispersión atmosférica y la deposición modelo podría ser desarrollado para predecir el destino de las emisiones de polvo y plumas de las instalaciones orientadas [48]. Sin embargo, estos modelos requieren muchos más parámetros e hipótesis sobre, por ejemplo, la tasa de emisión, las condiciones meteorológicas, los efectos terrenos complejos, el tamaño de las partículas y la densidad de la deposición de cálculo.

Una limitación del proceso basada en modelos es que no se prevé una medida de incertidumbre vinculados a sus predicciones y de la exposición a campos de datos no son fácilmente incorporadas. Geoestadística [49] proporcionar herramientas para el modelado de la distribución espacio-temporales de la exposición y evaluación de la incertidumbre adjunta. Diversas fuentes de información se puede tener en cuenta, tales como mediciones en algunas estaciones de vigilancia, las coordenadas de las principales fuentes de exposición (es decir, las fábricas) y el transporte características (es decir, las direcciones del viento), que podría ser, ya sea directamente incorporado en el algoritmo de predicción [50] O se introducen en los modelos físicos para obtener tendencias espaciales [51]. En este último caso, la geoestadística se utilizan para el modelo residual o no explicada parte de la variabilidad previsto por el proceso basado en modelos.

La función peso, ya sea sobre la base de la proximidad geográfica (como en la ecuación 19) o derivados mediante un proceso basado en el modelo o geoestadística (como en Ecuaciones 20 y 21), que se utiliza para la construcción de la prueba se centró ponderada en el tiempo t como:

La prueba de ordenación del territorio de la agrupación residencial historias acerca de la atención a través del tiempo es entonces:

Aviso ponderada de estos ensayos se llevan a cabo para la k vecinos más cercanos que se está considerando. Cuando k = N, los valores máximos son los siguientes:

Duración ponderada de los ensayos para la agrupación de Residencial Historias

El número de puntos de tiempo definidos por el t = 0 .. T observación veces, y la frecuencia con que se toman, pueden tener cierta influencia sobre el valor de las estadísticas anteriores. Por ejemplo, muchos la repetición de las observaciones cuando existe la posibilidad de agrupar podría dar lugar a falsas de importancia local y mundial de pruebas para la agrupación residencial historias. Por lo tanto, desarrollado duración ponderada de las versiones de las pruebas, y estos se presentan en el Apéndice [véase la archivo adicional 1].

Contabilidad de la exposición de Windows y períodos de latencia

Cuando se trata de cáncer, causal exposiciones pueden ocurrir durante una ventana de exposición (Δ E), seguido de un período de latencia (Δ L) antes de cáncer diagnosticados y se manifiesta. Dado el historial de residencia para el caso i, L i, además designar el espacio-tiempo coordinar la representación de lugar de residencia en el momento del diagnóstico como , Señalando que L i Podemos entonces definir que parte de la historia residencial L i sobre los que la ventana de exposición se produjo como:

Aquí t i, D es el momento del diagnóstico para los distintos i. El término (t i, D - Δ L) indica el tiempo antes del diagnóstico cuando comenzó el período de latencia y (t i, D - Δ L - Δ E) es el momento en que se inició la causal de exposición. Por lo tanto la ecuación 25 denota la parte de la persona i i residencial de la historia donde la exposición causal podría haber ocurrido. Aviso de que tanto la ventana de exposición y el período de latencia puede ser ajustado en función de las covariables para tener en cuenta factores de riesgo como el hábito de fumar y la edad (ver Discusión). En este caso, el período de latencia y la ventana de la exposición varían de un individuo a otro y escribimos:

Aquí Δ i, y L Δ i, E son el período de latencia y de la exposición de las ventanas i ª persona. En cualquiera de los dos casos (Ecuaciones 25 o 26) que llamamos La exposición traza para el i ª persona.

Aleatorización procedimientos de la exposición huellas

Con el fin de evaluar si la exposición huellas de los casos el grupo primero debemos construir un procedimiento de aleatorización para generar representante tiempos de diagnóstico, el período de latencia, y la exposición ventanas. Una vez que esto se logra seremos capaces de determinar si la exposición rastros de los casos el grupo en relación con los construidos por los controles. Por caso, la exposición traza está definida por el momento del diagnóstico y el período de latencia, con el período de latencia potencialmente dependientes de la edad, sexo y otras covariables. El procedimiento procede de la siguiente manera:

(1) Dado que los controles se corresponden con los casos, el "momento del diagnóstico" para cada control se fija en el momento del diagnóstico para los de casos.

(2) La ventana de exposición y el período de latencia para cada control se define sobre la base de las covariables para cada control que se ha logrado para que los controles de casos.

(3) La terminación de los pasos (1) y (2) se traducirá en la exposición rastros definidos para ambos casos y controles. Ahora azar asignar identificadores de caso control en toda la historia residencial con equiprobability acondicionado en el número total de casos y el número total de los controles.

(4) Calcular el deseado estadística de ensayo para la agrupación de la exposición huellas.

(5) Repita los pasos 3 y 4 el número deseado de veces para construir la referencia de la estadística de la distribución en virtud de la aleatorización.

Ensayos para la evaluación de las estadísticas de la agrupación rastros de la exposición se presentan a continuación.

Local Case-Control de los ensayos para la Detección de conglomerados espaciales de la exposición Huellas en el tiempo t

Cuando los eventos de salud tales como cánceres son causados por la exposición a factores localizados geográficamente cabe prever que la exposición huellas de los casos al grupo relativo a la exposición de los rastros que se generan para los controles. La duración de la exposición huellas pueden variar, por lo que se dará empleo a la duración ponderada de las estadísticas. Nos gustaría saber si la exposición rastros de la exposición de los casos de agrupaciones espaciales relativa a los controles tanto a nivel local (para identificar los lugares donde se produjeron las exposiciones causal) y en el mundo (para determinar si la exposición rastros de los casos cuando el grupo considerado como un grupo). También se podría preguntar si la exposición rastros de la exposición de casos se centraron agrupación.

La exposición traza para el caso i ( ) Registros de los lugares en los que los vivieron durante ese tiempo cuando se produjo la exposición que podría haber causado el cáncer más adelante en la vida. Ahora definir un indicador, e i, t, como:

Cuando e i, t es 1, digamos la exposición traza es "activo". Un local de casos y controles de pruebas para la agrupación espacial de la exposición huellas en el tiempo t es entonces:

Este es el recuento, en el momento t, el número de k vecinos más cercanos de caso en i i activa de la exposición traza que son los casos (y no control) cuya exposición huellas también están activos. De ahí la estadística será grande en los momentos en que la exposición huellas de un grupo de casos y el grupo están activas. Su valor es 0 cuando es un individuo i control, y también al individuo i es un caso con una exposición traza inactivos. La duración ponderada versión de esta estadística es:

Local Case-Control de los ensayos para la Detección de conglomerados espaciales de la exposición a través de Time Traces

Podemos explorar si la exposición traza activa de los casos tienden a agruparse espacialmente a través del tiempo. Una estadística sensibles a este patrón es:

Tenderá a ser grande cuando se activa la exposición huellas de los casos tienden a agruparse en torno a la exposición traza activa de la i º caso. Será 0 cuando i es un control, y los pequeños cuando un caso determinado i tiene las huellas de muchos controles como sus vecinos. La duración basada en la versión de esta estadística es:

Esta estadística se expresó en el caso de unidades de tiempo, que indica el número (por ejemplo) de los casos y días a lo largo de todo el período de estudio de casos con el que se activa huellas k-vecinos más cercanos de la traza activa de casos i.

Global Case-Control de los ensayos para la Detección de conglomerados espaciales de la exposición Huellas en el tiempo t

Podemos preguntarnos si, como grupo, son huellas activa de casos agrupados espacialmente en relación con el activo huellas de los controles en un momento dado t. Esto se logra utilizando la estadística:

Esto es simplemente la suma, a lo largo de todos los casos, de la estadística local de la agrupación de casos de exposición huellas en el tiempo t. Esta estadística se activa cuando las grandes huellas de los casos tienden a estar cerca de ellos y cuando los pequeños rastros activa de los casos tienden a tener los controles como sus k vecinos más cercanos. La duración basada en la versión es la siguiente:

Global Case-Control de los ensayos para la Detección de conglomerados espaciales de la exposición a través de Time Traces

Un ensayo para el mundial de la agrupación espacial de la exposición traza activa de casos a través del tiempo es la siguiente:

Esta es la suma, a lo largo de todos los períodos de tiempo, el grupo mundial de la prueba para la agrupación de la exposición huellas. Será grande cuando la agrupación mundial de la exposición traza activa tiende a persistir a través del tiempo. La duración basada en la versión de esta estadística es:

Enfocado el asunto de los Ensayos de Control de Detección de conglomerados espaciales de la exposición Huellas en el tiempo t

También podemos preguntarnos si la exposición huellas de los casos el grupo putativo cerca de las fuentes de emisión. Una vez más, estas fuentes pueden ser móviles, y lograr esto mediante la asignación de los pesos más grandes para los casos en que están cerca del foco. Recordatorio de la ecuación 14 que puede representar una fuente móvil como F L = (u F, 0, F u, 1, .., u M, T). La prueba para la agrupación espacial de los casos alrededor de un foco en un momento dado t (Ecuación 15), puede ser prorrogado a ser una prueba para la agrupación se centró la exposición de los rastros como:

Este es el de contar el número de casos con exposición activa de los rastros que son k vecinos más cercanos de la atención en el momento t. Importancia de esta estadística puede ser evaluado mediante la construcción de la exposición huellas de los controles como se describe anteriormente, y luego en repetidas ocasiones por la asignación de identificadores de caso-control a través de la N vitales que son k vecinos más cercanos de la atención con el fin de construir la referencia para la distribución . La duración ponderada versión de esta estadística es

Test de Orientación para la Detección de conglomerados espaciales de la exposición Las huellas de un móvil a través de Focus Tiempo

Podemos evaluar si es estadísticamente significativo de la exposición de agrupaciones huellas de los casos aproximadamente un foco móvil a través del tiempo utilizando la estadística:

Este es el contar, a lo largo de T +1 veces, el número de casos que han activo exposición huellas que se k vecinos más cercanos de la atención en cada punto del tiempo. El valor máximo de esta estadística es kT, y de su importancia, pueden ser evaluados en virtud de la asignación al azar por la reasignación de casos y controles sobre la identidad de exposición huellas de los casos y controles, tal como se describe en la sección anterior. La duración ponderada en la versión de esta estadística es:

Ponderada de las pruebas de orientación para la exposición Huellas

El poder de la k-vecinos más cercanos se centró prueba basada en la exposición de huellas disminuye a medida k N enfoques. Pesos como la que se sugiere en Ecuaciones 19-21 puede ser utilizado para construir una ponderada de la prueba se centró la exposición de las huellas en un momento dado t:

La prueba para la agrupación de la exposición se centró huellas a través del tiempo es entonces:

La importancia de estas estadísticas se evalúa a través de la utilización de la aleatorización k vecinos más cercanos de la atención, tal como se describe anteriormente. - La duración ponderada correspondiente versiones

Esta es la prueba más centrado ponderado duración ω t. La duración ponderada basada en la exposición de la prueba se centró huellas a través del tiempo es

El cáncer de vejiga en el sureste de Michigan

Un basados en la población cáncer de la vejiga estudio de casos y controles se están realizando en el sudeste de Michigan. Los casos son contratados en el Registro de Cáncer del Estado de Michigan y se diagnosticó en los años 2000-2004. Los controles son emparejados con los casos por edad (± 5 años), la raza y el género, y de contratación mediante un procedimiento de marcado dígitos al azar de una lista ponderada de la edad. Para ser elegibles para la inclusión en el estudio, los participantes deben haber vivido en los once condado área de estudio durante al menos los últimos 5 años y no tenía antecedentes de cáncer (con la excepción del cáncer cutáneo no melanoma). Los participantes se les ofrece un modesto incentivo financiero y de investigación es aprobado por la Universidad de Michigan IRB-Comité de Salud.

Los datos presentados aquí son de 63 casos y 182 controles. Como parte del estudio, los participantes completar un cuestionario por escrito la descripción de su movilidad residencial de la historia. La duración de la residencia y la dirección exacta de la calle fueron obtenidos, de lo contrario, la cruz más cercano calles estaban previstas. Cada residencia en el área de estudio se asignó un geocoded y con coordenadas geográficas en ArcGIS; residencias fuera de la zona de estudio no se geocoded. Los participantes residían en 1004 hogares en el área de estudio, con una media de tiempo dedicado el 64% de sus vidas. Residencias en el área de estudio se geocoded con éxito: el 76% corresponde automáticamente utilizando ArcGIS configuración de la ortografía sensibilidad igual a 75, puntaje mínimo de candidatos igual al 10, y un puntaje mínimo igual al partido 60. El inigualable direcciones fueron acompañados manualmente utilizando cruzar calles con la ayuda de los servicios de cartografía en Internet (15%). Si cruzar calles no se proporcionaron, mejor informado adivinar la dirección colocada en la carretera (5%), y como último recurso, estuvo acompañado de residencia a la ciudad de centroide (4%).

Industrial historias también han sido recogidas por la zona de estudio, y se explorarán para explicar la agrupación local. Informó a las industrias o se cree que emiten contaminantes que se han asociado con el cáncer de la vejiga se identificaron utilizando el Inventario de Emisiones Tóxicas [52] y el Directorio de Fabricantes de Michigan (Fabricante Publishing Co, 1946, 1953, 1960, 1969, 1977, 1982). Clasificación Industrial Estándar (SIC) se aprobaron los códigos, pero antes de la codificación SIC, clasificación industrial títulos fueron seleccionados. Características de 268 industrias, incluyendo, pero no limitado a, tejido acabado, la preservación de la madera, pulpa, la elaboración de productos químicos industriales orgánicos, y la pintura, el caucho, el cuero y la manufactura, se recopilaron en una base de datos. Industrias se geocoded siguiendo el mismo procedimiento que se describe equiparación de las residencias: el 89% corresponde a la dirección, el 5% se colocaron en la carretera utilizando las mejores informó supongo, y como último recurso, el 6% se corresponde a la ciudad de centroide. Cada sector se le asignó un año de inicio y fin año, basado en los mejores datos disponibles. Los datos de estas industrias se utiliza para demostrar la centró versiones de la Q estadísticas.

Resultados

En el momento de escribir esto, geocodificación y la recopilación de datos están en curso, por lo que los resultados reportados en este manuscrito son totalmente preliminar y no deben utilizarse para llegar a conclusiones acerca de los modelos espaciales de cáncer de la vejiga en Michigan. El análisis realizado en el manuscrito se presenta sólo como un ejemplo aplicación de las nuevas estadísticas Q.

Para demostrar los métodos que aplican los locales y mundiales Q estadísticas de la agrupación residencial de la historia, concretamente el local de ensayo en el momento t, Q i, k, t (Ecuaciones 6), y su homólogo mundial Q k, t (Ecuación 10). También ejecutó el local de ensayo para la agrupación residencial de la historia a través del tiempo Q i, k (Ecuación 13), y las pruebas globales para la agrupación residencial de historias Q k (Ecuación 11). También se ocupaban de la posible agrupación de los casos, cerca de las instalaciones industriales, y se evaluaron usando la prueba se centró en el momento t Q M, k, t (Ecuación 15), así como la prueba se centró en el tiempo Q M, k (Ecuación 16) . Además hemos programado la duración ponderada de las versiones de estas estadísticas, y para el que también se centró pruebas empleadas exposición pesos calculada utilizando el rango de distancia inversa (Ecuación 19).

Resultados para Q kt

Estas técnicas se aplicaron en TerraSeer STIS del software usando la interfaz del programador de aplicaciones. Esto nos permitió crear una biblioteca de métodos dinámicos vinculados con nuestras nuevas técnicas que luego invocar generado automáticamente utilizando un cuadro de diálogo. Tiempo animados mapas de los lugares de residencia de los casos y controles, y de los cambios en la geografía de los suministros municipales de agua, se construyeron utilizando STIS (Figura 3 [véase adicional archivo 2] [ver archivo adicional 3]]. Estos mostrar la evolución de la geografía de los casos y los controles a medida que pasan de un lugar a otro, alteraciones en la geografía de los suministros de agua municipales en que se fundó, y ampliar la fusión, así como el municipio de fronteras. Para verificar que los métodos de comparación de resultados utilizando el Q estadísticas a los obtenidos utilizando Cuzick y Edward's en la prueba ClusterSeer software. En concreto, hemos utilizado para calcular el STIS Q kt estadísticas a través del tiempo y luego exportan los datos para el 1 de julio de 1969. Elegimos este momento, porque Q kt local alcanzó un pico de Q = 77 kt que fue estadísticamente significativa (ver Figura 1]. El Cuzick y Edward en el test de ClusterSeer regresó T 5 = 77, lo que confirma los resultados de STIS. Como se señaló anteriormente, Cuzick y Edward en la prueba es un caso especial de la estadística-Q para el mundial de la prueba en el momento t, Q kt. Tenga en cuenta que Q kt se calcula como la suma de los locales de Q estadísticas en el momento t, Q ikt, y, por tanto, proporciona la verificación de que la estadística ikt Q, de la que la familia de Q se deriva de estadísticas, se calcula correctamente. Debemos recordar al lector que estos resultados son muy preliminares y que la recogida de datos es incompleta. De hecho, y tal como se señala más adelante en la discusión, es probable que el observado en la agrupación de estos datos se debe a la orden geográfico en el que los datos son recogidos. No obstante, este ejemplo demuestra cómo las parcelas de la Q kt estadísticas se pueden utilizar para evaluar geográfica caso de la agrupación residencial historias.

Resultados para

Los resultados no se informó anteriormente vez normalizada. Por ello, realizó un análisis utilizando el tiempo de la versión normalizada de la llamada Q kt Según la ecuación A4. Esto expresa la cantidad de agrupaciones en un determinado intervalo de tiempo en los casos por unidad de tiempo. STIS informes veces a la segunda, en consecuencia, los resultados se registran en persona segundos. La figura 4 muestra una creciente tendencia global similar, pero también una mayor variabilidad en el valor de la Q estadística a través del tiempo. Esto es impulsado tanto por el aumento del número de casos a través del tiempo y también por las diferencias en la duración de la circulación entre los acontecimientos. Cuando estas fuentes de variabilidad se contabilizan encontramos episódica caso de agrupaciones en aproximadamente el mismo tiempo para encontrarse intervalos como el tiempo no ponderada estadística.

Resultados para Q k

Después de haber encontrado algunos de los Q kt y Estadísticas para ser estadísticamente significativos, entonces se plantea la cuestión de si existe la general de la agrupación mundial habida cuenta de los múltiples puntos de tiempo evaluado. Para lograr esto se utilizó la prueba de k Q mundial en el marco del procedimiento de asignación al azar que tiene el residencial historias de los casos y los controles de la forma y, a continuación, asigna el caso n b n y control de los identificadores a través de la N residencial historias. Esto lo logramos a la aleatorización 99 veces en el STIS con el consiguiente valor de p de 0,01, y había llegado a la conclusión de la agrupación mundial en la historia residencial.

Resultados para Q i, k para evaluar agrupación de Residencial Historias

Las estadísticas y KT Q Son sensibles a una agrupación de casos en relación con los controles, y son evaluados en cada uno de los puntos temporales T +1 en el conjunto residencial de la historia. También puede pedir, si residenciales historias de los casos agruparse cerca de la residencial historias de los demás casos, por el uso de las estadísticas Q i, k (Ecuación 13) y su duración ponderada en la versión (Ecuación A6). Desde nuestro análisis anterior demuestra los resultados no son excesivamente sensibles a la duración de ponderación, informe de resultados, no sólo para el ponderado de las pruebas. Esta prueba tendrá asociado una estadística y un valor de p residencial con cada historia. Un mapa de la historia residencial el 12 de abril de 1997 se muestra en la Figura 5. Tenga en cuenta los dos puntos rojos que indican el lugar de residencia de los dos casos con significación estadística de la agrupación residencial historias. Durante todo el período de tiempo del estudio, estos dos casos tienden a ser residencial rodeada de historias de los demás casos, en lugar de la residencial historias de los controles. Debido a la movilidad residencial, los dos puntos rojos desplazarse a través del tiempo. Esta animación es bastante convincente en el STIS y se aproximó por la simple animación en la figura 3. Nota de la animación en la figura 3 se muestra la totalidad de la animación creado cuando se ejecuta el software STIS. Esto es necesario para crear. Avi archivos de pequeño tamaño suficiente para la eficacia de la publicación en Internet. Los períodos en los que un punto rojo desaparece de la animación de tiempo indican que los períodos en que se sacan de la zona de estudio. Es importante señalar que no hemos ajustado estos locales las pruebas de las múltiples pruebas en el espacio muchos lugares que fueron evaluados. Sin embargo, la estadística mundial Q k fue estadísticamente significativa y el gran local para observar las estadísticas de los dos puntos rojos de referencia los dos residenciales historias que contribuyeron a la mayoría de los mundiales Q k.

Centrado agrupación

Para demostrar el uso de las versiones de la centró Q estadística analizamos posible agrupación de los residenciales historias de los casos cerca de las 268 instalaciones industriales que producen compuestos que se consideran carcinógenos putativo para el cáncer de la vejiga. Se realizó dos series de análisis utilizando Q M, k (Ecuación 16). La primera se centró evaluados agrupación residencial de historias usando k = 5 vecinos más cercanos. El segundo sólo se consideran los vecinos más cercanos a 1 kilómetro de la atención.

Al considerar los 5 vecinos más cercanos a cada uno de la industria, 24 de un total de 268 instalaciones industriales había los valores de p menor de 0,05. Así, bajo la hipótesis nula de que cada persona en el estudio tenían la misma probabilidad de ser calificados de un caso, esos 24 focos candidato tenía un exceso significativo de casos entre cada una de sus cinco vecinos más cercanos, por lo menos en el plano nominal de 0,05. Observe que en el nivel 0,05, hubiéramos esperado 13,4 focos a ser importante en virtud de esta hipótesis nula. El uso de un experimento de error de enfoque prudente, y el 5% de valor crítico, el alfa ajustado nivel de la prueba es 0,000187 utilizando el Bonferonni corrección, y es 0,000191 utilizando Sidak multiplicativo de la desigualdad. Usando 49999 randomizations, hemos sido capaces de resolver los p-valores tan pequeños como 0,00005. Ninguna de estas industrias resultaron ser estadísticamente significativos focos múltiples pruebas, una vez se contabilizan.

También se utiliza la distancia de enfoque basado en el examen de esos vecinos dentro de los 4000 m de cada instalación industrial. En virtud de este enfoque, el 10 de las instalaciones industriales había los valores de p <0,05, pero ninguna de ellas fueron significativas una vez múltiples ensayos se contabilizan.

Discusión

En este trabajo se presenta un nuevo enfoque para la evaluación de casos y control de la agrupación residencial historias. Hasta la fecha y hasta donde sabemos, casi todos los casos el grupo de control de las pruebas se basan en la visión estática, el análisis de agrupamiento en un momento determinado o de forma independiente en varios momentos en el tiempo. Mediante el uso de la matemática de la construcción de un complejo residencial en la historia Ecuación 1, y la noción de super series de matrices de proximidad (Ecuación 5) para representar la evolución de la geometría del lugar de residencia, hemos derivado local, global y centrado pruebas que sean realistas en la Sentido de que se cuantifique la movilidad residencial humanos.

Los resultados de los análisis de los datos de cáncer de la vejiga son totalmente preliminar, y no debe interpretarse para llegar a cualquier inferencias o conclusiones con respecto a la agrupación de casos y controles de cáncer de vejiga en Michigan. En el momento de escribir esto creemos estadísticamente significativa agrupación espacial de los casos es el resultado de un patrón geográfico en el orden temporal en la que los casos son denunciados. Debido a la reciente aplicación de la HIPAA (Health Insurance Portability and Accountability Act), la legislación, de la Universidad de Michigan sistemas hospitalarios se han negado a liberar caso de datos hasta su posición oficial sobre esas necesidades es totalmente formulado. Como resultado de ello, los casos de cáncer de vejiga que fueron tratados en la Universidad de Michigan hospitales sólo ahora están siendo reclutados para el estudio del conjunto de datos. Debido a que muchos de los casos proceden de los alrededores alrededores de Washtenaw Livingston y condados, el conjunto de datos analizados en este documento tiene un déficit de los casos en esas zonas. Selección de los controles de población emplea una muestra aleatoria utilizando dígitos de marcación, y representa adecuadamente la totalidad del área de estudio. Como resultado de ello, existe un déficit de casos en los condados Washtenaw y Livingston, y la consecuente agregación de casos en el equilibrio de la zona de estudio. Más investigación de cualquier cáncer de la vejiga también supondría grupos conocidos incluyendo los factores de riesgo de cáncer de la vejiga, tales como el tabaquismo y la exposición ocupacional historia, en el análisis. Tenemos la intención de volver a examinar este análisis una vez que el conjunto de datos está completa.

Selección aleatoria de los controles a través de dígitos de marcación puede introducir sesgos, ya que no todo el mundo es igual de probable que se seleccionaron debido a diferentes números de teléfonos y la posibilidad de contestar el teléfono. Si bien esa tendencia podría reducirse seleccionando en primer lugar un censo bloque de grupo sobre la base de cifras del censo, ajustada por edad y género, y luego haciendo dígitos de marcación aleatoria dentro de ese bloque de grupo, este procedimiento tiene el potencial de más de equiparación de la exposición [53] . Esto hace que sea muy difícil de detectar cualquier patrón espacial que se plantea en una escala espacial mayor que el bloque de grupo. En este estudio se optó por no coincidir con la geografía, porque en algunas de las exposiciones de interés mostrar un patrón geográfico y el exceso de concordancia en la exposición era una posibilidad. Estas exposiciones incluyen patrones regionales en la concentración de arsénico en el agua potable asociada con las aguas superficiales de geología y las diferencias regionales en las fuentes de abastecimiento de agua del hogar [54, 55].

El sureste de Michigan incluye agricultura de las zonas rurales, así como porciones del área metropolitana de Detroit, y el diferencial de las tasas de respuesta en virtud de dígitos aleatorios de marcación son motivo de preocupación. Hemos tratado de garantizar que estas zonas no disponen de diferencial de las tasas de respuesta mediante la comparación de las direcciones de respondedores y no respondedores en la edad ponderada de las listas.

Los riesgos a principios de la vida y más de la vida de una persona curso puede ser importantes factores de riesgo para la aparición de cáncer [56, 57, 34], con lo que afectan tanto a la fecha de diagnóstico y el período de latencia. Pero, ¿cómo pueden esos factores de riesgo se explica en la exposición de análisis de trazas? Tenemos que explícitamente el período de latencia modelo a tener en cuenta no sólo las exposiciones de interés directo (arsénico en nuestro ejemplo), sino también otros factores de riesgo (como el tabaquismo) que podría disminuir el período de latencia y acelerar la aparición de la enfermedad. Muchos común de la enfermedad-riesgo epidemiológico medidas (por ejemplo, odds-ratio) se refieren a si una exposición se produjo, en lugar de con cuando esto ocurrió, por lo que son de poca utilidad para la estimación de las relaciones entre el momento de la exposición y la aparición de la enfermedad [58]. Para los análisis de cohorte, Robins y Groenlandia [59] argumentó que, cuando la condición de la edad, años de vida perdidos (AVP), debido a la exposición temprana no puede ser estimada sin los prejuicios de la falta de modelos causales para que la exposición es causa de mortalidad. Este resultado fue demostrado analíticamente por Morfeld [60], quien desarrolló un marco para el pensamiento causal en epidemiología, y la aplicaron para evaluar la estimability de AVP y medidas conexas. Candidato causal modelado de los enfoques citados por Morfeld incluir Robin del G-procedimiento de estimación [61, 62], que pueden ser utilizados para estimar el período de tiempo entre la exposición y los resultados, como la muerte, y, por tanto, parecen prometedoras para la incorporación de modelos de covariables en el período de latencia. G-Aplicaciones de la estimación de la AVP y de los procedimientos [61] Robins en la exposición traza el modelado es, pues, una importante investigación futura dirección.

Discusión del tipo de métricas para uso espacial (de vecinos más cercanos, de adyacencia, o la distancia geográfica de base), así como el número de k vecinos más cercanos para analizar se justifica. Los criterios detallados en el presente documento son de carácter general en el sentido de que el peso como la distancia y de adyacencia inversa se podría utilizar en lugar de k-vecinos más cercanos relaciones en la ecuación 4. Decidimos trabajar con vecinos más cercanos, porque las medidas que hemos comprobado que estaban más poderoso que adyacencia y de la distancia de medidas basadas en algunas situaciones (por ejemplo [63]]. Como se ha señalado anteriormente en este artículo, usamos k = 5, porque hemos encontrado en el pasado que en virtud de la agrupación espacial de vecinos más cercanos métodos a menudo puede ser detectado en ese nivel de k. Tal justificación es suficiente en los análisis realizados exclusivamente con fines de demostración, pero es deficiente en la configuración de aplicarse. En la práctica, los dos enfoques pueden ser utilizados, que se llama a priori y exploratorio. Cuando antes se dispone de información sobre la escala de esta agrupación se puede utilizar para seleccionar un número determinado de los vecinos más cercanos para explorar. Por lo tanto si se desea detectar grupos de cinco personas que se podría fijar k = 5. Cuando tal información previa es la falta de un enfoque exploratorio puede ser utilizado en el que varios niveles de k se analizan, y las probabilidades de los análisis debe ser ajustado para tener en cuenta múltiples ensayos [63].

No hemos podido demostrar cada una de las estadísticas desarrolladas en el presente documento, debido tanto a los datos y las limitaciones de espacio. Tomamos nota de que la exposición huellas podrían aplicarse para representar a los casos y los controles de edades similares, además de las que en un determinado momento. Por ejemplo, un investigador podría determinar si el grupo junto casos cuando eran menores de edad, independientemente del año, lo que indica el principio de su vida de vulnerabilidad a una exposición ambiental en la zona. Estos instrumentos de la agrupación por lo tanto, puede ser utilizado para visualizar el cáncer de los grupos de edad de los participantes de manera similar, así como las agrupaciones de los años sobre la base de uno de los participantes vivían en una residencia. De este modo, las agrupaciones de los niños se puede investigar, si son nacidos en la misma generación o nacidos en distintas generaciones.

Conclusión

En conclusión, los métodos presentados en este documento de la cuenta de la movilidad residencial y, por tanto, mucho más realista que las pruebas existentes que se basan en representaciones geográficas estática. De este modo, se prefieren métodos más de la agrupación que ignorar la movilidad humana. Las técnicas de manifiesto en el presente documento se han programado en una dinámica vinculada biblioteca que se puede obtener a partir del primer autor y se utiliza en conjunción con una STIS.

Lista de las abreviaturas

SIG: Sistema de Información Geográfica

HIPPA: Seguro de Salud de Portabilidad y Responsabilidad de la Ley

H IV: Goovaert y Jacquez's [45] neutral modelo Tipo IV

H VI: Goovaert y Jacquez's [45] neutral modelo Tipo IV

IRB: junta de revisión institucional

LISA: indicadores locales de la ordenación del territorio Autocorrelations

MCMC: cadena de Markov Monte Carlo

STIS: espacio-tiempo sistema de inteligencia

SIC: Clasificación Industrial Uniforme de código

AVP: Años de Vida Perdidos

Conflicto de intereses

Geoffrey Jacquez es Presidente de BioMedware, la compañía de software que se está desarrollando el software STIS.

Contribuciones de los autores

GJ derivados de los métodos y redactó la mayoría de este manuscrito. Asimismo, el análisis realizado de la serie de datos cáncer de la vejiga. AK programado y probado los métodos estadísticos en el STIS software. GA y JM proporcionaron datos y escribió el conjunto de datos de descripción. PG escribió las secciones sobre geoestadísticos funciones de peso para el centrado pruebas. JN es investigador principal en el proyecto R01 es que la recogida de los datos establecidos cáncer de la vejiga.

Material suplementario
Archivo Adicional 1
Apéndice
Este archivo contiene el artículo del apéndice.
Archivo Adicional 2
Animación para la figura
3
En QuickTime
Esta es la animación de la figura
3
En formato QuickTime.
Archivo Adicional 3
Animación para
Figura
3
Como un GIF animado
Esta es la animación de la figura
3
En formato GIF.
Agradecimientos

Este estudio fue apoyado por el subsidio R01 CA96002-10, la base geográfica de Investigación en Epidemiología y Control de Cáncer, desde el Instituto Nacional del Cáncer. Desarrollo de software de la STIS fue financiado por donaciones R43 ES10220 de los Institutos Nacionales de Ciencias de la Salud Ambiental y R01 CA92669 del Instituto Nacional del Cáncer. Las observaciones críticas y sugerencias de Martin Kulldorff, Thomas Webster, y Al Ozonoff mejorado el manuscrito. El acceso a los registros de casos de cáncer fue proporcionada por el Programa de Vigilancia de Cáncer de Michigan, dentro de la División de Registros Vitales y Estadísticas de Salud, Michigan Departamento de Salud de la Comunidad. Los autores gracias al Instituto de Salud Pública de Michigan para la realización de las entrevistas telefónicas y Stacey Fedewa y Lisa Bailey escrito para entrar en las encuestas en una base de datos. Gracias a Wanda Angelomatis y Fred Wallace, que fue anfitrión de la primera autora y su hija de dos semanas en el Lago Berkenhead en la Columbia Británica, donde estos métodos fueron originalmente formulados.