Epidemiologic perspectives & innovations : EP+I, 2006; 3: 3-3 (más artículos en esta revista)

Una demostración de modelado de datos de contar con una aplicación a la actividad física

BioMed Central
Donald J Slymen (dslymen@mail.sdsu.edu) [1], X Guadalupe Ayala (ayala@mail.sdsu.edu) [1], Elva M Arredondo (earredondo@projects.sdsu.edu) [2], Juan P Elder (jelder@projects.sdsu.edu) [2]
[1] Escuela Graduada de Salud Pública, San Diego State University, 5500 Campanile Dr, San Diego, CA 92182, EE.UU.
[2] Universidad Estatal de San Diego, Centro de Salud de la Comunidad de comportamiento y Estudios, 9245 Sky Park Ct., Suite 221, San Diego, CA 92123, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen

Contando resultados como días de la actividad física o porciones de frutas y vegetales a menudo tienen distribuciones que son muy sesgada hacia la derecha con una preponderancia de ceros a la izquierda, planteando retos analíticos. En este artículo se demuestra cómo esos resultados pueden ser analizados con varias modificaciones a la regresión de Poisson.

Cinco modelos de regresión 1) Poisson, 2) overdispersed Poisson, 3) binomial negativo, 4) cero inflado Poisson (ZIP), y 5) cero inflado binomial negativa (ZINB) están equipadas para la evaluación de los datos predictores de la actividad física vigorosa (VPA ) Entre las mujeres latinas. Los modelos se describen, y los enfoques analíticos y gráficos se discuten en el modelo de ayuda a la selección.

Regresión de Poisson siempre un mal ajuste que suponen el 82% de los sujetos no informó días de la VPA. El ajuste mejorado considerablemente con la negativa binomial y modelos ZIP. Hubo poca diferencia en la adecuación entre el ZIP y ZINB modelos. En general, el modelo ZIP encajar mejor. No hay días de VPA se asociaron con peor percepción de salud y menos asimilación a la cultura anglo, y marginalmente asociados con el aumento de índice de masa corporal. La intensidad de la modelo sugiere que el aumento de días de VPA se asociaron con más educación, y marginalmente asociados con el aumento de la edad. Estos modelos proporcionan subutilizadas enfoques útiles para la manipulación de los resultados de conteo.

Introducción

Contando los resultados a menudo se caracterizan por una gran proporción de valores en cero con el resto de valores muy sesgada hacia la derecha. Este tipo de distribución puede ocurrir en medidas de la actividad física en la que el número de días de actividad física pueden ser de interés, la evaluación de las medidas de nutrición, por ejemplo, el número de porciones de frutas y vegetales, o de los servicios de salud que describe el número de visitas al hospital o médico . Desde contando los resultados no cumplen con las habituales hipótesis de la normalidad requiere de muchas pruebas estadísticas estándar, los analistas se han basado en una transformación para inducir a la normalidad, que a menudo no funciona, o categorización de los resultados que puede resultar en pérdida de información. Una alternativa es asumir una distribución de Poisson, que se adapta mejor a los procesos de conteo. Software para la regresión de Poisson es de fácil acceso y esta técnica es cada vez más ampliamente utilizada en muchos ámbitos de la investigación. Sin embargo, una condición necesaria de la distribución de Poisson es que el valor esperado es igual a la diferencia. Muchos contar más resultados muestran que la variabilidad variación nominal en el marco del modelo de Poisson, una enfermedad llamada el exceso de dispersión. Las consecuencias pueden ser graves si el exceso de dispersión no se ha abordado. Los intervalos de confianza para las estimaciones de regresión puede ser demasiado limitada y las pruebas de asociación podrá ceder los valores de p que son demasiado pequeños. Modificaciones del modelo de Poisson se han propuesto tanto a la cuenta de un exceso de dispersión y de entender mejor el proceso subyacente que conduce a dicha distribución muy sesgada. Estas técnicas se han utilizado en la literatura de ciencias sociales [1, 2] y, en cierta medida, en los servicios de salud de investigación [por ejemplo [3]]. Sin embargo, algunos ejemplos están disponibles en la salud pública y la investigación clínica. Algunos ejemplos recientes incluyen un estudio para examinar la primera infancia el crecimiento y el desarrollo [4], el uso de condones masculinos en un estudio de intervención en el comportamiento [5], un estudio epidemiológico de los factores de riesgo de hipoglucemia severa cuando el resultado fue el número de episodios de más de un 9 Años [6], el modelado de la relación entre el número de caries dental y el estado socioeconómico [7], y una serie de artículos sobre los accidentes de tránsito [8 - 10]. Un problema relacionado es de cerca los resultados continuos con una alta proporción (o aglutinación) de ceros a la izquierda [11, 12]. Chang y Pocock [13] describen dos enfoques para el análisis de esos datos sobre la base del 1) la categorización de los resultados y que encaja con un modelo de probabilidades proporcionales o 2) el modelado de la probabilidad de una respuesta de cero utilizando regresión logística y regresión lineal de mínimos cuadrados para la no-cero Parte. Las modificaciones de la distribución de Poisson también se han propuesto en otras aplicaciones, por ejemplo, la estimación de intervalos de confianza para las tasas de incidencia donde el caso se puede contar infladas debido a los falsos positivos [14]. En el presente documento, el resultado es un proceso de regresión lineal donde no sería apropiado y donde el marco conceptual acerca de la preponderancia de ceros se explora. Vamos a dar ejemplos de modificaciones de la Poisson y aplicarlos a la evaluación de un estudio predictores de la actividad física vigorosa (VPA) en la línea de base entre las mujeres latinas que participan en un ensayo aleatorizado de intervención nutricional.

Análisis
La actividad física ejemplo

Los datos presentados en este ejemplo, se recogieron como parte de una línea de base de medida de un ensayo aleatorizado comunidad. El NIH-financiado juicio, Secretos de la Buena Vida, analiza la eficacia de dos innovadores métodos de comunicación para mejorar la salud nutricional de adultos latinas / hispanos por estos contrastantes a los participantes a los que están en una "atención habitual" grupo de control. Mujeres adultas fueron reclutados a través de discado aleatorio de dígitos de la regiones central y meridional del condado de San Diego sobre la base de una lista de números de teléfono adquirido, según las regiones, y utilizando los códigos postales con un apellido hispano de la cuenta. Para ser elegible para el estudio, el hogar tiene que haber incluido una mujer cuyo idioma dominante era el español y fue entre los 18 y los 65 años (inclusive) años de edad.

Los datos fueron recolectados durante el cara a cara a domicilio y entrevistas con 357 mujeres participantes. Las mujeres que aceptaron participar fueron medidas al inicio del estudio y luego asignados aleatoriamente a una de tres condiciones: promotora más adaptados material impreso entregado por correo condición (promotora); correo adaptados imprimir sólo (adaptado), y condiciones de control (control; fuera de la plataforma Latino orientados materiales, también se entreguen a través de correo). Las mujeres en la condición de promotora recibido visitas domiciliarias semanales o llamadas telefónicas de promotoras (laicos asesores de salud en la comunidad latina), durante 12 semanas, además de 12 boletines semanales adaptados con insertos de la actividad enviado por correo a la de origen del participante. La condición adaptados recibido adaptados actividad de las inserciones en boletines y creada especialmente para la mujer utilizando la información proporcionada por el participante en la línea de base. El grupo control se envió por correo "off the shelf" materiales que cubren las mismas áreas de contenido como los de la promotora y condiciones adaptadas.

Las variables de resultado primario para este estudio fueron por ciento de calorías de grasa y el número de gramos de fibra. El Sistema de Datos de Nutrición (NDS) 24 horas recordar entrevista, desarrollado por el Centro de Coordinación de Nutrición (NCC) de la Universidad de Minnesota, fue utilizado en cada medición para evaluar los patrones de consumo dietético. Este estudio de investigación longitudinal incluido 4 evaluaciones repetidas durante un período de 18 meses. Detalles del diseño del estudio y el procedimiento se puede encontrar en otra parte [15].

Como parte de la base de referencia cuestionario se preguntó a varias preguntas relativas a la actividad física y el ejercicio regular. En particular, la siguiente información y la cuestión se presentaron:

"Vigorosas actividades físicas por lo general te hacen difícil respirar o sentirse cansado la mayor parte del tiempo. Ejemplos de vigorosas actividades son: correr, baile rápido, fútbol rápido, natación, ciclismo rápido, y Stairmaster. ¿Cuántos días en una semana típica hace usted actividades físicas vigorosas durante 20 minutos o más? "

Una búsqueda en la literatura [16 - 26] se llevó a cabo, para determinar predictores de la actividad física para esta demostración. Las variables seleccionadas se muestran en la Tabla 1. Relacionados con el índice de masa corporal, el peso se midió tres veces a la libra más cercana utilizando un Salud-o-Meter escala estándar y la altura se midió tres veces más cercana a los 1 / 4 de pulgada, utilizando un estándar de portátiles stadiometer con zapatos eliminado. La media de las puntuaciones de peso y talla se calcularon sobre la base de las tres mediciones. IMC se calculó utilizando el índice de Quetelet (kg / m 2), que se considera un indicador fiable y cómoda del sobrepeso y la obesidad [27].

Aculturación se midió con un puntaje derivado de la 30-tema Aculturación Rating Scale para mexicano-americanos-II (ARSMA-II) [28]. Esta escala de medidas de la frecuencia de uso de los idiomas Inglés y Español, la frecuencia de acceso Inglés y Español medios de comunicación (TV, películas, música, libros, periódicos), la frecuencia de interacción con los mexicanos y los anglos y ahora como un niño, y de la identidad étnica y de la libre Padres. Separe los resultados se obtienen en representación 1) mexicana orientación o la frecuencia con la que ella habla español, miraba la televisión en español, y se identifican como mexicanos y 2) Anglo orientación o la frecuencia con la que ella habla Inglés, miraba la televisión en idioma Inglés y se determinaron Como un americano o mexicano-americanos. La aculturación puntuación se obtiene como la diferencia entre los dos resultados (menos Anglo Mexicano de orientación). Por lo tanto, una puntuación negativa de México representa una orientación y un punto positivo anglo orientación.

A pesar de que la literatura también identificó los ingresos como predictor de la actividad física, encontramos que es muy altamente asociado con la educación en nuestra muestra y el nivel de ingresos había desaparecido el 19 de los sujetos. Por lo tanto, hemos decidido excluir a la educación y el uso de ingresos.

Modelos estadísticos

Deje que representan a la i y contar para el i ahora mismo tema. Vamos x i ser un vector de covariables y β un vector de los coeficientes de regresión que se estima. El modelo de regresión de Poisson pueden ser representados como:

Donde μ i = exp (x i 'β). El valor esperado de y dado x i i i es μ. La diferencia de i y es también μ i.

Aunque la regresión de Poisson se utiliza a menudo para contar los resultados, la cuenta observada a menudo muestran más variabilidad que lo que está en relación con el de Poisson, una enfermedad llamada el exceso de dispersión. Esto conduce a una subestimación de los errores estándar de las estimaciones de regresión, intervalos de confianza que son demasiado estrechos, y los valores de p que son demasiado pequeños. En algunos casos, la subestimación puede ser muy grave. El extra variación puede ser medida por una escala o parámetro de dispersión. El parámetro puede ser estimado, dividiendo una bondad de ajuste estadístico por el residual de grados de libertad [29]. La estimación del parámetro es rutinariamente incluido en la salida de los programas informáticos para la regresión de Poisson [por ejemplo [30], p. 360]. Si la estimación es superior a 1, hay pruebas de un exceso de dispersión. La estimación puede ser utilizado como un factor de escala, multiplicando la estimación de la matriz de covarianza de β por esta cantidad. Esto sirve para "inflar" los errores estándar con intervalos de confianza amplios y p-valores mayores que lo que se obtiene en virtud de la Poisson sin ajuste desde hace más de dispersión.

Otro enfoque a la gestión de más de la dispersión-en el marco de regresión de Poisson es utilizar una estimación de ecuaciones generalizadas (GEE) enfoque [[30], pp 542-7]. El exceso de dispersión pueden ser considerados como errores de la estructura de covarianza, que no es apropiada para la regresión de Poisson. En lugar de utilizar el modelo de base de covarianza estimación, GEE utiliza un robusto estimación que se basa en un tema sujeto a medida para la estimación de las variaciones. Stokes et al ofrecer un ejemplo de su uso.

Gardner et al. [29] indican que la inflación utilizando una técnica para manejar el exceso de dispersión puede ser adecuada si la intención del análisis es probar la hipótesis sobre los coeficientes de regresión. Si uno de los objetivos es estimar las probabilidades para cada cuenta, entonces modelos alternativos deben explorarse.

Puede valer la pena considerar el mecanismo por el cual el exceso de dispersión se produce y utiliza un modelo de regresión más flexible. Incluso después de tener en cuenta la covariable información, puede haber inexplicada variabilidad entre los sujetos, posiblemente a consecuencia de predictores incumplido. La media μ i podrán ser sustituidos por

Μ * i = exp (x i 'β + β ε + i), donde ε i representa el error aleatorio. Ahora, los sujetos con el mismo observó x i no comparten el mismo μ i debido a la heterogeneidad no observada. Esta modificación a la regresión de Poisson se obtiene un modelo de regresión más flexible, el binomio negativo:

Donde θ representa el grado de sobre-dispersión. La media es μ i, el mismo que el de Poisson, pero la diferencia es μ i (1 + i θμ) permitiendo así que la diferencia exceda μ i. Como θ enfoques 0, el binomio negativo acerca a la de Poisson. Si ambos modelos están equipados, una prueba de razón verosimilitud se puede utilizar para comparar. Alternativamente, la puntuación de las pruebas se han desarrollado, que sólo requieren la instalación del modelo de regresión de Poisson [31, 32].

Otro enfoque es considerar el exceso de ceros por hypothesizing que hay dos grupos que contribuyen a la suma. En el contexto de la actividad física vigorosa, existe una subpoblación de los sujetos que nunca se dedique a cualquier actividad física vigorosa y no se contempla ningún cambio en el comportamiento. El segundo grupo de informes no vigorosa actividad física, pero son más susceptibles y tienen el potencial de aumentar su actividad física, sino que simplemente aún no han llegado a un umbral más allá del cero. Por lo tanto, son parte de un proceso de Poisson, que incluye una parte de los modelos de ceros, pero un creciente participación en la actividad física vigorosa. El primer grupo no es parte de este proceso.

Lambert [33] propuso un cero inflado Poisson (ZIP) modelo:

Donde p i es la probabilidad de ser un cero extra. En el ZIP modelo p i se determina, por lo general, por cualquiera de logística o un modelo probit, g (z i 'γ). Y μ i es el modelo de nuevo como exp (x i 'β). La x y la z puede representar el mismo conjunto de covariables o ser diferentes conjuntos. Sustituyendo la negativa binomial de Poisson para los rendimientos de los cero inflado binomial negativa (ZINB) modelo.

Este estudio analiza y compara la Poisson, más dispersas-Poisson, binomial negativo, ZIP y ZINB modelos de regresión.

Modelo comparaciones

Como se mencionó anteriormente, una prueba de razón verosimilitud, se pueden construir para comparar la Poisson a la negativa binomial de Poisson es desde la anidado dentro de la binomial negativa. Esta es una prueba de θ = 0 y sigue una distribución Chi-cuadrado con 1 grado de libertad. Del mismo modo, el modelo ZIP es anidada en el ZINB. Las comparaciones de la Poisson con el ZIP y el negativo con el binomio ZINB implicar nonnested comparaciones. De un enfoque común en el modelo de selección en estos casos es utilizar el Criterio de Información de Akaike (AIC) en el que el modelo elegido minimiza el criterio [34]. La AIC está disponible en muchos paquetes de computación. Además observó que la parcela predijo menos probabilidades de cada modelo para obtener las ilustraciones gráficas de ajuste. El predijo probabilidades se utiliza el enfoque en Long [[1], p. 228] y se ajustan para todas las covariables.

Todos los modelos están equipados usando SAS versión 8,1 [35]. La Poisson, más dispersas-Poisson, binomial negativo y están equipados utilizando el procedimiento GENMOD. El ZIP y ZINB los modelos están dotados del NLMIXED procedimiento. Sin embargo, los paquetes tales como STATA [36] y LIMDEP [37] también tienen programas específicos para el montaje esos modelos.

Resultados

El cuadro 1 muestra la distribución de frecuencia para el número de días de la VPA. De las 357 mujeres, 294 (82,4%) informe sin días de la VPA. Para los días 1 al 3 de los porcentajes varían desde 2,8% a 4,8%, disminuyendo a 0% y el 2,8% para los días 4 a 7. Aunque puede ser conveniente simplemente bulto días 1 al 7 de dicotomía juntos y el resultado como «ninguno versus cualquier VPA, hay información útil en la retención de parte de la intensidad de la respuesta. Está claro que una transformación de inducir a la normalidad con tal positivamente sesgada de datos no es factible.

El predictor de las variables seleccionadas son también muestra en el Cuadro 1. Por situación laboral actual, más del 50% se clasifican como "ama de casa / otros desempleados". Sin embargo, todos menos 13 de las 183 respuestas representan "ama de casa". El resto consiste de "estudiante" (2), "jubilado" (1), y "no se puede trabajar" (10), que refleja todas las categorías de empleo no. Años de educación formal están distribuidas de manera uniforme a través de las cuatro categorías. La muestra es predominantemente casadas (79,1%), no participa en el tabaco de forma regular (85,4%) y ha de regular a buena autovaloración del estado de salud (80,3%). Para efectos de análisis, la percepción de salud es tratada como una variable continua. La media de edad es de casi 40 años de edad. La media del índice de masa corporal (29,6 kg / m 2) sugiere que la muestra es límite obesos (IMC ≥ 30,0 kg / m 2). La media de puntuación de aculturación -1,82 indica la muestra tiende a ser orientada hacia la cultura mexicana.

Regresión de Poisson fue ajustado a los datos utilizando el procedimiento GENMOD de SAS. La proporción de la desviación de sus grados de libertad (df) es 1,99 y la ratio de la chi-cuadrado de Pearson para df es 3,27, que indica tanto el exceso de dispersión. El modelo de regresión binomial negativa se ajustó y arrojó una log-probabilidad de -282,8. La prueba de razón verosimilitud comparar la negativa a la binomial de Poisson, el que la prueba H 0: θ = 0, el rendimiento de una estadística de 277,4. La estimación de θ es de 6.94 (SE = 1,33). El binomio negativo se favorece más la de Poisson. El cuadro 2 muestra la regresión y el error estándar de las estimaciones y los valores de p para la Poisson, más dispersas-Poisson corregido utilizando GEE y la regresión binomial negativa. La excesiva dispersión de ajuste sólo afecta a los errores estándar, la no regresión estimaciones. Tenga en cuenta que los errores de Poisson estándar tienden a ser casi la mitad del tamaño de la GEE-corregido errores que dan lugar a nivel considerablemente (y errónea) los valores de p menor. El binomio negativo en comparación con el de Poisson afecta tanto a la regresión y el error estándar de las estimaciones. Aunque el GEE-corregida y resultados negativos binomio producir algo diferentes estimaciones de regresión, tanto determinar el IMC, la autovaloración del estado de salud y de la aculturación como Resultado asociados con VPA (p <0,05).

Luego, el ZIP y ZINB modelos fueron equipados NLMIXED utilizando el procedimiento de SAS. Prácticamente no hay diferencia en sus log-probabilidades (Tabla 3] que indica que el modelo ZINB no mejoró el ajuste sobre el modelo ZIP. La sobre-estimación del parámetro de dispersión es 0,0062 (SE = 0.106). Como era de esperar sobre la base de estos resultados, las estimaciones de parámetros y errores estándar de las estimaciones son casi idénticos. La AIC en la Tabla 3 indican una marcada preferencia de los más de la postal y el modelo de Poisson ZINB más de la modelo binomial negativo. En general, el criterio AIC favorece el modelo ZIP. Por último, la Figura 1 parcelas observó la proporción de menos de la media de probabilidad en cada país para cada uno de los cuatro modelos. Es evidente que la Poisson proporciona la peor forma. A los 0 días, la proporción es de 0,2 observado superior a la esperada; en 1 día, ocurre a la inversa. Esto no es sorprendente ya que el de Poisson es incapaz de dar cuenta de la gran proporción de ceros a la izquierda. Si bien el binomio negativo es una sustancial mejora con respecto a la de Poisson, a 1 día hay algunos sobreestimación de la proporción. El ZIP y ZINB modelos son prácticamente indistinguibles en la parcela y ambos se ajustaba a los datos bastante bien. Sobre la base de las pruebas oficiales y la cifra, el ZIP modelo parece ser el mejor ajuste. Proporciona la misma como el ZINB apropiado, pero es un modelo un poco más sencilla y tiene un poco más pequeña AIC.

El cuadro 4 se muestran los resultados del modelo ZIP. El odds ratio de las razones de tasas y se comunican más que las estimaciones de regresión coherente con la información de la forma de regresión logística y regresión de Poisson son típicamente reportados. La parte logística se basa en la probabilidad de cero días de la actividad física vigorosa. Más pobre autovaloración del estado de salud está relacionado (p = 0,023) a ninguna AF. Las probabilidades de no VPA se calcula que aumentará en casi un 50% (OR = 1,48, IC del 95%: 1,06, 2,08) para cada paso hacia la cada vez más pobre autovaloración del estado de salud. Una disminución de la aculturación Resultado está relacionado (p = 0,006) a no VPA. Esto significa que no vigorosa actividad física se asocia con una menor asimilación a la cultura anglo (OR = 0,57, IC del 95%: 0,39, 0,85). También encontramos que un aumento en el índice de masa corporal está asociado marginal (p = 0.062) sin actividad física vigorosa con un 7% de aumento en las probabilidades (OR = 1,07, IC del 95%: 0,99 a 1,14) por cada kg / m 2 Aumento en el IMC.

Por la parte de Poisson, la educación está relacionada con la VPA. La tasa de actividad es de dos veces mayor (RR = 2,12) al comparar cualquiera de una escuela secundaria de educación (95% IC: 1,21, 3,71), o de la universidad (95% IC: 1,19, 3,78) a 6 º grado o menos. Además, la edad es marginalmente relacionados (p = 0,068) a aumentar la VPA; cada 5 años de aumento de la edad aumenta la tasa de un 9% (RR = 1,09, IC del 95%: 0,99 a 1,19).

Conclusión

Aunque la regresión de Poisson se menciona como un enfoque adecuado para el análisis de los datos, no se suele ajustar los datos muy bien. La variabilidad extra puede ser manejado mediante modificaciones a la Poisson como las descritas en este documento. Estos modelos pueden ser especialmente útiles en muchas aplicaciones epidemiológica de la actividad física, la nutrición y los servicios de salud los resultados. Aunque los analistas podría considerar la posibilidad de clasificar tal desigual resultado, hay ventajas para el mantenimiento de una continua respuesta. El software es de fácil acceso para encajar estos modelos en los paquetes tales como SAS, STATA y LIMDEP. El propósito de este artículo es su utilidad para llevar a la atención de un público más amplio en la epidemiología.

En este ejemplo, el uso de VPA, observó la frecuencia de los ceros a la izquierda fue mayor de lo esperado en virtud de la regresión de Poisson. Nuestras opciones incluyen inflar el error estándar utilizando una técnica como la GEE, o modelado de los datos específicamente sobre la base de un marco subyacente proporcionada por el binomio negativo, ZIP o ZINB modelos. Se encontró que el modelo ZIP dado el mejor ajuste y puede proporcionar un interesante proceso en el que examinar las razones de la preponderancia de ceros a la izquierda.

En este estudio, encontramos que 82,4% de los sujetos no informó días de la actividad física. Estos resultados son consistentes con la literatura anterior [38 - 40]. Evenson et al. [38] llevan a cabo cara a cara española entrevistas con una muestra de 671 inmigrantes Latina y encontró que sólo el 16,8% se reunió VPA recomendaciones (≥ 20 minutos de duración de al menos tres días por semana). Se encontró que la VPA no se asoció con niveles más pobres de la autovaloración del estado de salud y una disminución de la aculturación menos puntuación que indica la asimilación a la cultura anglo. Se marginal asociado con el aumento de índice de masa corporal. El aumento de la intensidad de la VPA se relacionaba con niveles superiores de educación y marginal en relación con el aumento de la edad. Las comparaciones con los actuales resultados son difíciles de hacer habida cuenta de las diferencias en los resultados de la actividad física. Sin embargo, algunos se pueden hacer comparaciones.

Nuestras conclusiones respecto de la aculturación son consistentes con otras investigaciones que indican menos actividad física con menos aculturación. Por ejemplo, en el estudio NHANES, Crespo et al [23] encontró que mexicano-americanos que prefieren el idioma español tenían menos probabilidades de informar sobre cualquier actividad en tiempo libre. Del mismo modo, Cantero et al [41] indica que más aculturados las latinas tenían más probabilidades de hacer ejercicio regularmente. Resultados de la asociación entre la educación y la actividad física, el peso y el estado y la actividad física también están apoyados por los resultados de las investigaciones anteriores [17, 22]. Los datos cualitativos indican que las latinas que ejercen informó de mejor estado de salud, un resultado que está de acuerdo con la asociación observada en nuestro estudio [19]. Eyler et al [39] en comparación correlatos de la actividad física entre las mujeres de edades 20-50 años, a partir de diversos grupos raciales / étnicos y encontró latinas que calificaron su salud como excelente tenían más probabilidades de participar en la actividad física vigorosa (3-7 días / semana para 20 minutos a la vez) en comparación con aquellos que calificaron su salud como regular o mala. Las conclusiones de la edad en el estudio actual parecen estar en conflicto con la literatura existente. La mayoría de los informes indican que las latinas jóvenes son más propensos a participar en la actividad física [por ejemplo, [39]]. En conjunto, estos datos apoyan la necesidad de que los esfuerzos en curso para orientar las intervenciones de actividad física a menos aculturados latinas para evitar que continúe el aumento de peso y mejorar el bienestar.

Tenemos que ser cautelosos a la hora de aceptar el modelo ZIP estrictamente sobre la base del modelo de ajuste por sí solo y, por lo tanto, aceptar como prueba de la idea de dos subpoblaciones a cero [1, 4]. No obstante, parece razonable que una parte de las mujeres no están en condiciones de participar en la VPA, ya sea debido a una condición de salud u otros obstáculos no capturados por las covariables que hacen imposible participar en tales actividades. Considerando que hay otras mujeres que no reportan VPA, que podría participar en tales actividades, pero no a elegir, o hacer la VPA, pero limitado a tal punto de que se informó de cero días y representan un extremo de la intensidad de la VPA. Es sobre esta base que el ZIP modelo puede ser aceptado y podría contribuir a la descripción de diferentes perfiles de la mujer.

Aunque el binomio negativo no presentó un ajuste tan bueno como el modelo ZIP, es una mejora considerable respecto de la de Poisson y podría ser aceptable si las dos partes mecanismo parece inapropiado. El binomio negativos identificados disminuyendo el IMC, mejores niveles de autovaloración del estado de salud y un aumento de la aculturación como Resultado de predicción de aumento de la VPA. Estos son los mismos predictores identificados como parte de la logística de la modelo ZIP.

Nuestra elección de la postal más de la ZINB modelo se basaba en la parsimonia, ya que proporcionó un ajuste similar. ZIP El modelo no incluye el término de error aleatorio que permite a la varianza condicional de y i superior a la media condicional. Pero la interpretación de los modelos de regresión de los parámetros son los mismos para ambos modelos.

En este ejemplo de la VPA, el mismo conjunto de covariables utilizadas tanto para la parte logística y la parte de la intensidad y ZIP ZINB modelos. Esto no es necesario, y uno puede estar interesado en la construcción de una parsimoniosa modelo para cada una de las partes. Sin embargo, puede ser más informativo y hacer la interpretación más manejable si el mismo conjunto de variables se incluye en cada una de las partes.

Programas para ampliar binomial de Poisson y negativos de regresión a agruparse o datos longitudinales y están ampliamente disponibles incluyen el SAS GENMOD procedimiento utilizando GEE y la NLMIXED procedimiento de modelos de regresión de efectos mixtos. Los últimos trabajos se ha centrado en la ampliación de la ZIP. Por ejemplo, Yau y Lee [42] discutir un modelo de efectos aleatorios ZIP para examinar una intervención para prevenir las lesiones en un departamento de los servicios de limpieza de un hospital público en Australia. La variable de resultado fue el perjuicio contar recogidos en antes y después de períodos de intervención sobre los mismos temas. Hur, Hedeker, Henderson et al [43] describen un modelo ZIP con efectos aleatorios para analizar el número de complicaciones postoperatorias dentro de los 30 días en pacientes que recibieron una operación de la colectomía parcial. Los pacientes (n = 3501) fue de 123 Centros Médicos de Asuntos de Veteranos de Guerra. Así pues, los temas se agrupan dentro de los hospitales y esta agrupación debe ser tenido en cuenta en el análisis. Mayor desarrollo de software para los modelos ZIP está en marcha.

Conflicto de intereses

Los autores declaran que no tienen intereses en conflicto.

Contribuciones de los autores

DJS concebido y diseñado el estudio, llevado a cabo los análisis estadísticos y redactó la mayoría de los manuscritos. GXA participó en el diseño del estudio, la actividad física desarrollada ejemplo, y ha contribuido a la interpretación de los resultados. EMA participó en el diseño del estudio, contribuyeron al desarrollo de la actividad física y el ejemplo, la interpretación de los resultados. JPE participó en el diseño del estudio y ayudó a redactar el manuscrito. Todos los autores leído y aprobado el manuscrito final.

Agradecimientos

Esta investigación fue apoyada por el Instituto Nacional del Cáncer, Institutos Nacionales de Salud (subvención RO1 CA 81877).