PLoS ONE, 2007; 2(2): (más artículos en esta revista)

Estimación de máxima verosimilitud de la Binomial Negativa de parámetros de dispersión de datos altamente Overdispersed, con aplicaciones a las enfermedades infecciosas

Biblioteca Pública de la Ciencia
James O. Lloyd-Smith
Resumen
Fondo

La distribución binomial negativa se utiliza comúnmente en toda la biología como un modelo para overdispersed contar con datos, con la atención centrada en el binomio negativo parámetro de dispersión, k. Una literatura existe en la estimación de k, pero la mayoría de la atención se ha centrado en bases de datos que no son muy overdispersed (es decir, aquellos con k ≥ 1), y la exactitud de los intervalos de confianza estimados para k no suele ser explorado.

Metodología

Este artículo presenta un estudio de simulación a explorar el sesgo, precisión, intervalo de confianza y de cobertura de máxima probabilidad de las estimaciones de k muy overdispersed distribuciones. Además de explorar pequeña muestra sesgo en las estimaciones binomial negativa, el estudio aborda la estimación de datos influenciada por dos tipos de evento en virtud de cómputo y de transmisión de la enfermedad de datos sujetos a sesgo de selección para el éxito de los brotes.

Conclusiones

Los resultados muestran que las estimaciones de máxima verosimilitud de k pueden estar sesgadas al alza por el pequeño tamaño de la muestra o la notificación de clase cero eventos, pero no están sesgados por la baja de cualquiera de los factores considerados. Los intervalos de confianza estimados de la varianza muestral asintótica tienden a mostrar una cobertura por debajo del nivel nominal, con una sobreestimación de k que comprende la gran mayoría de los errores de cobertura. Estimación de brote de datos no aumenta el sesgo de k estimaciones, pero puede añadir importante sesgo al alza las estimaciones de la media. Dado que k varía inversamente con el grado de overdispersion, estos resultados muestran que la sobreestimación del grado de overdispersion es muy raro que estos conjuntos de datos.

Introducción

El binomio negativo (NB) tiene una amplia distribución de aplicaciones como modelo para contar con datos, en particular para exhibir datos overdispersion (es decir, con una muestra de variación superior a la media). En la literatura biológica, los clásicos usos de la NB distribución incluirá el análisis de cargas parasitarias, las especies que ocurren, sus ataques parasitoide, la abundancia de muestras y la agrupación espacial de la población [1] - [7]. La gama de aplicaciones de la NB distribución se amplió recientemente para incluir la epidemiología de directamente de las infecciones de transmisión, como la distribución NB ha demostrado ser un modelo adecuado para la "descendencia de distribución 'para una serie de enfermedades de transmisión de datos [8]. La descendencia de distribución, un concepto que se plantean en la teoría de los procesos de ramificación [9], es la distribución de probabilidad para el número de individuos (denominados "casos secundarios») infectados directamente por cada individuo infeccioso en un brote de la enfermedad. Nota: Estimación de parámetros para la distribución de crías empíricos revelan un alto grado de overdispersion-en particular para el síndrome respiratorio agudo severo (SRAS), el sarampión, la viruela y de señalización inesperadamente una gran influencia de la variación individual y «superspreading 'en la dinámica aparición de la enfermedad [8 ]. Sin embargo, los autores hicieron hincapié en los desafíos inherentes a la estimación de parámetros y NB los intervalos de confianza (IC) se asocia con las estimaciones, y señaló que el trabajo previo a la estimación de parámetros NB no habían explorado el parámetro varía de interés para estudios epidemiológicos. Una preocupación particular es la de si los resultados fueron influenciados por el pequeño tamaño de la muestra en los datos analizados, o sesgos propios de las enfermedades de transmisión de datos. Este estudio utiliza datos simulados para evaluar el sesgo y la precisión de las estimaciones NB parámetro de la cobertura y la precisión de las entidades de crédito para muy overdispersed bases de datos, hacer frente a los desafíos de los pequeños conjuntos de datos, así como los posibles sesgos derivados en el proceso de recopilación de datos.

La popularidad de la NB distribución se debe en gran medida a su capacidad de modelar los datos con distintos grados de overdispersion. La distribución es comúnmente expresado en términos de la media m y la dispersión de parámetros k tal que la probabilidad de observar un entero no negativo x es La diferencia de la distribución de NB es m (1 + m / k), y, por ende, disminuyendo los valores de k se corresponden con el aumento de los niveles de dispersión. La Poisson distribution se obtiene como k → ∞, y la distribución serie logarítmica se obtiene como k → 0 [1], [10]. Cuando k = 1, la distribución NB reduce a la distribución geométrica. Tenga en cuenta que los últimos trabajos en la literatura estadística utiliza la cantidad α = 1 / k, debido a sus propiedades para preferible inferencia (que se mencionan a continuación), pero los estudios la aplicación de la NB distribución en la ecología y epidemiología son abrumadoramente que se plantean en términos de k. En consecuencia, todos los cálculos de este estudio se llevaron a cabo utilizando α, pero todos los resultados y la discusión se plantea en términos de k. (Confusión, el término «dispersión parámetro 'puede hacer referencia a k o α; otros términos para incluir k' parámetro de forma» y «coeficiente de clustering").

La dispersión de parámetros k se utiliza comúnmente como una medida inversa de agregación en los datos biológicos [1] - [5], [8], [11], [12] y, sin embargo, su estimación de finito de datos es un problema reconocido. Muchos estudios de simulación han examinado la eficacia de diferentes estimadores de los parámetros de NB finito de datos [11], [13] - [16], [17; véase también el examen en 14], pero debido al precedente la mayoría de estos se han centrado en k ≥ 1 y por lo tanto, no se aplican a muy overdispersed datos. Una biológicamente por motivos de estudio hizo explorar los valores de k & lt; 1 [16], pero no la prueba de máxima probabilidad (ML) los métodos de estimación que se han convertido en estándar debido a su eficiencia y asintótica bajo el sesgo [12] [13], [17]. La pequeña muestra de la precisión de las estimaciones de ML k no ha sido probado para NB distribuciones con moderados a altos grados de overdispersion. Por otra parte, se ha prestado poca atención a la exactitud de las entidades de crédito de este tipo NB parámetros estimados. El primer objetivo de este estudio es, por tanto, para investigar el sesgo, precisión y cobertura CI ML exactitud de las estimaciones de k para muestras pequeñas. La investigación se centra en bases de datos con k & lt; 1, para hacer frente a la laguna en los estudios actuales, pero los resultados para k ≥ 1 se incluyen a establecer la continuidad con trabajos anteriores.

El segundo objetivo es investigar cómo las estimaciones de k se ven afectados por los posibles sesgos del proceso de recopilación de datos, sistemática, en particular, en virtud de cómputo de los acontecimientos y el sesgo de selección inherente en datos de brotes de enfermedades. La transmisión de la enfermedad de datos analizados por Lloyd-Smith et al. [8], se dividían en dos categorías amplias, la vigilancia y el brote de datos, cada uno de los desafíos que presenta debido a los procesos por los cuales los datos son generados y recogidos.

Vigilancia de datos combinar información sobre muchas introducciones aparte de una enfermedad en una población de los ejércitos. Empíricos descendencia distribuciones pueden construirse contando el número de casos secundarios infectados por el primer infecciosas individual en cada brote, pero haciendo caso omiso de todas las generaciones posteriores de transmisión (que a menudo no se informa en detalle, o puede verse influida por las medidas de control de los brotes). Los datos resultantes son análogos a muchas otras bases de datos en biología, la compilación de muchos registros independientes de procesos independientes. Conjuntos de datos de este tipo puede verse afectada por dos grandes clases de contabilidad en virtud del error. En primer lugar, los puntos de datos puede ser subestimado, debido a la posibilidad de que algunos de los casos secundarios se pasa por alto, un diagnóstico errado, o no localizar a la persona que les infectados. En segundo lugar, las personas que no transmiten la enfermedad puede ser más probable que se pierda por los programas de vigilancia, porque no iniciar un racimo de casos y, por tanto, tienen menos probabilidades de atraer la atención de las autoridades sanitarias. Por lo tanto los casos de un determinado valor (es decir, x = 0, sin la aparición de casos secundarios) puede ser sistemáticamente menores de contado en las muestras de vigilancia. Estas dos clases de bajo conteo de error son comunes a muchos tipos de datos biológicos [por ejemplo, 18], [19], [20].

Brote de bases de datos, que comprende la segunda categoría de transmisión de la enfermedad de datos, son más exclusivas de la epidemiología y la ecología de la enfermedad. Crías distribuciones procedentes de brote de datos incluyen el número de casos secundarios causados por muchas personas dentro de un único brote de la enfermedad. Estos datos surgen cuando varias generaciones de la epidemia se propagó (por lo general a principios de un brote, antes de las medidas de control impuestas) son totalmente reconstruido por el rastreo de los contactos, por lo que el número de casos secundarios causados por cada infecciosas caso se puede determinar. Lloyd-Smith et al. [8] mostró que, cuando el grado de infecciosidad es muy overdispersed (por ejemplo, cuando la distribución es de descendencia NB con k & lt; 1), muchos brotes morirán estocásticamente a cabo en sus primeras generaciones de extender. En tales situaciones, los brotes que sobreviven tienden a ser aquellas en las que un individuo altamente infecciosas (es decir, una persona cuyo número de casos secundarios se extrae de la mano derecha de la cola de la descendencia de distribución) aparece en las primeras generaciones [8]. Porque necesariamente brote de datos se han extraído de éxito de los brotes, existe la posibilidad de un sesgo de selección para una mayor proporción de individuos excepcionalmente infecciosas, o 'superspreaders' [21]. Intuitivamente, este riesgo parece ser particularmente graves para la descendencia distribuciones con valores medios más bajos, para que la epidemia del crecimiento depende más de oportunidad. (Tenga en cuenta que la media de la descendencia de distribución se corresponde con el número básico de reproducción R 0 de la enfermedad [8], [22]].

Métodos
2,1 Generación de conjuntos de datos simulados

Cuatro tipos de bases de datos simulados fueron examinados. En todos los casos, los conjuntos de datos integrado por los valores n, x i (i = 1, 2,…, n), generado como se describe a continuación. En el contexto epidemiológico que motivó este estudio, estos valores x i corresponde al número de casos secundarios que fueron infectadas por el n infecciosas diferentes individuos, sino datos similares podrían surgir de muchos otros procesos. Todas las simulaciones se realizaron utilizando Matlab v6.1 (MathWorks, Cambridge MA).

2,2 Estimación de parámetros de dispersión y el intervalo de confianza

Para cada una de estas clases de datos simulados, 10000 simulada de datos fueron generados para cada combinación de la media m = (0,5, 1,0, 3,0), la dispersión de parámetros k = (0,1, 0,3, 0,7, 1,0, 3,0, 10,0), y el tamaño muestral n = (10, 30, 100, 300), en un diseño factorial completo. Conjuntos de datos sin valores no nulos de x i fueron rechazadas, como k no puede ser estimado a partir de cero todos los datos. Para cada conjunto de datos simulados, la estimación ML k ̂ se determinó como se describe a continuación. El 90% IC se calculó, y se registró si el verdadero valor k cayó en el CI, por encima de su límite superior (denominado subestimar IC), o por debajo de su límite inferior (a sobreestimar IC). El 90% IC, fue estudiada en lugar del 95% debido a que el intervalo más valores extremos de k son más difíciles de estimar con exactitud, ya que coincide con resultados presentados en Lloyd-Smith et al. [8].

Una extensa literatura estadística existe en ML estimación de parámetros NB [1], [10], [11], [13], [15], [17]. Este trabajo demuestra que es mejor para hacer inferencias acerca de k indirectamente a través de su recíproco α = 1 / k, por dos razones. En primer lugar, el uso de la reciprocidad evita discontinuidades homogénea para bases de datos, porque el aumento de los rendimientos homogeneidad α → 0 en lugar de k → ∞. De hecho, hay una transición continua a los valores α <0 correspondiente a underdispersion (cuando muestra variación es inferior a la media), para lo cual la estimación directa de k es problemática [14], [25]. En segundo lugar, la distribución de muestreo para α tiende a ser más simétrica que no sea para k [13] (un ejemplo usando datos de brotes se muestra en la Fig. SI-1 del Lloyd-Smith et al. [8]].

En este estudio la estimación ML se llevó a cabo para el parámetro α, pero los resultados son presentados en términos de ̂ k = 1 / α ̂ k porque es más familiar para los epidemiólogos y los ecologistas. Las estimaciones de α ̂ se limita a valores positivos, ya que el rango permitido para k es (0, ∞). Underdispersed de datos se les asignó el valor mínimo de α ̂, correspondiente a k → ∞. Esta aproximación es razonable porque el estudio se centra en muy overdispersed NB distribuciones (con k &amp; lt; 1); estimación de α ̂ underdispersed de datos se analiza en profundidad en otro lugar [14], [15], [17], [ 25]. La estimación ML m de la muestra es decir, x ¯ [10]. La estimación ML de α fue determinado por la maximización numérica unidimensional del diario de función de verosimilitud [15], lleve a cabo utilizando los fminbnd función de Matlab 6,1 en el intervalo (0.001,1000). La terminación se fijó la tolerancia suficientemente pequeño insignificante precisión que se perdió en las estimaciones de inversión, directa y ML estimaciones de k (obtenida por aumentar al máximo la probabilidad diario de la función derivada de la ecuación (1)) combinado ̂ k = 1 / α ̂ a más allá de la cuarta posición decimal lugar. Las estimaciones de k ̂ por lo tanto, se han extraído de la gama (0.001,1000), que es mucho más amplia que la gama de k comúnmente estimada sobre la base de datos epidemiológicos (por ejemplo, la gama de k se ̂ [0.032,5.1] en 11 brote incontrolado de datos [8] , O [0.038,6.014] en 49 macroparasite carga de datos [4]]. NB distribuciones con k = 1000 y k → ∞ (la Poisson distribution) son indistinguibles en la práctica.

Los intervalos de confianza para k ̂ se estimaron a partir de la varianza asintótica de la distribución de muestreo, dada por la inversa de la matriz de información [24]. Por brote de 11 bases de datos, calcula los intervalos de esta forma son muy similares a las estimadas usando el sesgo corregido por los métodos de arranque (tanto paramétricos y no paramétricos) y la varianza asintótica a cero de la clase estimador de k [8]. Para las estimaciones de ML k ̂ o α ̂, las diferencias de muestreo asintótica ( o ) No puede expresarse en forma cerrada, pero son fácilmente calculado numéricamente [10], [17]. Estas diferencias están relacionadas por [13]. En este estudio Se calcula para cada conjunto de datos simulados, y el 90% IC para α ̂ se calcula como [α ̂-z 0,95 σ α ̂, α ̂ z + 0,95 σ α ̂], donde z 0,95 es el 95 percentil de la normal distribución [24]. El IC para k ̂ generado por invertir e invertir los puntos finales del intervalo de α ̂. Cuando α ̂-z 0,95 σ α ̂ <0, el límite superior del intervalo de ̂ k se supone que k → ∞.

Resultados
3,1 binomial negativa datos

Los resultados para inalterada NB datos se muestran en la Figura 1. Boxplots muestran la mediana, rango intercuartil (IQR) y [5 º, 95 º] percentil intervalo de 10000 ML estimaciones k ̂ para cada conjunto de parámetros, mientras que las líneas verticales muestran el verdadero valor de k. En general, las estimaciones están sesgadas al alza (es decir, favoreciendo los valores k ̂ &amp; gt; k), pero convergen en el verdadero valor k como el tamaño de la muestra n aumenta. Para un determinado n, la estimación tiende a ser menos sesgada (el valor medio de k ̂ está más cerca de k) y más preciso (el de IQRs k ̂ son más pequeños) para grandes valores de m y valores menores de k.

Números a la derecha de cada subparcela en la Figura 1 muestra la cobertura de la exactitud de entidades de crédito estimado para k ̂. Los dos números y / z muestran, respectivamente, el porcentaje de simulaciones para que el verdadero valor de k se situó por debajo y por encima de la estimación de IC. Para el 90% estima que los intervalos de aquí, perfecto cobertura rendimiento valores 5.0/5.0. Para casi todos los conjuntos de parámetros el porcentaje de CI sobrestima (cuando el límite inferior de la IC es superior a la verdadera k) es superior al 5%, a veces de manera sustancial. Este patrón se rompe sólo para los pequeños y grandes n k. Para todos los conjuntos de parámetros el porcentaje de CI subestima (cuando el límite superior del IC está por debajo de la verdadera k) es inferior al 5%. Cuando la proporción de CI sobrevalora es muy elevada (> 10%, por ejemplo), CI subestima tienden a ser casi inexistente. El verdadero alcance de la estima que el 90% IC (calculado como (100 - y - z)%) es generalmente inferior al 90%, aunque a menudo los enfoques para este valor n = 300. Una vez más, existe una excepción para las pequeñas y grandes n k, cuando realizaron la cobertura supera el 90% y alcanza el 100% en algunos casos (cuando el IC es muy amplio).

3,2 binomial negativa con uniforme de datos en virtud de cómputo

Los resultados de NB vigilancia de datos sujetos a uniforme bajo conteo se muestran en la Figura 2. Los resultados se muestran para dos valores de la probabilidad de que p u cualquier caso secundaria se pierde de vigilancia. Cuando u p = 0,2 (Fig. 2a], las estimaciones de k ̂ de estos datos difieren ligeramente de las estimaciones de los datos en bruto NB (Fig. 1], exhibiendo las mismas pautas cualitativas y ligeramente peor sesgo y precisión. Cuando u p = 0,5 (Fig. 2b], los resultados exhibidos similar, pero más extremos, las diferencias de los resultados en bruto NB.

3,3 binomial negativa con los datos en virtud de la presentación de informes de ceros

Resultados de la estimación de NB vigilancia de datos con la notificación de la clase cero, en el que los individuos que causó x i = 0 casos se omitieron de datos simulados con probabilidad p z, se muestran en la Figura 3. Por tanto p z = 0,2 (Fig. 3a] y p z = 0,5 (Fig. 3b], las estimaciones de k ̂ están sesgadas al alza significativamente. En particular, este efecto no disminuye como aumenta el tamaño de la muestra. De hecho, para la mayoría de conjuntos de parámetros el porcentaje de IC aumenta con la sobrestima n superior, como la distribución de muestreo se estrecha en torno al valor sesgado.

3,4 Brote de datos

Las estimaciones simuladas de brote de datos se muestran en la Figura 4. Para m = 0,5 y k &amp; gt; 0,1, no se presentan los resultados para n ≥ 100, ya menos de 1 en 10 5 simulada brotes llegado a 100 casos. Para otros valores de m y k, las estimaciones de k ̂ son bastante robusta (Fig. 4a]. Comparando estos resultados con las estimaciones de la figura 1, es evidente que las estimaciones de brote de datos tienen prejuicios similares (ligeramente positivo para los pequeños n, pero como la disminución de los aumentos n) y precisiones que son tan buenos ya veces mejores que las de NB inalterados los datos. El brote de datos un poco más de rendimiento sobreestimación de IC = m 3, a pesar de que el IQR y [5 º, 95 º] percentil intervalo de muestreo de la distribución es a menudo más pequeños. Brote de datos de rendimiento sobreestimación un menor número de CI para k = 0,1, m = 0,5 o 1,0, y n = 10 o 30.

ML estimaciones de la media se muestran para estos conjuntos de datos así como (Fig. 4b]. Hay una sorprendente evidente sesgo positivo en las estimaciones de m ̂ para m = 0,5; en todos los casos se muestra, la distribución de m ̂ ha mediana de las estimaciones de valor> 1 y el 5 º valor del percentil ≥ 1. Para m = 1, hay un sesgo al alza en las estimaciones m ̂ que disminuye a medida que aumenta el tamaño de la muestra. Para m = 3, el sesgo al alza persiste, pero es muy leves para k ≥ 0,3 ≥ n o 30.

Discusión

Este estudio hace tres nuevas contribuciones a la literatura establecida sobre la estimación de la dispersión NB parámetro k. Proporciona la primera evaluación completa de ML estimación de k por muy overdispersed datos (es decir, aquellos con k &amp; lt; 1); informes que la cobertura de la exactitud de las entidades de crédito procedentes de esas estimaciones, y se examinan los posibles sesgos en las estimaciones debido a métodos y errores de recopilación de datos, con aplicación a los datos epidemiológicos, en particular, y de datos biológicos en general. Los principales resultados cualitativos se resumen en la Tabla 1.

Los resultados de bases de datos inalterable NB confirmar y ampliar las conclusiones de estudios anteriores. Pequeña muestra las estimaciones de k ̂ fueron sesgadas hacia la sobreestimación k-y, por tanto, subestimar el grado de overdispersion en los datos-según lo informado en estudios previos utilizando ML y los correspondientes métodos de estimación para k ≥ 1 [14], [15], [17] . El sesgo positivo surge en k muestras más pequeñas porque tienen menos probabilidades de incluir los valores de la mano derecha de la cola de la distribución NB, sin que el conjunto de datos parece ser más homogénea. Las estimaciones de k ̂ eran menos sesgadas y más precisa de mayores valores de m, posiblemente porque este tipo de datos tiene mayor número total de no-cero. Las estimaciones fueron más parcial y menos preciso para los valores más altos de k (especialmente en los anteriormente estudiados gama de k ≥ 1), correspondiente a la conocida inestabilidad de las estimaciones ML cuando los datos están más cerca de ser instalado por una Poisson distribution [13]. Intuitivamente, este efecto se debe a que una distribución NB con k = 10 es cualitativamente similar a una con k = 50 o k ∞, y bastante disímiles a uno con k = 1, por lo que el rango de k ̂ estimaciones para muestras pequeñas tiende a ser grande y sesgada al alza.

Un anterior estudio de simulación [16], presentada en profundidad los resultados para la estimación de k &amp; lt; 1 (en concreto, para k = 0,4), empleando el método de momentos estimaciones k ̂ mamá en lugar de las estimaciones ML aquí. Ese estudio informó de que el tamaño de las muestras más pequeñas de datos NB condujo a la subestimación sistemática de la media y varianza y sobreestimación de k, la varianza y la media del ratio fue también sesgada hacia abajo por los pequeños n. Hay una interesante diferencia entre el método de momentos de estimaciones de resultados y Gregory Woolhouse [16] y el presente los resultados de la estimación ML: el sesgo positivo de k ̂ mamá se mantuvo bastante constante como el aumento de m (aunque el rango de k ̂ mamá valores para mayor inferior m), mientras que el sesgo de las estimaciones ML k ̂ disminuyó por mayor m (Fig. 1]. Es notable que los valores de m osciló entre 1,25 a 160 (para k = 0,4), mientras que los valores utilizados aquí osciló entre 0,5 y 3 (para k entre 0,1 y 10).

Varios destacados patrones surgido en relación con la realidad la cobertura de 90% IC, según las estimaciones utilizando la varianza asintótica de las estimaciones ML. El verdadero alcance de la nominal del 90% intervalos era típicamente menos del 90%, IC y sobrestima eran mucho más numerosos que subestima IC. Para todos los conjuntos de parámetros considerados, <5% de las entidades de crédito había límites superior por debajo del verdadero valor de k. La cuenta de la cobertura de entidades de crédito está impulsado por la interacción de dos factores: el valor de las estimaciones, k ̂, y la amplitud de los intervalos (determinado por muestreo la varianza, ). El sesgo al alza de k ̂ aumentos de valores más bajos de n y m y los valores elevados de k; valores más bajos de n, m, k o dar lugar a aumentos en y, por tanto, intervalos más amplios. Una sobreestimación de k ̂ favor IC sobrestima mediante el establecimiento de un alto punto medio para el cálculo de los intervalos, y por la reducción de la varianza muestral estimado (porque se calcula con un valor inflado de k) y lo que ha llevado a intervalos más estrechos. Las cifras brutas en los patrones de frecuencia de IC por lo tanto, se sobrestima impulsado principalmente por los patrones de sesgo en k ̂.

Para conocer los matices en los patrones de cobertura IC precisión, en particular para IC subestima y una sobreestimación de IC para los valores más altos de k, es necesario considerar la forma en que la IC se calculan. Recordemos que los intervalos se calcularon para α = 1 / k como [α ̂-z 0,95 σ α ̂, α ̂ z + 0,95 σ α ̂], luego convertida en intervalos de k. IC subestima para k se producen cuando α <α ̂-z 0,95 σ α ̂. La ausencia total de IC subestima en muchos pequeños-n conjuntos de parámetros se debe a que α ̂ <0,95 z σ α ̂ de tal manera que el límite inferior de la IC para α ̂ es <0. En estos casos, el límite superior del IC para k ̂ se configurará con el valor máximo de k ̂ y no puede ser superado. Como n, m, o aumenta k, σ α ̂ disminuye y la CEI estrecha de tal manera que algunos IC subestima ocurrir. Del mismo modo, IC sobrestima ocurrir cuando α> α ̂ z + 0,95 σ α ̂. Como k aumenta, IC sobrestima ser menos frecuente (a pesar de la alta frecuencia de ̂ sobrestima k) porque α = 1 / k es a menudo menor que z 0,95 σ α ̂. Porque α ̂ se ve limitada a valores positivos en estas simulaciones, se sobrestima IC imposible cuando α <0,95 z σ α ̂. En consecuencia, para determinados valores de k &amp; gt; 1, CI sobrevalora son más frecuentes de los valores más altos de n y m (correspondiente a valores más bajos de σ α ̂). Este estudio se centre en overdispersed bases de datos, y por lo tanto, en los valores positivos de k familiares para los biólogos, por lo tanto, ha influido en la determinación de la IC cobertura en algunas regiones del parámetro espacio. Procedimientos de estimación que permite underdispersed datos (α ̂ <0) pueden mostrar resultados diferentes. Los investigadores que requieren las entidades de crédito garantizado para llegar a los niveles nominales de cobertura debe consultar la bibliografía exacta sobre entidades de crédito para distribuciones discretas [por ejemplo, 26].

Los resultados de la simulación de la vigilancia y el brote de datos (Figs. 2 -- 4] puede interpretarse fácilmente a la luz de la cruda NB resultados antes mencionados. Para conjuntos de datos donde los valores individuales corresponden a acontecimientos totalmente inconexos (por ejemplo, la vigilancia epidemiológica de varias introducciones independientes de una enfermedad, o muchas otras observaciones biológicas), los efectos de dos formas de falta de notificación fueron evaluados. En virtud del uniforme de cómputo, cada instancia de la cantidad que se contó (por ejemplo, la aparición de casos secundarios, en el contexto epidemiológico) puede ser pasado por alto con la misma probabilidad p u. El valor esperado de cada dato x i en el conjunto de datos primarios (extraídos de una Nota de distribución con parámetros m y k) se reduce a (1 - u p) x i, y la distribución resultante es NB con parámetros (1 - p u) m y k (como se ha señalado en relación con el tema de "toda la población las medidas de control 'de Lloyd-Smith et al. [8]]. De este modo uniforme en virtud de cómputo no introducir sesgo sistemático a las estimaciones de ML k, pero causa un ligero aumento en la pequeña muestra de los prejuicios y la disminución de precisión (Fig. 2] correspondiente a los efectos de una menor media, como caracteriza por crudo Nota: los datos (Fig. 1].

En contraste, la segunda clase de presentación de informes en virtud de sesgo, en la que x i = 0 acontecimientos se han omitido de datos con probabilidad p z, conduce a la sobreestimación sistemática de k que no desaparecen como n aumenta (Fig. 3]. NB distribuciones con bajo k se caracterizan por una gran cero clases y largas colas (que dio lugar a la gran diferencia-a-significa ratios que definen overdispersion). La disminución de la proporción de ceros (de ahí la sustitución de x i = 0 eventos de x i> 0 eventos) da lugar a una mayor muestra significa m ̂ y muestra menor diferencia ŝ 2. Como es fácilmente vista desde el método de momentos estimador k ̂ mamá ̂ m = 2 / 2 - ̂ m) [10], esto sesgo de las estimaciones de k a los valores más altos. Los investigadores deben estar atentos para esta clase de informes en virtud de prejuicios, y llevar a cabo utilizando una estimación de cero modificado la distribución NB [27] si bajo cero conteo se sospecha.

Brote de datos implica un mecanismo de generación de datos que es particular a epidemiológica (o demográficos) procesos. A principios de los análisis han demostrado que cuando las crías son muy distribuciones overdispersed (por ejemplo, con k NB &amp; lt; 1), los brotes de éxito que tienden a ser aquellos con principios de superspreading eventos [8]. Los presentes resultados muestran que ello no cause una subestimación de los k como se había temido; estimaciones de k ̂ de datos de brotes (Fig. 4a] exhiben propiedades similares a los de NB datos en bruto (Fig. 1]. De hecho, las estimaciones brote había sesgo ligeramente más pequeños y una mayor precisión para n menor, probablemente porque el uso de datos de brotes (con prioridad a la incluida alto x i eventos) es contraria a la habitual en pequeña muestra de parcialidad (que se plantea porque los pequeños conjuntos de datos a menudo carecen de alto x i eventos). Por lo tanto, el sesgo de selección inherentes a los actos brote de datos para compensar un poco la habitual sesgo al alza en las estimaciones de k ̂.

En marcado contraste, la estimación de m ̂ de brote de datos (evaluada por la simulación, ya que, a diferencia de la vigilancia de los casos, el sesgo potencial no puede ser calculado directamente) está fuertemente sesgado al alza m cuando está por debajo o cerca de 1 (Fig. 4b]. Lo cual no es sorprendente ya que el valor mínimo de m ̂ de un brote con n casos (n -1) / n (para un brote que muere a cabo inmediatamente después del caso n º), mientras que los valores más altos son bastante factible. (Recordemos que m ̂ se calcula como la media del número de casos secundarios generados por los primeros n casos en un brote, independientemente de si el brote continúa más allá de n los casos. Si el número acumulado de casos después de la r ª generación de transmisión es j, entonces el valor medio de x i para i = 1 hasta j es (j-1) / j. Si el n º caso, entonces se produce en el (r +1) ª generación de la transmisión, entonces todas las infecciones causadas por el final n - j las personas en el conjunto de datos (es decir, x i para i = j a n +1) sirven para inflar ̂ m por encima de su valor mínimo de (n -1) / n.) El mayor sesgo en m ̂ baja se produce para k n y, cuando las grandes superspreading acontecimientos de la última generación puede tener efecto desproporcionado sobre la muestra media. Para m = 1,0, el sesgo disminuye a medida que aumenta n, probablemente debido a mayor-n de datos de la participación de más generaciones de la transmisión de la enfermedad, por lo que la "izquierda-sobre los casos de la última generación (es decir, el final n - j individuos en el ejemplo anterior) hacer una pequeña contribución proporcional. Para m = 3,0, no existe un sesgo importante para todos los parámetros (con una pequeña excepción para k = 0,1 y n = 10).

Los resultados presentados aquí sugieren varias vías para la labor futura. Este estudio se ha centrado en la estimación ML sólo, y sería provechoso para ampliar las conclusiones a otros métodos de estimación de k, como máximo cuasi-riesgo [14], método de momentos con pequeña muestra de corrección [16], o corregido por el sesgo ML [17]. Nuevos estudios sobre la estimación de m ̂ será interesante, sobre todo en el contexto epidemiológico, donde la media de la descendencia de distribución es equivalente a la cantidad crucial R 0 [8], [22]. En particular, será importante para saber cómo overdispersion la observada en las enfermedades de transmisión de datos [8] influye en la estimación de R 0 de continuo a tiempo los datos de brotes como el diario de informes de casos [28], [29], frente a la estimación directa de conoce las cadenas de transmisión como aquí. Overdispersed descendencia distribuciones de causar brotes, ya sea a morir a cabo estocásticamente o crecer explosivamente [8], por lo que la estimación de R 0 diaria de los informes de casos (brotes de éxito sólo, necesariamente) puede mostrar más allá de los prejuicios que se muestra en la Figura 4b.

En resumen, este estudio mostró que hay un mínimo riesgo de subestimar k-y, por ende, de sobreestimar el grado de overdispersion en los datos debido al pequeño tamaño de la muestra o de cualquiera de los tres sesgos proceso que aquí se consideran. Hay riesgo de sobreestimación k, sobre todo cuando el tamaño de las muestras son pequeñas o la clase cero-es sistemáticamente menores de contado. Todas las desviaciones sistemáticas identificadas en este estudio a favor de los valores más altos de k ̂, y casos en los intervalos de confianza excluyen el verdadero valor k eran predominantemente sobrestima. Tenga en cuenta que independiente del riesgo de subestimar k pueden derivarse de la puesta en común de datos de grupos heterogéneos: la dispersión parámetro estimado a partir de datos agrupados es casi siempre inferior a la media de los valores estimados para cada uno de los grupos [11], [16]. En cuanto a los tamaños de las muestras para NB datos con k ≤ 1, n = 100 o más permite exacta y precisa ML estimación de k ̂, mientras que para n = 30 la mediana de las estimaciones muestran un mínimo sesgo de muestreo, pero la distribución asimétrica de altos valores. Una muestra de 10 estimaciones de los rendimientos poco fiables, sobre todo para m ≤ 1. Estos resultados ayudarán a guiar el diseño de los futuros regímenes de muestreo, o, cuando el tamaño de la muestra no puede ser aumentado, se ayuda a los investigadores comprender las limitaciones de las estimaciones de ML k ̂ y las entidades de crédito.

Agradezco a Leo Polansky, Sadie Ryan y María Sánchez útil para los comentarios sobre el manuscrito.