Información

Recuperación de captura de Bootstrap paramétrico

Recuperación de captura de Bootstrap paramétrico


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy usando la captura de recaptura (una muestra) para estimar la población humana oculta. Un método de muestra utiliza puramente frecuencias de captura para estimar la población. Uno de mis colegas sugirió el método de arranque paramétrico para evaluar la variabilidad de la estimación del tamaño de la población. Traté de investigar un poco en línea sobre este método de arranque paramétrico, pero todavía no entiendo cómo se realiza. Sé que el bootstrapping es básicamente volver a muestrear datos con reemplazo y luego calcular la varianza de los mismos. Sin embargo, ¿cómo realizo el bootstrapping paramétrico (supongo que las frecuencias de captura siguen la distribución de Poisson) en los datos de captura y recaptura? ¿Tratamos las frecuencias como datos, es decir, si f (1) = 100 yf (2) = 9, nuestros datos tienen 100x 1 y 9x 2 y luego volvemos a muestrear esto? ¿La probabilidad de captura diaria es el parámetro $ lambda $ en la distribución de Poisson?

Supongo que lo que estoy tratando de preguntar es, ¿cómo se realiza el bit de muestreo de un bootstrap paramétrico [en la captura y recaptura]?


Investigué un poco y creo que funciona así:

  1. Recopile un conjunto de datos de $ n $ observaciones.

  2. Ajuste un modelo paramétrico a sus datos. Si desea modelar las recapturas, sugeriría un Poisson-GLM. También puede estimar el parámetro directamente a partir de sus datos y simplemente parametrizar una distribución de Poisson. Sin embargo, este enfoque no modelaría la variación aleatoria en sus datos.

  3. Utilice el modelo ajustado para dibujar una muestra de tamaño $ n $

  4. Calcule su métrica deseada según la muestra. Supongo que en su caso este sería el tamaño de la población humana (calculado como $ {N} = frac {nM} {m} $?)

  5. Repita los pasos 3 y 4 muchas veces (1000+)

  6. ¡Ahí tienes! Ahora puede evaluar fácilmente la variabilidad en el tamaño de la población en función de las estimaciones de sus muestras de arranque.


Métodos de captura y recaptura de datos sobre la activación de aplicaciones en teléfonos móviles

Este trabajo se ocupa del análisis de datos de marketing sobre la activación de aplicaciones (apps) en dispositivos móviles. Cada aplicación tiene un número de identificación hash que es específico del dispositivo en el que se ha instalado. Este número puede ser registrado por una plataforma en cada activación de la aplicación. Las activaciones en el mismo dispositivo se vinculan entre sí mediante el número de identificación. Al centrarse en las activaciones que tuvieron lugar en la ubicación de una empresa, se puede crear un conjunto de datos de captura y recaptura sobre los dispositivos, es decir, los usuarios, que "visitaron" la empresa: las unidades son propietarios de dispositivos móviles y las ocasiones de captura son intervalos de tiempo tales como días. Una unidad se captura cuando activa una aplicación, siempre que esta activación sea registrada por la plataforma que proporciona los datos. Las técnicas estadísticas de captura y recaptura se pueden aplicar a los datos de la aplicación para estimar el número total de usuarios que visitaron la empresa durante un período de tiempo, proporcionando así una estimación indirecta del tráfico peatonal. Este artículo argumenta que el diseño robusto, un método para lidiar con un experimento anidado de marcado-recaptura, puede usarse en este contexto. Se propone un nuevo algoritmo para estimar los parámetros de un diseño robusto con un número bastante grande de ocasiones de captura y un estimador de varianza de arranque paramétrico simple. Además, se introducen nuevos métodos de estimación y nuevos resultados teóricos para una aplicación más amplia del diseño robusto. Esto se utiliza para analizar un conjunto de datos sobre los dispositivos móviles que visitaron los concesionarios de automóviles de una importante marca de automóviles en un área metropolitana de EE. UU. Durante un período de 1 año y medio. Los materiales complementarios de este artículo, incluida una descripción estandarizada de los materiales disponibles para reproducir el trabajo, están disponibles como un suplemento en línea.


Introducción

El estudio de la abundancia poblacional y el análisis de sus fluctuaciones en el tiempo, es decir, la dinámica poblacional, constituye una herramienta fundamental en el monitoreo, conservación y manejo adaptativo de la vida silvestre 1,2. Sin embargo, a menudo es difícil obtener estimaciones confiables del tamaño de la población, o incluso evaluar con precisión la presencia de especies, dado que las especies dentro de una comunidad y los individuos dentro de una población generalmente se detectan de manera imperfecta 1,3. Para tener en cuenta la detección imperfecta, los investigadores desarrollaron varios métodos para obtener estimaciones confiables de abundancia, como captura-marca-recaptura (CMR), remoción y muestreo a distancia 1,4. Estos métodos se basan principalmente en la identificación individual o en algún tipo de datos auxiliares (por ejemplo, en el muestreo de distancia, la distancia perpendicular entre la observación y el transecto) que pueden ser costosos en términos de costos y esfuerzos, poco prácticos de recopilar o incluso inadecuados en entornos complejos o para especies pequeñas y reservadas. Durante los últimos quince años, el desarrollo y la aplicación de modelos de mezcla de N 5, que permiten la estimación simultánea de la abundancia y la probabilidad de detección, recibió un gran interés por parte de los ecólogos de campo 6. Estos métodos se basan en conteos repetidos de individuos en múltiples sitios (por ejemplo, transectos lineales o parcelas) y son altamente rentables 7,8. Más recientemente, se han formulado algunas extensiones de estos modelos para varios tipos de datos distintos de los recuentos simples, como la eliminación o los datos de doble observador 9, para modelar poblaciones abiertas con un diseño robusto 10, o incluso para modelar la abundancia de especies específicas de especies. conjuntos o comunidades enteras 6,11. Otra característica importante de los modelos de mezcla de N es la capacidad de modelar tanto el proceso de observación (es decir, la probabilidad de detección) como los procesos ecológicos (por ejemplo, la abundancia) en función de las covariables ambientales, lo que permite inferencias ecológicas sobre la abundancia y la densidad o para abordar la gestión y la conservación. acciones 12,13. El uso cada vez mayor de modelos de mezclas de N en esquemas de monitoreo y estudios ecológicos llevó a un interés creciente en su confiabilidad. De hecho, varios estudios plantearon problemas con respecto a la identificabilidad de los parámetros cuando se violan los supuestos del modelo o en presencia de fuentes no modeladas de heterogeneidad en los procesos de abundancia o detección 14,15. Sin embargo, a pesar de los problemas planteados, muchos estudios recientes confirmaron la confiabilidad de esta familia de modelos en aplicaciones de la vida real: comparándolos con una variante jerárquica de un modelo de captura-recaptura 16, o comparando estimaciones de abundancia obtenidas mediante N- modelos de mezcla frente a los estimados con métodos ampliamente aceptados, como CMR, remoción o muestreo a distancia 7,17,18,19,20. Aunque el modelado de mezcla de N se puede emplear en muchas situaciones, este enfoque generalmente se basa en un diseño de metapoblación, en el que se obtienen recuentos repetidos de individuos en múltiples ubicaciones de muestreo a lo largo del tiempo 6. Sin embargo, particularmente cuando se trata de especies con un rango geográfico muy estrecho y pocas poblaciones conocidas, un protocolo de monitoreo replicado espacialmente puede ser impracticable, y solo los datos para poblaciones individuales en años sucesivos pueden estar disponibles. En estas situaciones, la aplicación de la sustitución de tiempo por espacio (TSS) en el marco de modelado de mezclas de N puede ser una opción adecuada para monitorear una población en un solo sitio durante varios años 20,21. La sustitución de tiempo por espacio se aplica cuando se realizan múltiples recuentos en intervalos de tiempo regulares (por ejemplo, meses, estaciones o años) en el mismo sitio, y se utilizan réplicas de tiempo (es decir, años) en lugar de réplicas espaciales (es decir, sitios), mientras que Los conteos repetidos dentro de un año (es decir, encuestas) se emplean como réplicas temporales, considerando la población demográficamente cerrada dentro de cada año. Este marco se ha empleado para un sistema de especies múltiples con datos de detección / no detección de especies de aves obtenidos durante nueve años consecutivos en un solo sitio en Japón 21. También se ha aplicado en un conjunto de datos que abarca 20 años de una población en declive de un gecko en peligro de extinción en Italia, encontrando un buen acuerdo con las estimaciones de CMR obtenidas a partir de los mismos datos y, por lo tanto, validando el marco TSS en una aplicación de la vida real 20. Aunque ya existe una evaluación de esta técnica frente a un pequeño escenario de simulación, se ha destacado la necesidad de una evaluación en profundidad a través de un marco de simulación más extenso 6.

El objetivo de este estudio es proporcionar una evaluación de la confiabilidad de TSS aplicado a modelos de mezcla de N y, en particular, evaluar la confiabilidad de las estimaciones de abundancia y tendencia en varios escenarios, incluidas diferentes dinámicas de población, abundancia inicial, probabilidad de detección, esfuerzo de prospección. o duración del estudio, mediante la simulación de datos de conteo de una sola población encuestada varias veces al año y sujeta a diferentes dinámicas, y luego comparando la abundancia real y los valores de tendencia con estimaciones de TSS.


Estimación del tamaño de la población con detección imperfecta utilizando un bootstrap paramétrico

Lisa Madsen, Departamento de Estadística, Universidad Estatal de Oregon, 239 Weniger Hall, Corvallis, OR 97331.

Servicio Geológico de EE. UU., Corvallis, Oregón

Departamento de Estadística, Universidad Estatal de Oregón, Corvallis, Oregón

Servicio Geológico de EE. UU., Corvallis, Oregón

Servicio de Pesca y Vida Silvestre de EE. UU., Dillingham, Alaska

Departamento de Estadística, Universidad Estatal de Oregón, Corvallis, Oregón

Lisa Madsen, Departamento de Estadística, Universidad Estatal de Oregon, 239 Weniger Hall, Corvallis, OR 97331.

Servicio Geológico de EE. UU., Corvallis, Oregón

Departamento de Estadística, Universidad Estatal de Oregón, Corvallis, Oregón

Servicio Geológico de EE. UU., Corvallis, Oregón

Servicio de Pesca y Vida Silvestre de EE. UU., Dillingham, Alaska

Inicio de sesión institucional
Inicie sesión en la biblioteca en línea de Wiley

Si ya ha obtenido acceso con su cuenta personal, inicie sesión.

Comprar acceso instantáneo
  • Consulte el PDF del artículo y los suplementos y cifras asociados durante un período de 48 horas.
  • El artículo puede no ser impreso.
  • El artículo puede no ser descargado.
  • El artículo puede no ser redistribuido.
  • Visualización ilimitada del PDF del artículo y de los suplementos y figuras asociados.
  • El artículo puede no ser impreso.
  • El artículo puede no ser descargado.
  • El artículo puede no ser redistribuido.
  • Visualización ilimitada del PDF del artículo / capítulo y de los suplementos y figuras asociados.
  • El artículo / capítulo se puede imprimir.
  • El artículo / capítulo se puede descargar.
  • Artículo / capítulo puede no ser redistribuido.

Abstracto

Desarrollamos un método novedoso para estimar el tamaño de la población a partir de recuentos de individuos detectados de manera imperfecta y una estimación separada de la probabilidad de detección. Los recuentos observados se dividen en clases dentro de las cuales se supone que la probabilidad de detección es constante. Dentro de una clase de detección, los recuentos se modelan como una única observación binomial. X con probabilidad de éxito pag donde el objetivo es estimar el índice norte. Usamos un estimador similar a Horvitz-Thompson para norte y tener en cuenta la incertidumbre tanto en los datos de muestra como en la probabilidad de éxito estimada mediante un bootstrap paramétrico. A diferencia de los métodos de captura-recaptura, nuestro modelo no requiere un muestreo repetido de la población. Nuestro método es capaz de lograr buenos resultados, incluso con pequeños X. Mostramos en un estudio de simulación factorial que la mediana de la muestra bootstrap tiene un pequeño sesgo en relación con norte y que las probabilidades de cobertura de los intervalos de confianza para norte son casi nominales en una amplia gama de escenarios. Nuestra metodología comienza a fallar cuando PAG(X= 0) & gt0.1 pero aún es capaz de obtener una cobertura de confianza razonable. Ilustramos la técnica propuesta estimando (1) el tamaño de una población de alces en Alaska y (2) el número de muertes de murciélagos en una instalación de energía eólica, ambas a partir de muestras con probabilidades de detección imperfectas, estimadas de forma independiente.


Métodos

Descripción del estudio de simulación

En el estudio de simulación, creamos 500 conjuntos de datos con 5000 casos cada uno. La fecha de nacimiento y el sexo de los casos se tomaron como muestra de las distribuciones de la fecha de nacimiento y el sexo de los casos reales de ENI encontrados en la vigilancia centinela. La selección de códigos postales fue ponderada por el número de residentes de 50 años y más registrados en estos códigos postales. Ocho escenarios diferentes determinaron cómo y qué casos fueron detectados por tres sistemas de vigilancia diferentes. En el resto del texto, estos sistemas se denominarán centinela, Centro Nacional de Referencia (NRC) y muestra de hospital. Los escenarios se dan a continuación.

Muestreo aleatorio (METROt): Se detectaron casos con la misma probabilidad. El número de casos detectados en una muestra se determinó por el número de detectores participantes (laboratorios, hospitales) sobre el número total de detectores ().

Muestreo dependiente de covariables (METROth.la edad): La probabilidad de ser detectado por una de las tres muestras aumentó (ponderaciones de probabilidad = la edad(dias) ^ 2.5) con la antigüedad del caso. Un caso de 100 años tenía 2 ^ 2,5 veces más probabilidades de ser detectado que un caso de 50 años. El tamaño de las muestras se determina como en un muestreo aleatorio ().

Heterogeneidad espacial (METROth.escupió): La probabilidad de ser detectado está determinada por la ubicación del caso, en relación con la ubicación de los detectores. Un caso es detectado por uno de los tres detectores más cercanos. Este detector no participa necesariamente en un sistema de vigilancia específico. El subconjunto de detectores que participaron en una red de vigilancia se basó en el conjunto de datos de IPD. La probabilidad de captura es igual para los tres detectores más cercanos. El tamaño de las muestras se determina como en un muestreo aleatorio ().

Referencias (METROtuberculosis.árbitro): Después de un muestreo aleatorio, los casos se remitieron de una muestra a la otra 30% de los casos de laboratorio centinela se remitieron a la NRC, el 40% de los casos hospitalarios se remitieron a la NRC

A cada caso se le asignó una variable ID única durante la simulación. Los sistemas de vigilancia enumeraron los casos capturados después de los cuales las listas se fusionaron con la variable ID. Para cada ejecución de simulación de cada escenario, había un conjunto de datos final, que constaba de las características del caso (ID, código postal, fecha de nacimiento, sexo, edad) y características de captura (laboratorio de detección, hospital de detección, distancia al laboratorio de detección, distancia al hospital de detección, fecha de detección e historial de detección).

Solo en los escenarios anteriores METROt (muestreo aleatorio) no tiene una fuente de dependencia. Los escenarios que introdujeron dependencia se compararon con el escenario de muestreo aleatorio para demostrar el efecto de la dependencia. El efecto del muestreo por edad se ilustró comparando las densidades de la probabilidad de captura en el escenario dependiente de covariables (METROth.la edad) y el escenario aleatorio (METROt). La heterogeneidad espacial se ilustró con una función de riesgo relativo suavizada por el núcleo calculada por el paquete R “sparr” [28]. El riesgo relativo representa la razón de probabilidades de detección (METROth.escupió/METROt). El efecto de las remisiones se ilustró calculando la razón de probabilidades para la detección en una muestra mediante la detección en otra muestra. Además, construimos cuatro escenarios más en los que se combinaron estas fuentes de heterogeneidad. Tres escenarios (METROth.la edad.escupió, METROthb.la edad.árbitro, METROthb.escupió.árbitro) tenía dos y un escenario (METROthb.la edad.escupió.árbitro) tuvo tres fuentes de heterogeneidad.

Descripción de los conjuntos de datos belgas sobre enfermedades infecciosas

Tanto la población de ENI como la de tos ferina se estimaron mediante estudios de tres muestras. Los conjuntos de datos se emparejaron por un conjunto de características de casos (código postal, sexo, fecha de nacimiento) ya que no había un identificador de caso único. Si se detectaban casos con identificadores idénticos con más de 90 días de diferencia, se trataba como casos únicos. Las propiedades del algoritmo de emparejamiento y el análisis de sensibilidad adicional se describieron en el Apéndice S1. Los datos fueron recolectados bajo aprobación ética o legislación. El estudio neumocócico hospitalario fue aprobado por el comité ético de KULeuven. Los Centros Nacionales de Referencia están legislados por KB 02/09/2011. La notificación obligatoria en Flandes está regulada por la "preventiedecreet 21/11/2003". La notificación obligatoria en Valonia está regulada por el "contrôle de la sécurité sanitaire 1/07/1998". Para la vigilancia del laboratorio centinela, se ha enviado una declaración a la comisión de privacidad belga.

Estudio de DPI hospitalario.

En Bélgica, se llevó a cabo un estudio epidemiológico hospitalario de la ENI en adultos entre 2009 y 2011 [29]. El estudio fue coordinado por una asociación público-privada. Los adultos hospitalizados con ENI confirmada microbiológicamente fueron elegibles para su inclusión. Limitamos el conjunto de datos a los datos de adultos de 50 años o más y solo consideramos los datos recopilados entre el 1 de julio de 2009 y el 30 de junio de 2011.

Centros nacionales de referencia (NRC).

La NRC analizó los aislamientos que recogieron ellos mismos y los aislamientos que recibieron de los laboratorios belgas. Los aislamientos se enviaron a la NRC de forma voluntaria, pero recomendada. Los objetivos de un NRC eran: confirmación y caracterización adicional de la cepa (sero y genotipificación) y determinación de la resistencia a los antibióticos [30]. La NRC para B. tos ferina fueron el laboratorio del Hospital Universitario de Bruselas y el Instituto de Salud Pública. Se consideró que un título de anticuerpos IgG contra la toxina de la tos ferina (PT) & gt125 UI / ml, la PCR positiva o el cultivo reflejaban una probable infección aguda por tos ferina. El conjunto de datos de la NRC consistió en casos belgas con muestras recolectadas en 2014.

El laboratorio del Hospital Universitario de Lovaina es el NRC para aislamientos invasivos de steotococos neumonia bacterias. El conjunto de datos de DPI se limitó a los aislados obtenidos de sitios normalmente estériles, en adultos de 50 años o más, entre el 1 de julio de 2009 y el 30 de junio de 2011.

Red de laboratorios centinela.

steotococos neumonia y Bordetella pertussis fueron dos de los 36 patógenos cuya vigilancia se organizó a través de una red centinela de laboratorios [31]. La vigilancia se inició en 1983 y consistió en laboratorios hospitalarios y laboratorios privados. La red fue coordinada por el Instituto de Salud Pública. El conjunto de datos de DPI se limitó a los aislados obtenidos de sitios normalmente estériles, en adultos de 50 años o más, entre el 1 de julio de 2009 y el 30 de junio de 2011. El conjunto de datos de tos ferina consistió en todos los casos detectados en 2014.

Notificación obligatoria.

La notificación de los casos confirmados de tos ferina era obligatoria en las tres regiones belgas. La notificación fue coordinada por las agencias regionales de salud pública. Los médicos y los laboratorios estaban obligados a notificar los casos, pero se sospechaba que la notificación estaba incompleta. El conjunto de datos de tos ferina consistió en todos los casos notificados en 2014.

Estimadores

Se utilizaron cinco métodos diferentes en el estudio de simulación. Se utilizaron los mismos métodos para la estimación de la población con tos ferina y EPI. Los métodos se han utilizado previamente en estudios epidemiológicos de captura-recaptura. Seleccionamos el modelado loglineal, la verosimilitud multinomial (condicional), los estimadores no paramétricos de Burnham's jackknife y la cobertura muestral de Chao y el modelado directo de la estructura de dependencia subyacente con el software bayesiano WinBUGS (tabla 1). En el Apéndice S1 se ofrece una breve descripción de los estimadores utilizados.


Discusión

Nuestro estudio proporcionó, por primera vez, una estimación del número total de nuevos diagnósticos de VIH en niños menores de 13 años en Francia continental durante el período 2003-2006 (N = 387). La integridad del sistema de notificación obligatoria (DOVIH) y la Cohorte perinatal francesa (EPF) fue inferior al 30%. El número observado de casos en las tres fuentes vinculadas fue del 56%.

Limitaciones y fortalezas

Las posibles violaciones de los supuestos subyacentes de captura-recaptura podrían influir en la validez de nuestros resultados. Nuestras estimaciones deben interpretarse con cautela porque los criterios del método de captura-recaptura no se han cumplido completamente [8].

Identificación de casos comunes

La vinculación de registros se realizó mediante una combinación de identificadores, incluido el año de nacimiento. Se identificó un número limitado de casos comunes entre registros y se confirmaron mediante la validación manual posterior, minimizando así la violación del supuesto de vinculación de registros perfecta. Es posible que se hayan perdido vínculos entre la fuente LaboVIH y las otras 2 fuentes, lo que podría dar como resultado una subestimación o una sobreestimación del número de nuevos diagnósticos de VIH.

Población cerrada

El período de estudio y el área geográfica fueron los mismos para todas las fuentes. Sin embargo, se estimó que la cohorte de EPF cubría al 70% de las mujeres embarazadas VIH positivas, lo que podría haber introducido un sesgo, que daría lugar a una sobreestimación o subestimación de nuestros resultados.

Independencia entre fuentes

Antes del análisis se sospechaba la dependencia positiva entre las fuentes DOVIH y EPF. La mayor conciencia de los pediatras que participan en la cohorte EPF de la necesidad de informar a la notificación obligatoria, implementada en 2003, puede explicar esta dependencia. Dos grandes laboratorios participaron tanto en la cohorte EPF como en la encuesta de laboratorio, lo que podría resultar en una dependencia positiva entre las fuentes EPF y LaboVIH.

Captura la homogeneidad

Se identificaron tres variables de capturabilidad heterogénea: país de nacimiento, región de diagnóstico y año de diagnóstico. El modelo seleccionado incluyó las 3 variables de capturabilidad heterogénea y dio una estimación de 387 casos (Tabla 2), que fue ligeramente superior al modelo que incluye dependencias entre fuentes únicamente.

Selección y estimación de modelos

La selección final del modelo en el análisis estratificado que incluyó variables de capturabilidad se basó en el AIC y DIC, asumiendo que la bondad de ajuste de este modelo, según la prueba de razón de verosimilitud, es correcta. El enfoque propuesto por Meng y Rubin se aplicó para utilizar la prueba de razón de verosimilitud y proporcionó valores de p ligeramente más bajos que el enfoque ingenuo (datos no mostrados). Los criterios AIC / DIC se han obtenido promediando sus valores sobre los conjuntos de datos imputados y, por lo tanto, deben interpretarse con cautela [20]. Las diferencias entre modelos de acuerdo con estos criterios pueden estar sobreestimadas y pueden haber llevado a la selección de un modelo demasiado complejo.

El modelo 7 y el modelo 8 dan una estimación similar (387 casos). A pesar de un AIC y DIC ligeramente más altos, conservamos el modelo 7 debido a su estadística de probabilidad ligeramente mejor (p = 0,07). Aunque el modelo 7 es menos parsimonioso, incluye un término de interacción biológicamente plausible entre EPF y año de diagnóstico.

Estimación de valores perdidos

La variable "lugar de nacimiento" no se registró en la fuente LaboVIH, pero estaba casi completa para las otras dos fuentes. Normalmente, el enfoque estándar en un método de captura-recaptura es ignorar las variables que no son comunes a todas las fuentes, lo que a menudo conduce a estimaciones sesgadas del tamaño de la población [24]. Un enfoque comúnmente utilizado para el análisis de conjuntos de datos incompletos es imputar los valores faltantes y analizar el conjunto de datos como si estuviera completo. Estos métodos de imputación única no son estadísticamente válidos, pueden producir estimaciones sesgadas y dar lugar a variaciones subestimadas [25]. Dos métodos que se recomiendan actualmente para manejar adecuadamente los valores perdidos incluyen la estimación de máxima verosimilitud (MLE) y MI. Estos métodos son asintóticamente equivalentes y requieren la misma suposición de que los datos faltan al azar (MAR), es decir, el mecanismo de datos faltantes depende únicamente de los valores observados [11, 26]. En nuestro estudio, faltaba la variable “lugar de nacimiento” sin indicación de un mecanismo subyacente en la fuente LaboVIH, lo que implicaba que se había cumplido el supuesto MAR. Solo unos pocos estudios informan la imputación de valores no observados en aplicaciones de captura-recaptura. En estos estudios se aplicaron tanto MLE, utilizando un algoritmo de maximización de expectativas (EM) [24, 27, 28], como MI [29]. Van der Heijden et al.[28] estimó los valores faltantes para las variables de capturabilidad heterogénea que no se recopilaron en todas las fuentes, como el sexo y la región de residencia. Los autores enfatizaron que el algoritmo de maximización de expectativas (EM) a veces implica una integración numérica compleja, especialmente durante el paso E (el algoritmo calcula la expectativa de la probabilidad logarítmica evaluada usando la estimación actual para los parámetros), y que MI tiene la ventaja de ser computacionalmente mucho más simple para situaciones con variables continuas incompletas. Zwane et al.[29] demostraron en su estudio que MI se desempeñó bien en una aplicación de captura-recaptura. Estimaron los valores faltantes para las variables continuas y categóricas de capturabilidad heterogénea y concluyeron que se prefiere la MI a la MLE en estas circunstancias. En nuestro estudio, la variable incompleta fue categórica. Aunque MLE podría haberse aplicado, se prefirió el enfoque MI porque podría implementarse en la mayoría de los programas estadísticos generales.

Al construir el modelo de imputación, se recomienda incluir cualquier variable que pueda utilizarse en los análisis posteriores [30]. Las siguientes variables se completaron dentro de nuestras bases de datos y se utilizaron como predictores: edad, fuentes, año de diagnóstico y región de diagnóstico. Debido a que faltaba la variable "país de nacimiento" en LaboVIH, los términos de interacción de doble fuente * covariable no se incluyeron en el modelo de imputación. Por lo tanto, se asumió que el proceso de imputación se llevó a cabo bajo el supuesto de correlación cero entre las variables omitidas y el resultado. Como resultado, las estimaciones asociadas con estos términos de interacción podrían estar sesgadas hacia cero [30, 31].

Según Graham et al.[30, 32] y White et al.[20], se recomienda generar un número de bases de datos al menos igual al porcentaje de casos incompletos, o al menos 30 bases de datos en nuestro estudio. Debido a que solo una variable estaba incompleta, optamos por imputar un mayor número de bases de datos.

Una ventaja de MI es que los errores estándar y los IC de las estimaciones están disponibles directamente como parte de la estimación del modelo. Se ha recomendado un enfoque de arranque paramétrico para calcular los IC para las estimaciones finales [33, 34]. Este método produce IC asimétricos y permite tener en cuenta la incertidumbre del modelo. Las investigaciones futuras deberían abordar la posibilidad de combinar este enfoque de arranque paramétrico con MI.

Estimaciones del número de nuevos diagnósticos de VIH

Entre los 89 nuevos diagnósticos estimados de VIH en niños menores de 13 años en 2006, 40 ocurrieron en niños nacidos en Francia. Esta estimación es más del doble del número anual esperado de casos citados por Yeni [4]. Sin embargo, la estimación de Yeni no tuvo en cuenta a las mujeres a las que no se les hizo la prueba del VIH durante el embarazo ni a las mujeres que se seroconvirtieron durante el embarazo después de una primera prueba negativa. Ambos escenarios crean un riesgo mucho mayor de transmisión de la madre al feto. Antes de 1994 en Francia, en ausencia de una estrategia de prevención, la tasa de transmisión de madre a hijo del VIH era aproximadamente del 20% [35]. Estas situaciones de alto riesgo se identificaron en un análisis retrospectivo de niños diagnosticados con infección por VIH en el Hospital Necker de París [36].

Nuestros hallazgos de captura-recaptura nos permitieron estimar una tasa de nuevos diagnósticos de VIH en niños en Francia continental en 2006 de 9.1 por millón. Esta tasa fue 38 veces mayor para los niños nacidos en el extranjero que para los nacidos en Francia. Esta proporción es más alta que la observada en adultos; la tasa de nuevos diagnósticos de VIH en adultos nacidos en el extranjero es de 6,0 por millón, en comparación con 0,6 por millón en los nacidos en Francia [10]. La mayor proporción observada en los niños puede explicarse por un menor acceso a la detección del VIH y la prevención de la transmisión maternoinfantil durante el embarazo en los países donde el VIH es endémico.

Nuestros resultados pueden compararse con los datos del Reino Unido porque ambos países tienen poblaciones de tamaño similar (el Reino Unido tiene una población de aproximadamente 60 millones, incluidos 10 millones de niños), epidemias de VIH concentradas de manera similar y poblaciones nacidas en el extranjero de tamaño similar (el Reino Unido ''). s la población nacida en el extranjero es aproximadamente el 8% de la población total, con aproximadamente 0,5 millones del África subsahariana). En 2006, la tasa de nuevos diagnósticos de VIH en niños menores de 15 años en el Reino Unido fue ligeramente más alta (10,1 por millón) que nuestra estimación para Francia. Esta discrepancia probablemente se deba a las diferentes tasas de prevalencia del VIH dentro de los países de origen de la población nacida en el extranjero de cada país. En el Reino Unido, la población nacida en el extranjero proviene principalmente de África oriental o meridional. La población nacida en el extranjero en Francia proviene principalmente de países de África occidental o central, donde la prevalencia del VIH es menor. Como en Francia, el número de nuevos diagnósticos en niños en el Reino Unido disminuyó de 2003 a 2006 (de 148 a 117) y ha seguido disminuyendo desde entonces [37]. Además, como en Francia, aproximadamente dos tercios de los niños diagnosticados como infectados por el VIH en el Reino Unido nacieron en el extranjero [38].

Lo completo

La exhaustividad de la notificación obligatoria de nuevos diagnósticos de VIH en niños fue baja (28%) en comparación con la del sistema general DOVIH para el VIH en niños y adultos (62% en 2004) [10]. Esta discrepancia podría explicarse por la notificación previa obligatoria de los laboratorios por parte de los microbiólogos para el VIH en adultos, lo que facilita la notificación de DOVIH por parte de los médicos. El sistema de notificación de la infección por el VIH en niños se modificó en 2007 para exigir a los microbiólogos que notifiquen los nuevos diagnósticos de VIH en niños. Sin embargo, la baja exhaustividad y la modificación del sistema de vigilancia dificultan la evaluación de las tendencias potenciales en los nuevos diagnósticos de VIH que se han producido desde 2007.

Varias hipótesis pueden explicar la baja completitud de los diagnósticos de VIH en niños en EPF (26%). Aproximadamente el 70% de las madres embarazadas infectadas por el VIH y sus hijos se han incluido en la cohorte de EPF. Los casos de niños infectados por el VIH nacidos de madres que no estaban incluidas en el EPF, y especialmente de aquellos que dieron a luz en el extranjero, pueden haberse perdido por dos razones: (i) se han recopilado datos retrospectivamente para 2003 y 2004, y (ii) padres El consentimiento después del diagnóstico de VIH en niños es a veces difícil de obtener para los pediatras.


Un modelo paramétrico para la estimación de patrones de dispersión aplicado a cinco poblaciones de paseriformes estructuradas espacialmente

Los datos de captura-recaptura de dispersión natal de cinco poblaciones fragmentadas de gorriones comunes, carboneros comunes y herrerillos azules se analizaron mediante métodos de máxima verosimilitud. Se construyó una nueva distribución de dos paramétricos que incluye cuatro distribuciones previamente utilizadas como casos especiales en la literatura. Las desviaciones estándar de dispersión se estimaron en 22,9 km para los gorriones domésticos y variaron de 0,66 a 4,4 km para los herrerillos. Las hembras de tetas grandes y tetas azules se dispersaron consistentemente más que los machos. Las estimaciones del parámetro de forma de la distribución de dispersión oscilaron entre 0,66 y 2,27, lo que indica desplazamientos de dispersión leptocúrticos de fuertes a moderados. Hubo efectos significativos de la densidad en las tasas de inmigración local y una tendencia constante a que las tasas de inmigración dependan de manera subproporcionada de las densidades locales. Se investigaron las posibles implicaciones de la forma de la distribución de la dispersión para la propagación de organismos invasores y se compararon con resultados anteriores. Se muestra que la velocidad de la onda, para una desviación estándar de dispersión dada, depende solo en cierta medida de la leptocurtosis, siempre que la tasa de crecimiento intrínseco de la población sea moderada o pequeña. Sin embargo, al estimar la desviación estándar de la dispersión, las suposiciones incorrectas sobre el grado de leptokurtosis pueden conducir a un gran sesgo en la estimación y las predicciones.


Evaluación del rendimiento del modelo en biología evolutiva

Muchos campos de la biología evolutiva dependen ahora de modelos matemáticos estocásticos. Estos modelos son valiosos por su capacidad para formalizar predicciones frente a la incertidumbre y proporcionan un marco cuantitativo para probar hipótesis. Sin embargo, ningún modelo matemático capturará por completo la complejidad biológica. En cambio, estos modelos intentan capturar las características importantes de los sistemas biológicos utilizando principios matemáticos relativamente simples. Estas simplificaciones pueden permitirnos enfocarnos en las diferencias que son significativas, mientras ignoramos las que no lo son. However, simplification also requires assumptions, and to the extent that these are wrong, so is our ability to predict or compare. Here, we discuss approaches for evaluating the performance of evolutionary models in light of their assumptions by comparing them against reality. We highlight general approaches, how they are applied, and remaining opportunities. Absolute tests of fit, even when not explicitly framed as such, are fundamental to progress in understanding evolution.


Evaluating Model Performance in Evolutionary Biology

Many fields of evolutionary biology now depend on stochastic mathematical models. These models are valuable for their ability to formalize predictions in the face of uncertainty and provide a quantitative framework for testing hypotheses. However, no mathematical model will fully capture biological complexity. Instead, these models attempt to capture the important features of biological systems using relatively simple mathematical principles. These simplifications can allow us to focus on differences that are meaningful, while ignoring those that are not. However, simplification also requires assumptions, and to the extent that these are wrong, so is our ability to predict or compare. Here, we discuss approaches for evaluating the performance of evolutionary models in light of their assumptions by comparing them against reality. We highlight general approaches, how they are applied, and remaining opportunities. Absolute tests of fit, even when not explicitly framed as such, are fundamental to progress in understanding evolution.


Expresiones de gratitud

Funding was provided by Everglades National Park through the Critical Ecosystem Science Initiative and the Land and Water Conservation Fund. We gratefully acknowledge the staff at the South Florida Natural Resources Center who provided essential administrative and technical assistance. Numerous technicians assisted on this project, most notably S. Wolf, J. Strantz, J. Ball, M. Rogne, and L. MacDade. Finally, we thank A. J. Kroll, J. Citta, and 2 anonymous reviewers for providing constructive criticism that sharpened our thinking and resulted in a substantially improved manuscript.


Ver el vídeo: Bootstrap (Septiembre 2022).


Comentarios:

  1. Crispin

    De acuerdo, esta es la excelente variante

  2. Stanley

    Más precisamente no sucede

  3. Muntasir

    Considero que no estás bien. Puedo defender la posición. Escríbeme en PM, nos comunicaremos.

  4. Ini-Herit

    Creo que estas equivocado. Puedo probarlo. Envíame un correo electrónico a PM, lo discutiremos.

  5. Samuhn

    Estoy de acuerdo, pero como ya ves, hay una demanda de tavar))



Escribe un mensaje