Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (32)

Tout (32) (0 à 10 de 32 résultats)

  • Articles et rapports : 12-001-X202300100005
    Description : Le lissage des poids est une technique utile pour améliorer l’efficacité des estimateurs fondés sur le plan exposés au risque de biais en raison d’une spécification erronée du modèle. Dans le prolongement du travail de Kim et Skinner (2013), nous proposons d’employer le lissage des poids pour construire la vraisemblance conditionnelle pour une inférence analytique efficace dans le cadre d’un échantillonnage informatif. La distribution bêta prime peut être utilisée pour construire un modèle de paramètres pour les poids dans l’échantillon. Un test du score est développé pour tester les erreurs de spécifications dans le modèle de pondération. Un estimateur de prétest s’appuyant sur le test du score peut être élaboré naturellement. L’estimateur de prétest est presque exempt de biais et peut être plus efficace que l’estimateur fondé sur le plan lorsque le modèle de pondération est correctement spécifié ou que les poids d’origine sont très variables. Une étude par simulation limitée est présentée pour étudier le rendement des méthodes proposées.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214118
    Description :

    L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201200111686
    Description :

    Nous présentons une approche fondée sur des équations d'estimation généralisées pour estimer le coefficient de corrélation de concordance et le coefficient kappa d'après des données d'enquête. Les estimations ainsi que leurs erreurs-types doivent tenir compte correctement du plan d'échantillonnage. Nous présentons des mesures pondérées du coefficient de corrélation de concordance et du coefficient kappa, ainsi que la variance de ces mesures tenant compte du plan d'échantillonnage. Nous utilisons la méthode de linéarisation par série de Taylor et la procédure du jackknife pour estimer les erreurs-types des estimations résultantes des paramètres. Des mesures anthropométriques et des données sur la santé buccodentaire provenant de la Third National Health and Nutrition Examination Survey sont utilisées pour illustrer cette méthodologie.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201000211382
    Description :

    Aux États-Unis, la taille de la population dotée d'un téléphone mobile seulement a augmenté rapidement ces dernières années et, par conséquent, les chercheurs ont commencé à expérimenter l'échantillonnage et l'interview des abonnés à la téléphonie mobile. Nous discutons des problèmes statistiques que posent les étapes de l'établissement du plan d'échantillonnage et de l'estimation des études par téléphone mobile. Les travaux sont exposés principalement dans le contexte d'une enquête à deux bases de sondage non chevauchantes dans laquelle une base et un échantillon sont employés pour la population possédant un téléphone fixe et une deuxième base de sondage et un deuxième échantillon, pour la population possédant seulement un téléphone mobile. Nous discutons également des aspects supplémentaires dont il faut tenir compte dans le cas d'une enquête à deux bases de sondage chevauchantes (où la base de sondage et l'échantillon pour la téléphonie mobile comprennent certains membres de la population dotée d'un téléphone fixe). Pour illustrer les méthodes, nous utilisons le plan de sondage de la National Immunization Survey (NIS) conçue pour surveiller les taux de vaccination chez les enfants de 19 à 35 mois et les adolescents de 13 à 17 ans. La NIS est une enquête téléphonique nationale, suivie d'une vérification des dossiers des fournisseurs de service, réalisée par les Centers for Disease Control and Prevention.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X200800110619
    Description :

    La prédiction sur petits domaines fondée sur des effets aléatoires, appelée (MPLSBE), est une méthode de construction d'estimations pour de petites régions géographiques ou de petites sous populations en utilisant les données d'enquête existantes. Souvent, le total des prédicteurs sur petits domaines est forcé d'être égal à l'estimation par sondage directe et ces prédicteurs sont alors dits calés. Nous passons en revue plusieurs prédicteurs calés et présentons un critère qui unifie leur calcul. Nous dérivons celui qui est l'unique meilleur prédicteur linéaire sans biais sous ce critère et discutons de l'erreur quadratique moyenne des prédicteurs calés. L'imposition de la contrainte comporte implicitement la possibilité que le modèle de petit domaine soit spécifié incorrectement et que les prédicteurs présentent un biais. Nous étudions des modèles augmentés contenant une variable explicative supplémentaire pour lesquels les prédicteurs sur petits domaines ordinaires présentent la propriété d'autocalage. Nous démontrons à l'aide de simulations que les prédicteurs calés ont un biais un peu plus faible que le prédicteur MPLSBE habituel. Cependant, si le biais est une préoccupation, une meilleure approche consiste à utiliser un modèle augmenté contenant une variable auxiliaire supplémentaire qui est fonction de la taille du domaine. Dans les simulations, les prédicteurs fondés sur le modèle augmenté ont une EQM plus petite que MPLSBE quand le modèle incorrect est utilisé pour la prédiction. De surcroît, l'EQM augmente très légèrement comparativement à celle de MPLSBE si la variable auxiliaire est ajoutée au modèle correct.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110400
    Description :

    On peut obtenir des estimations du nombre attribuable de décès (DA), toutes causes confondues, en commençant par estimer le risque attribuable corrigé (RA) au sein de la population pour tenir compte des covariables confusionnelles, puis en multipliant le RA par le nombre de décès, déterminé d'après les statistiques de l'état civil sur la mortalité, survenus pendant une période de référence précise. Nous obtenons par la méthode de régression à risques proportionnels des estimations des risques relatifs corrigés basées sur des données sur la mortalité provenant du suivi d'une cohorte ou d'une enquête que nous combinons à une distribution conjointe du facteur de risque et des covariables confusionnelles pour calculer un risque attribuable (RA) corrigé. Nous examinons deux estimateurs du RA corrigé, qui se distinguent par la population de référence d'après laquelle la distribution conjointe du facteur de risque et des variables confusionnelles est obtenue. Les deux populations de référence considérées sont : i) la population qui est représentée par la cohorte de référence et : ii) une population extérieure à la cohorte. Nous appliquons des méthodes fondées sur la théorie de la fonction d'influence pour obtenir des expressions permettant d'estimer la variance de l'estimateur du nombre attribuable de décès (DA). Ces estimateurs de la variance peuvent être appliqués à des données recueillies auprès d'échantillons allant de l'échantillon aléatoire simple à l'échantillon en grappes stratifié à plusieurs degrés pondéré par les poids de sondage utilisés pour réaliser les enquêtes nationales auprès des ménages. Nous illustrons l'estimation de la variance du nombre attribuable de décès au moyen d'une analyse de la surmortalité liée à l'indice de masse corporelle non idéal dans une population réalisée sur des données provenant de la deuxième étude de la mortalité basée sur la National Health and Examination Survey (NHANES) et de la NHANES de 1999-2002. Ces méthodes peuvent également être utilisées pour estimer le nombre attribuable de décès par cause d'une maladie ou de nouveaux cas ainsi que leurs erreurs types, lorsque la période de référence est brève.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X200600110417
    Description :

    Les coefficients des équations de régression sont souvent des paramètres d'intérêt dans le cas des enquêtes sur la santé et ces dernières sont habituellement réalisées selon un plan de sondage complexe avec l'utilisation des taux d'échantillonnage différentiels. Nous présentons des estimateurs des coefficients de régression applicables aux enquêtes complexes qui sont supérieurs aux estimateurs à facteur d'extension ordinaires selon le modèle en question, mais retiennent aussi les propriétés souhaitables du plan. Nous présentons les propriétés théoriques et celles qui sont simulées par la méthode Monte Carlo.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20050019461
    Description :

    On propose une généralisation du coefficient de variation habituel (CV) pour solutionner certains des problèmes connus lorsqu'il est utilisé pour mesurer la qualité des estimations Certains problèmes associés au CV comprennent notamment l'interprétation lorsque l'estimation se rapproche de zéro, et l'incohérence de l'interprétation quant à la précision lorsqu'elle est générée en vue de transformations individuelles monotones différentes.

    Date de diffusion : 2007-03-02
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (31)

Analyses (31) (0 à 10 de 31 résultats)

  • Articles et rapports : 12-001-X202300100005
    Description : Le lissage des poids est une technique utile pour améliorer l’efficacité des estimateurs fondés sur le plan exposés au risque de biais en raison d’une spécification erronée du modèle. Dans le prolongement du travail de Kim et Skinner (2013), nous proposons d’employer le lissage des poids pour construire la vraisemblance conditionnelle pour une inférence analytique efficace dans le cadre d’un échantillonnage informatif. La distribution bêta prime peut être utilisée pour construire un modèle de paramètres pour les poids dans l’échantillon. Un test du score est développé pour tester les erreurs de spécifications dans le modèle de pondération. Un estimateur de prétest s’appuyant sur le test du score peut être élaboré naturellement. L’estimateur de prétest est presque exempt de biais et peut être plus efficace que l’estimateur fondé sur le plan lorsque le modèle de pondération est correctement spécifié ou que les poids d’origine sont très variables. Une étude par simulation limitée est présentée pour étudier le rendement des méthodes proposées.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214118
    Description :

    L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201200111686
    Description :

    Nous présentons une approche fondée sur des équations d'estimation généralisées pour estimer le coefficient de corrélation de concordance et le coefficient kappa d'après des données d'enquête. Les estimations ainsi que leurs erreurs-types doivent tenir compte correctement du plan d'échantillonnage. Nous présentons des mesures pondérées du coefficient de corrélation de concordance et du coefficient kappa, ainsi que la variance de ces mesures tenant compte du plan d'échantillonnage. Nous utilisons la méthode de linéarisation par série de Taylor et la procédure du jackknife pour estimer les erreurs-types des estimations résultantes des paramètres. Des mesures anthropométriques et des données sur la santé buccodentaire provenant de la Third National Health and Nutrition Examination Survey sont utilisées pour illustrer cette méthodologie.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201000211382
    Description :

    Aux États-Unis, la taille de la population dotée d'un téléphone mobile seulement a augmenté rapidement ces dernières années et, par conséquent, les chercheurs ont commencé à expérimenter l'échantillonnage et l'interview des abonnés à la téléphonie mobile. Nous discutons des problèmes statistiques que posent les étapes de l'établissement du plan d'échantillonnage et de l'estimation des études par téléphone mobile. Les travaux sont exposés principalement dans le contexte d'une enquête à deux bases de sondage non chevauchantes dans laquelle une base et un échantillon sont employés pour la population possédant un téléphone fixe et une deuxième base de sondage et un deuxième échantillon, pour la population possédant seulement un téléphone mobile. Nous discutons également des aspects supplémentaires dont il faut tenir compte dans le cas d'une enquête à deux bases de sondage chevauchantes (où la base de sondage et l'échantillon pour la téléphonie mobile comprennent certains membres de la population dotée d'un téléphone fixe). Pour illustrer les méthodes, nous utilisons le plan de sondage de la National Immunization Survey (NIS) conçue pour surveiller les taux de vaccination chez les enfants de 19 à 35 mois et les adolescents de 13 à 17 ans. La NIS est une enquête téléphonique nationale, suivie d'une vérification des dossiers des fournisseurs de service, réalisée par les Centers for Disease Control and Prevention.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X200800110619
    Description :

    La prédiction sur petits domaines fondée sur des effets aléatoires, appelée (MPLSBE), est une méthode de construction d'estimations pour de petites régions géographiques ou de petites sous populations en utilisant les données d'enquête existantes. Souvent, le total des prédicteurs sur petits domaines est forcé d'être égal à l'estimation par sondage directe et ces prédicteurs sont alors dits calés. Nous passons en revue plusieurs prédicteurs calés et présentons un critère qui unifie leur calcul. Nous dérivons celui qui est l'unique meilleur prédicteur linéaire sans biais sous ce critère et discutons de l'erreur quadratique moyenne des prédicteurs calés. L'imposition de la contrainte comporte implicitement la possibilité que le modèle de petit domaine soit spécifié incorrectement et que les prédicteurs présentent un biais. Nous étudions des modèles augmentés contenant une variable explicative supplémentaire pour lesquels les prédicteurs sur petits domaines ordinaires présentent la propriété d'autocalage. Nous démontrons à l'aide de simulations que les prédicteurs calés ont un biais un peu plus faible que le prédicteur MPLSBE habituel. Cependant, si le biais est une préoccupation, une meilleure approche consiste à utiliser un modèle augmenté contenant une variable auxiliaire supplémentaire qui est fonction de la taille du domaine. Dans les simulations, les prédicteurs fondés sur le modèle augmenté ont une EQM plus petite que MPLSBE quand le modèle incorrect est utilisé pour la prédiction. De surcroît, l'EQM augmente très légèrement comparativement à celle de MPLSBE si la variable auxiliaire est ajoutée au modèle correct.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110400
    Description :

    On peut obtenir des estimations du nombre attribuable de décès (DA), toutes causes confondues, en commençant par estimer le risque attribuable corrigé (RA) au sein de la population pour tenir compte des covariables confusionnelles, puis en multipliant le RA par le nombre de décès, déterminé d'après les statistiques de l'état civil sur la mortalité, survenus pendant une période de référence précise. Nous obtenons par la méthode de régression à risques proportionnels des estimations des risques relatifs corrigés basées sur des données sur la mortalité provenant du suivi d'une cohorte ou d'une enquête que nous combinons à une distribution conjointe du facteur de risque et des covariables confusionnelles pour calculer un risque attribuable (RA) corrigé. Nous examinons deux estimateurs du RA corrigé, qui se distinguent par la population de référence d'après laquelle la distribution conjointe du facteur de risque et des variables confusionnelles est obtenue. Les deux populations de référence considérées sont : i) la population qui est représentée par la cohorte de référence et : ii) une population extérieure à la cohorte. Nous appliquons des méthodes fondées sur la théorie de la fonction d'influence pour obtenir des expressions permettant d'estimer la variance de l'estimateur du nombre attribuable de décès (DA). Ces estimateurs de la variance peuvent être appliqués à des données recueillies auprès d'échantillons allant de l'échantillon aléatoire simple à l'échantillon en grappes stratifié à plusieurs degrés pondéré par les poids de sondage utilisés pour réaliser les enquêtes nationales auprès des ménages. Nous illustrons l'estimation de la variance du nombre attribuable de décès au moyen d'une analyse de la surmortalité liée à l'indice de masse corporelle non idéal dans une population réalisée sur des données provenant de la deuxième étude de la mortalité basée sur la National Health and Examination Survey (NHANES) et de la NHANES de 1999-2002. Ces méthodes peuvent également être utilisées pour estimer le nombre attribuable de décès par cause d'une maladie ou de nouveaux cas ainsi que leurs erreurs types, lorsque la période de référence est brève.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X200600110417
    Description :

    Les coefficients des équations de régression sont souvent des paramètres d'intérêt dans le cas des enquêtes sur la santé et ces dernières sont habituellement réalisées selon un plan de sondage complexe avec l'utilisation des taux d'échantillonnage différentiels. Nous présentons des estimateurs des coefficients de régression applicables aux enquêtes complexes qui sont supérieurs aux estimateurs à facteur d'extension ordinaires selon le modèle en question, mais retiennent aussi les propriétés souhaitables du plan. Nous présentons les propriétés théoriques et celles qui sont simulées par la méthode Monte Carlo.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20050019461
    Description :

    On propose une généralisation du coefficient de variation habituel (CV) pour solutionner certains des problèmes connus lorsqu'il est utilisé pour mesurer la qualité des estimations Certains problèmes associés au CV comprennent notamment l'interprétation lorsque l'estimation se rapproche de zéro, et l'incohérence de l'interprétation quant à la précision lorsqu'elle est générée en vue de transformations individuelles monotones différentes.

    Date de diffusion : 2007-03-02
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015672
    Description :

    La fusion des données qui est examinée ici consiste à créer un ensemble de données provenant de sources différentes sur des variables que l'on n'observe pas conjointement. Supposons par exemple que l'on dispose d'observations pour (X,Z) sur un ensemble de personnes et pour (Y,Z) sur un autre ensemble de personnes. Chacune des variables X, Y et Z peut être vectorielle. L'objectif principal consiste à obtenir des précisions sur la distribution conjointe de (X,Y) en se servant de Z comme ce que l'on conviendra d'appeler variable d'appariement. Toutefois, on s'efforce d'abord d'extraire des ensembles de données distincts autant de renseignements que possible sur la distribution conjointe de (X,Y,Z). On ne peut procéder à ce genre de fusion que moyennant la précision de certaines propriétés distributionnelles pour les données fusionnées, à savoir l'hypothèse d'indépendance conditionnelle étant donné les variables d'appariement. Classiquement, l'examen des variables fusionnées consiste à déterminer dans quelle mesure cette hypothèse sous-jacente est appropriée. Ici, nous examinons le problème sous un angle différent. La question que nous nous posons est celle de savoir comment il est possible d'estimer des distributions dans des situations où l'on ne dispose que d'observations provenant de certaines distributions marginales. Nous pouvons la résoudre en appliquant le critère d'entropie maximale. Nous montrons notamment qu'il est possible d'interpréter les données créés par fusion de données de sources différentes comme un cas spécial de cette situation. Par conséquent, nous dérivons l'hypothèse nécessaire d'indépendance conditionnelle en tant que conséquence du type de données disponibles.

    Date de diffusion : 2000-03-02
Date de modification :