Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (112)

Tout (112) (0 à 10 de 112 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100018
    Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200012
    Description : Au cours des dernières décennies, de nombreuses façons différentes d’utiliser l’information auxiliaire ont enrichi la théorie et la pratique de l’échantillonnage. Jean-Claude Deville a contribué de manière importante à ces progrès. Mes commentaires permettent de retracer certaines des étapes qui ont conduit à une théorie importante pour l’utilisation de l’information auxiliaire : l’estimation par calage.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100003
    Description : Pour accroître la précision des inférences et réduire les coûts, la combinaison de données provenant de plusieurs sources comme les enquêtes-échantillon et les données administratives suscite beaucoup d’intérêt. Une méthodologie appropriée est requise afin de produire des inférences satisfaisantes, puisque les populations cibles et les méthodes d’acquisition de données peuvent être assez différentes. Pour améliorer les inférences, nous utilisons une méthodologie qui a une structure plus générale que celles de la pratique actuelle. Nous commençons par le cas où l’analyste ne dispose que de statistiques sommaires provenant de chacune des sources. Dans la méthode principale, la combinaison incertaine, on suppose que l’analyste peut considérer une source, l’enquête r, comme étant de loin le meilleur choix pour l’inférence. Cette méthode part des données de l’enquête r et ajoute les données provenant des sources tierces, pour former des grappes qui comprennent l’enquête r. Nous considérons également les mélanges selon le processus de Dirichlet, l’une des méthodes bayésiennes non paramétriques les plus populaires. Nous utilisons des expressions analytiques et les résultats d’études numériques pour montrer les propriétés de la méthodologie.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100007
    Description :

    Nous examinons l’estimation d’une moyenne sur petits domaines sous le modèle de base au niveau de l’unité. La somme des estimateurs dépendant d’un modèle qui en résultent peut ne pas correspondre aux estimations obtenues au moyen d’un estimateur d’enquête direct qui est considéré comme précis pour l’ensemble de ces petits domaines. La réconciliation force la concordance des estimateurs fondés sur un modèle avec l’estimateur direct au niveau du domaine agrégé. L’estimateur par la régression généralisée est l’estimateur direct que nous utilisons pour réaliser la réconciliation. Dans le présent document, nous comparons des estimateurs sur petits domaines réconciliés d’après quatre procédures. La première procédure permet d’obtenir des estimateurs réconciliés au moyen d’un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu sous le modèle au niveau de l’unité augmenté à l’aide d’une variable adéquate qui assure la réconciliation. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l’estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d’obtenir des estimateurs réconciliés qui résultent d’un problème de minimisation sous la contrainte donnée par la condition de réconciliation. Ces procédures de réconciliation sont appliquées aux estimateurs sur petits domaines lorsque les taux d’échantillonnage sont non négligeables. Les estimateurs réconciliés qui en résultent sont comparés quant au biais relatif et à l’erreur quadratique moyenne dans une étude par simulations fondée sur un plan de sondage ainsi qu’un exemple fondé sur des données d’enquête réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202000200003
    Description :

    Nous combinons pondération et prédiction bayésienne dans une approche unifiée pour l’inférence d’enquête. Les principes généraux de l’analyse bayésienne impliquent que les modèles pour les résultats d’enquête devraient être conditionnés par toutes les variables influant sur les probabilités d’inclusion. Nous intégrons toutes les variables servant à l’ajustement de pondération dans un cadre de régression multiniveau et de poststratification pour obtenir un sous-produit générant des poids basés sur un modèle après lissage. Nous améliorons l’estimation sur petits domaines en traitant les divers problèmes complexes que posent les applications dans la vie réelle pour obtenir une inférence robuste à des niveaux plus fins pour les sous-domaines d’intérêt. Nous examinons les interactions profondes et introduisons des distributions a priori structurées pour le lissage et la stabilisation des estimations. Le calcul se fait par Stan et avec le paquet rstanarm du code source libre R, disponible pour utilisation publique. Nous évaluons les propriétés selon le plan de la procédure bayésienne. Nous recourons à des études en simulation pour illustrer comment la prédiction basée sur un modèle et l’inférence pondérée peuvent donner de meilleurs résultats que la pondération classique. Nous appliquons la méthode à la New York Longitudinal Study of Wellbeing (LSW). La nouvelle approche produit des poids lissés et rend plus efficace une inférence robuste de population finie, plus particulièrement pour des sous-ensembles de la population.

    Date de diffusion : 2020-12-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (111)

Analyses (111) (0 à 10 de 111 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100018
    Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200012
    Description : Au cours des dernières décennies, de nombreuses façons différentes d’utiliser l’information auxiliaire ont enrichi la théorie et la pratique de l’échantillonnage. Jean-Claude Deville a contribué de manière importante à ces progrès. Mes commentaires permettent de retracer certaines des étapes qui ont conduit à une théorie importante pour l’utilisation de l’information auxiliaire : l’estimation par calage.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100003
    Description : Pour accroître la précision des inférences et réduire les coûts, la combinaison de données provenant de plusieurs sources comme les enquêtes-échantillon et les données administratives suscite beaucoup d’intérêt. Une méthodologie appropriée est requise afin de produire des inférences satisfaisantes, puisque les populations cibles et les méthodes d’acquisition de données peuvent être assez différentes. Pour améliorer les inférences, nous utilisons une méthodologie qui a une structure plus générale que celles de la pratique actuelle. Nous commençons par le cas où l’analyste ne dispose que de statistiques sommaires provenant de chacune des sources. Dans la méthode principale, la combinaison incertaine, on suppose que l’analyste peut considérer une source, l’enquête r, comme étant de loin le meilleur choix pour l’inférence. Cette méthode part des données de l’enquête r et ajoute les données provenant des sources tierces, pour former des grappes qui comprennent l’enquête r. Nous considérons également les mélanges selon le processus de Dirichlet, l’une des méthodes bayésiennes non paramétriques les plus populaires. Nous utilisons des expressions analytiques et les résultats d’études numériques pour montrer les propriétés de la méthodologie.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100007
    Description :

    Nous examinons l’estimation d’une moyenne sur petits domaines sous le modèle de base au niveau de l’unité. La somme des estimateurs dépendant d’un modèle qui en résultent peut ne pas correspondre aux estimations obtenues au moyen d’un estimateur d’enquête direct qui est considéré comme précis pour l’ensemble de ces petits domaines. La réconciliation force la concordance des estimateurs fondés sur un modèle avec l’estimateur direct au niveau du domaine agrégé. L’estimateur par la régression généralisée est l’estimateur direct que nous utilisons pour réaliser la réconciliation. Dans le présent document, nous comparons des estimateurs sur petits domaines réconciliés d’après quatre procédures. La première procédure permet d’obtenir des estimateurs réconciliés au moyen d’un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu sous le modèle au niveau de l’unité augmenté à l’aide d’une variable adéquate qui assure la réconciliation. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l’estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d’obtenir des estimateurs réconciliés qui résultent d’un problème de minimisation sous la contrainte donnée par la condition de réconciliation. Ces procédures de réconciliation sont appliquées aux estimateurs sur petits domaines lorsque les taux d’échantillonnage sont non négligeables. Les estimateurs réconciliés qui en résultent sont comparés quant au biais relatif et à l’erreur quadratique moyenne dans une étude par simulations fondée sur un plan de sondage ainsi qu’un exemple fondé sur des données d’enquête réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202000200003
    Description :

    Nous combinons pondération et prédiction bayésienne dans une approche unifiée pour l’inférence d’enquête. Les principes généraux de l’analyse bayésienne impliquent que les modèles pour les résultats d’enquête devraient être conditionnés par toutes les variables influant sur les probabilités d’inclusion. Nous intégrons toutes les variables servant à l’ajustement de pondération dans un cadre de régression multiniveau et de poststratification pour obtenir un sous-produit générant des poids basés sur un modèle après lissage. Nous améliorons l’estimation sur petits domaines en traitant les divers problèmes complexes que posent les applications dans la vie réelle pour obtenir une inférence robuste à des niveaux plus fins pour les sous-domaines d’intérêt. Nous examinons les interactions profondes et introduisons des distributions a priori structurées pour le lissage et la stabilisation des estimations. Le calcul se fait par Stan et avec le paquet rstanarm du code source libre R, disponible pour utilisation publique. Nous évaluons les propriétés selon le plan de la procédure bayésienne. Nous recourons à des études en simulation pour illustrer comment la prédiction basée sur un modèle et l’inférence pondérée peuvent donner de meilleurs résultats que la pondération classique. Nous appliquons la méthode à la New York Longitudinal Study of Wellbeing (LSW). La nouvelle approche produit des poids lissés et rend plus efficace une inférence robuste de population finie, plus particulièrement pour des sous-ensembles de la population.

    Date de diffusion : 2020-12-15
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668
    Description :

    À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.

    Date de diffusion : 2000-03-02
Date de modification :