Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 1 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200012
    Description : Au cours des dernières décennies, de nombreuses façons différentes d’utiliser l’information auxiliaire ont enrichi la théorie et la pratique de l’échantillonnage. Jean-Claude Deville a contribué de manière importante à ces progrès. Mes commentaires permettent de retracer certaines des étapes qui ont conduit à une théorie importante pour l’utilisation de l’information auxiliaire : l’estimation par calage.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100003
    Description : Pour accroître la précision des inférences et réduire les coûts, la combinaison de données provenant de plusieurs sources comme les enquêtes-échantillon et les données administratives suscite beaucoup d’intérêt. Une méthodologie appropriée est requise afin de produire des inférences satisfaisantes, puisque les populations cibles et les méthodes d’acquisition de données peuvent être assez différentes. Pour améliorer les inférences, nous utilisons une méthodologie qui a une structure plus générale que celles de la pratique actuelle. Nous commençons par le cas où l’analyste ne dispose que de statistiques sommaires provenant de chacune des sources. Dans la méthode principale, la combinaison incertaine, on suppose que l’analyste peut considérer une source, l’enquête r, comme étant de loin le meilleur choix pour l’inférence. Cette méthode part des données de l’enquête r et ajoute les données provenant des sources tierces, pour former des grappes qui comprennent l’enquête r. Nous considérons également les mélanges selon le processus de Dirichlet, l’une des méthodes bayésiennes non paramétriques les plus populaires. Nous utilisons des expressions analytiques et les résultats d’études numériques pour montrer les propriétés de la méthodologie.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100007
    Description :

    Nous examinons l’estimation d’une moyenne sur petits domaines sous le modèle de base au niveau de l’unité. La somme des estimateurs dépendant d’un modèle qui en résultent peut ne pas correspondre aux estimations obtenues au moyen d’un estimateur d’enquête direct qui est considéré comme précis pour l’ensemble de ces petits domaines. La réconciliation force la concordance des estimateurs fondés sur un modèle avec l’estimateur direct au niveau du domaine agrégé. L’estimateur par la régression généralisée est l’estimateur direct que nous utilisons pour réaliser la réconciliation. Dans le présent document, nous comparons des estimateurs sur petits domaines réconciliés d’après quatre procédures. La première procédure permet d’obtenir des estimateurs réconciliés au moyen d’un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu sous le modèle au niveau de l’unité augmenté à l’aide d’une variable adéquate qui assure la réconciliation. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l’estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d’obtenir des estimateurs réconciliés qui résultent d’un problème de minimisation sous la contrainte donnée par la condition de réconciliation. Ces procédures de réconciliation sont appliquées aux estimateurs sur petits domaines lorsque les taux d’échantillonnage sont non négligeables. Les estimateurs réconciliés qui en résultent sont comparés quant au biais relatif et à l’erreur quadratique moyenne dans une étude par simulations fondée sur un plan de sondage ainsi qu’un exemple fondé sur des données d’enquête réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202000200003
    Description :

    Nous combinons pondération et prédiction bayésienne dans une approche unifiée pour l’inférence d’enquête. Les principes généraux de l’analyse bayésienne impliquent que les modèles pour les résultats d’enquête devraient être conditionnés par toutes les variables influant sur les probabilités d’inclusion. Nous intégrons toutes les variables servant à l’ajustement de pondération dans un cadre de régression multiniveau et de poststratification pour obtenir un sous-produit générant des poids basés sur un modèle après lissage. Nous améliorons l’estimation sur petits domaines en traitant les divers problèmes complexes que posent les applications dans la vie réelle pour obtenir une inférence robuste à des niveaux plus fins pour les sous-domaines d’intérêt. Nous examinons les interactions profondes et introduisons des distributions a priori structurées pour le lissage et la stabilisation des estimations. Le calcul se fait par Stan et avec le paquet rstanarm du code source libre R, disponible pour utilisation publique. Nous évaluons les propriétés selon le plan de la procédure bayésienne. Nous recourons à des études en simulation pour illustrer comment la prédiction basée sur un modèle et l’inférence pondérée peuvent donner de meilleurs résultats que la pondération classique. Nous appliquons la méthode à la New York Longitudinal Study of Wellbeing (LSW). La nouvelle approche produit des poids lissés et rend plus efficace une inférence robuste de population finie, plus particulièrement pour des sous-ensembles de la population.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 12-001-X202000100002
    Description :

    On a besoin de méthodes par modèle pour estimer des paramètres d’intérêt de petit domaine, comme les totaux et les moyennes, là où les méthodes classiques d’estimation directe ne peuvent garantir une précision suffisante. Les modèles au niveau des unités et au niveau des domaines sont les plus répandus dans la pratique. S’il s’agit d’un modèle au niveau des unités, il est possible d’obtenir des estimateurs efficaces par modèle si le plan de sondage est tel que les modèles d’échantillon et de population coïncident, c’est-à-dire que le plan d’échantillonnage n’est pas informatif pour le modèle en question. Si en revanche le plan de sondage est informatif pour le modèle, les probabilités de sélection seront liées à la variable d’intérêt même après conditionnement par les données auxiliaires disponibles, d’où l’implication que le modèle de la population ne vaut plus pour l’échantillon. Pfeffermann et Sverchkov (2007) se sont reportés aux relations entre les distributions de population et d’échantillon de la variable étudiée pour obtenir des prédicteurs semi-paramétriques approximativement sans biais des moyennes de domaine dans des plans d’échantillonnage informatifs. La procédure qu’ils ont employée est applicable aux domaines avec et sans échantillon. Verret, Rao et Hidiroglou (2015) ont étudié d’autres méthodes utilisant une fonction appropriée des probabilités de sélection d’unités comme variable auxiliaire supplémentaire. Leur technique a donné des estimateurs Empirical Best Linear Unbiased Prediction (EBLUP) approximativement sans biais pour les moyennes de petit domaine. Dans le présent exposé, nous étendons la méthode de Verret et coll. (2015) en ne formant aucune hypothèse au sujet des probabilités d’inclusion. Nous nous contentons d’intégrer ces dernières au modèle au niveau des unités en utilisant une fonction lisse des probabilités d’inclusion. C’est une fonction que nous estimons par une approximation locale donnant un estimateur polynomial local. Nous proposons une méthode bootstrap conditionnelle pour l’estimation de l’erreur quadratique moyenne (EQM) des estimateurs polynomiaux locaux et des estimateurs EBLUP. Nous examinons par simulation le biais et les propriétés d’efficacité de l’estimateur polynomial local. Nous présentons enfin les résultats de l’estimateur bootstrap de l’EQM.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201900300003
    Description :

    Les formules largement utilisées pour la variance de l’estimateur par le ratio peuvent mener à une sérieuse sous-estimation quand l’échantillon est de petite taille; voir Sukhatme (1954), Koop (1968), Rao (1969) et Cochran (1977, pages 163 et 164). Nous proposons ici comme solution à ce problème classique de nouveaux estimateurs de la variance et de l’erreur quadratique moyenne de l’estimateur par le ratio qui ne sont pas entachés d’un important biais négatif. Des formules d’estimation semblables peuvent s’obtenir pour d’autres estimateurs par le ratio, comme il en est question dans Tin (1965). Nous comparons trois estimateurs de l’erreur quadratique moyenne de l’estimateur par le ratio dans une étude par simulation.

    Date de diffusion : 2019-12-17
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (12)

Analyses (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200012
    Description : Au cours des dernières décennies, de nombreuses façons différentes d’utiliser l’information auxiliaire ont enrichi la théorie et la pratique de l’échantillonnage. Jean-Claude Deville a contribué de manière importante à ces progrès. Mes commentaires permettent de retracer certaines des étapes qui ont conduit à une théorie importante pour l’utilisation de l’information auxiliaire : l’estimation par calage.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100003
    Description : Pour accroître la précision des inférences et réduire les coûts, la combinaison de données provenant de plusieurs sources comme les enquêtes-échantillon et les données administratives suscite beaucoup d’intérêt. Une méthodologie appropriée est requise afin de produire des inférences satisfaisantes, puisque les populations cibles et les méthodes d’acquisition de données peuvent être assez différentes. Pour améliorer les inférences, nous utilisons une méthodologie qui a une structure plus générale que celles de la pratique actuelle. Nous commençons par le cas où l’analyste ne dispose que de statistiques sommaires provenant de chacune des sources. Dans la méthode principale, la combinaison incertaine, on suppose que l’analyste peut considérer une source, l’enquête r, comme étant de loin le meilleur choix pour l’inférence. Cette méthode part des données de l’enquête r et ajoute les données provenant des sources tierces, pour former des grappes qui comprennent l’enquête r. Nous considérons également les mélanges selon le processus de Dirichlet, l’une des méthodes bayésiennes non paramétriques les plus populaires. Nous utilisons des expressions analytiques et les résultats d’études numériques pour montrer les propriétés de la méthodologie.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100007
    Description :

    Nous examinons l’estimation d’une moyenne sur petits domaines sous le modèle de base au niveau de l’unité. La somme des estimateurs dépendant d’un modèle qui en résultent peut ne pas correspondre aux estimations obtenues au moyen d’un estimateur d’enquête direct qui est considéré comme précis pour l’ensemble de ces petits domaines. La réconciliation force la concordance des estimateurs fondés sur un modèle avec l’estimateur direct au niveau du domaine agrégé. L’estimateur par la régression généralisée est l’estimateur direct que nous utilisons pour réaliser la réconciliation. Dans le présent document, nous comparons des estimateurs sur petits domaines réconciliés d’après quatre procédures. La première procédure permet d’obtenir des estimateurs réconciliés au moyen d’un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu sous le modèle au niveau de l’unité augmenté à l’aide d’une variable adéquate qui assure la réconciliation. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l’estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d’obtenir des estimateurs réconciliés qui résultent d’un problème de minimisation sous la contrainte donnée par la condition de réconciliation. Ces procédures de réconciliation sont appliquées aux estimateurs sur petits domaines lorsque les taux d’échantillonnage sont non négligeables. Les estimateurs réconciliés qui en résultent sont comparés quant au biais relatif et à l’erreur quadratique moyenne dans une étude par simulations fondée sur un plan de sondage ainsi qu’un exemple fondé sur des données d’enquête réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202000200003
    Description :

    Nous combinons pondération et prédiction bayésienne dans une approche unifiée pour l’inférence d’enquête. Les principes généraux de l’analyse bayésienne impliquent que les modèles pour les résultats d’enquête devraient être conditionnés par toutes les variables influant sur les probabilités d’inclusion. Nous intégrons toutes les variables servant à l’ajustement de pondération dans un cadre de régression multiniveau et de poststratification pour obtenir un sous-produit générant des poids basés sur un modèle après lissage. Nous améliorons l’estimation sur petits domaines en traitant les divers problèmes complexes que posent les applications dans la vie réelle pour obtenir une inférence robuste à des niveaux plus fins pour les sous-domaines d’intérêt. Nous examinons les interactions profondes et introduisons des distributions a priori structurées pour le lissage et la stabilisation des estimations. Le calcul se fait par Stan et avec le paquet rstanarm du code source libre R, disponible pour utilisation publique. Nous évaluons les propriétés selon le plan de la procédure bayésienne. Nous recourons à des études en simulation pour illustrer comment la prédiction basée sur un modèle et l’inférence pondérée peuvent donner de meilleurs résultats que la pondération classique. Nous appliquons la méthode à la New York Longitudinal Study of Wellbeing (LSW). La nouvelle approche produit des poids lissés et rend plus efficace une inférence robuste de population finie, plus particulièrement pour des sous-ensembles de la population.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 12-001-X202000100002
    Description :

    On a besoin de méthodes par modèle pour estimer des paramètres d’intérêt de petit domaine, comme les totaux et les moyennes, là où les méthodes classiques d’estimation directe ne peuvent garantir une précision suffisante. Les modèles au niveau des unités et au niveau des domaines sont les plus répandus dans la pratique. S’il s’agit d’un modèle au niveau des unités, il est possible d’obtenir des estimateurs efficaces par modèle si le plan de sondage est tel que les modèles d’échantillon et de population coïncident, c’est-à-dire que le plan d’échantillonnage n’est pas informatif pour le modèle en question. Si en revanche le plan de sondage est informatif pour le modèle, les probabilités de sélection seront liées à la variable d’intérêt même après conditionnement par les données auxiliaires disponibles, d’où l’implication que le modèle de la population ne vaut plus pour l’échantillon. Pfeffermann et Sverchkov (2007) se sont reportés aux relations entre les distributions de population et d’échantillon de la variable étudiée pour obtenir des prédicteurs semi-paramétriques approximativement sans biais des moyennes de domaine dans des plans d’échantillonnage informatifs. La procédure qu’ils ont employée est applicable aux domaines avec et sans échantillon. Verret, Rao et Hidiroglou (2015) ont étudié d’autres méthodes utilisant une fonction appropriée des probabilités de sélection d’unités comme variable auxiliaire supplémentaire. Leur technique a donné des estimateurs Empirical Best Linear Unbiased Prediction (EBLUP) approximativement sans biais pour les moyennes de petit domaine. Dans le présent exposé, nous étendons la méthode de Verret et coll. (2015) en ne formant aucune hypothèse au sujet des probabilités d’inclusion. Nous nous contentons d’intégrer ces dernières au modèle au niveau des unités en utilisant une fonction lisse des probabilités d’inclusion. C’est une fonction que nous estimons par une approximation locale donnant un estimateur polynomial local. Nous proposons une méthode bootstrap conditionnelle pour l’estimation de l’erreur quadratique moyenne (EQM) des estimateurs polynomiaux locaux et des estimateurs EBLUP. Nous examinons par simulation le biais et les propriétés d’efficacité de l’estimateur polynomial local. Nous présentons enfin les résultats de l’estimateur bootstrap de l’EQM.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201900300003
    Description :

    Les formules largement utilisées pour la variance de l’estimateur par le ratio peuvent mener à une sérieuse sous-estimation quand l’échantillon est de petite taille; voir Sukhatme (1954), Koop (1968), Rao (1969) et Cochran (1977, pages 163 et 164). Nous proposons ici comme solution à ce problème classique de nouveaux estimateurs de la variance et de l’erreur quadratique moyenne de l’estimateur par le ratio qui ne sont pas entachés d’un important biais négatif. Des formules d’estimation semblables peuvent s’obtenir pour d’autres estimateurs par le ratio, comme il en est question dans Tin (1965). Nous comparons trois estimateurs de l’erreur quadratique moyenne de l’estimateur par le ratio dans une étude par simulation.

    Date de diffusion : 2019-12-17
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :