Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (29)

Tout (29) (0 à 10 de 29 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202100100008
    Description :

    Les changements dans le plan d’une enquête répétée entraînent généralement des effets systématiques dans les estimations de l’échantillon, qu’on appellera discontinuités dans la suite du texte. Pour ne pas confondre les changements réels d’une période à l’autre avec les effets d’un remaniement, on quantifie souvent les discontinuités en mettant en œuvre parallèlement le plan précédent et le nouveau pendant un certain temps. Les tailles d’échantillon de ces exécutions parallèles sont généralement trop petites pour que des estimateurs directs puissent être appliqués aux discontinuités des domaines. On propose un modèle de Fay-Herriot (FH) hiérarchique bayésien bivarié pour prédire plus précisément les discontinuités de domaine et on l’applique à un remaniement de l’enquête néerlandaise sur la victimisation criminelle (Dutch Crime Victimzation Survey). Cette méthode est comparée à un modèle de FH univarié où les estimations directes selon l’approche ordinaire sont utilisées comme covariables dans un modèle de FH pour l’autre approche appliquée sur une taille d’échantillon réduite et un modèle de FH univarié où les estimations directes des discontinuités sont modélisées directement. On propose une procédure de sélection ascendante corrigée qui minimise le critère d’information de Watanabe-Akaike (Watanabe-Akaike Information Criterion ou WAIC) jusqu’à ce que la réduction du WAIC soit inférieure à l’erreur-type de ce critère. Au moyen de cette approche, on choisit des modèles plus parcimonieux, ce qui empêche de sélectionner des modèles complexes qui tendent à surajuster les données.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201900300001
    Description :

    Les estimateurs de la variance par linéarisation classiques de l’estimateur par la régression généralisée sont souvent trop petits, ce qui entraîne des intervalles de confiance ne donnant pas le taux de couverture souhaité. Pour remédier à ce problème, on peut apporter des ajustements à la matrice chapeau dans l’échantillonnage à deux degrés. Nous présentons la théorie de plusieurs nouveaux estimateurs de la variance et les comparons aux estimateurs classiques dans une série de simulations. Les estimateurs proposés corrigent les biais négatifs et améliorent les taux de couverture de l’intervalle de confiance dans diverses situations correspondant à celles rencontrées en pratique.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300005
    Description :

    On obtient les estimations mensuelles du chômage provincial fondées sur l’Enquête sur la population active (EPA) des Pays-Bas au moyen de modèles de séries chronologiques. Les modèles tiennent compte du biais de renouvellement et de la corrélation sérielle causée par le plan d’échantillonnage à panel rotatif de l’EPA. L’article compare deux méthodes d’estimation de modèles de séries chronologiques structurels (MSCS). Dans la première méthode, les MSCS sont exprimés sous forme de modèles espace-état, auxquels sont appliqués le filtre et le lisseur de Kalman dans un cadre fréquentiste. L’autre solution consiste à exprimer ces MSCS sous forme de modèles multiniveaux de séries chronologiques dans un cadre bayésien hiérarchique et à les estimer à l’aide de l’échantillonneur de Gibbs. Nous comparons ici les estimations mensuelles du chômage et les erreurs-types fondées sur ces modèles pour les 12 provinces des Pays-Bas. Nous discutons ensuite des avantages et des inconvénients de la méthode multiniveau et de la méthode espace-état. Les MSCS multivariés conviennent pour l’emprunt d’information dans le temps et l’espace. La modélisation de la matrice de corrélation complète entre les composantes des séries chronologiques accroît rapidement le nombre d’hyperparamètres qu’il faut estimer. La modélisation de facteur commun est une des façons possibles d’obtenir des modèles plus parcimonieux qui continuent de tenir compte de la corrélation transversale. L’article propose une méthode encore plus parcimonieuse, dans laquelle les domaines ont en commun une tendance globale et leurs propres tendances indépendantes pour les écarts propres au domaine par rapport à la tendance globale. L’approche par modélisation de séries chronologiques est particulièrement adaptée à l’estimation de la variation mensuelle du chômage.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900100004
    Description :

    Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (29)

Analyses (29) (0 à 10 de 29 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202100100008
    Description :

    Les changements dans le plan d’une enquête répétée entraînent généralement des effets systématiques dans les estimations de l’échantillon, qu’on appellera discontinuités dans la suite du texte. Pour ne pas confondre les changements réels d’une période à l’autre avec les effets d’un remaniement, on quantifie souvent les discontinuités en mettant en œuvre parallèlement le plan précédent et le nouveau pendant un certain temps. Les tailles d’échantillon de ces exécutions parallèles sont généralement trop petites pour que des estimateurs directs puissent être appliqués aux discontinuités des domaines. On propose un modèle de Fay-Herriot (FH) hiérarchique bayésien bivarié pour prédire plus précisément les discontinuités de domaine et on l’applique à un remaniement de l’enquête néerlandaise sur la victimisation criminelle (Dutch Crime Victimzation Survey). Cette méthode est comparée à un modèle de FH univarié où les estimations directes selon l’approche ordinaire sont utilisées comme covariables dans un modèle de FH pour l’autre approche appliquée sur une taille d’échantillon réduite et un modèle de FH univarié où les estimations directes des discontinuités sont modélisées directement. On propose une procédure de sélection ascendante corrigée qui minimise le critère d’information de Watanabe-Akaike (Watanabe-Akaike Information Criterion ou WAIC) jusqu’à ce que la réduction du WAIC soit inférieure à l’erreur-type de ce critère. Au moyen de cette approche, on choisit des modèles plus parcimonieux, ce qui empêche de sélectionner des modèles complexes qui tendent à surajuster les données.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201900300001
    Description :

    Les estimateurs de la variance par linéarisation classiques de l’estimateur par la régression généralisée sont souvent trop petits, ce qui entraîne des intervalles de confiance ne donnant pas le taux de couverture souhaité. Pour remédier à ce problème, on peut apporter des ajustements à la matrice chapeau dans l’échantillonnage à deux degrés. Nous présentons la théorie de plusieurs nouveaux estimateurs de la variance et les comparons aux estimateurs classiques dans une série de simulations. Les estimateurs proposés corrigent les biais négatifs et améliorent les taux de couverture de l’intervalle de confiance dans diverses situations correspondant à celles rencontrées en pratique.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300005
    Description :

    On obtient les estimations mensuelles du chômage provincial fondées sur l’Enquête sur la population active (EPA) des Pays-Bas au moyen de modèles de séries chronologiques. Les modèles tiennent compte du biais de renouvellement et de la corrélation sérielle causée par le plan d’échantillonnage à panel rotatif de l’EPA. L’article compare deux méthodes d’estimation de modèles de séries chronologiques structurels (MSCS). Dans la première méthode, les MSCS sont exprimés sous forme de modèles espace-état, auxquels sont appliqués le filtre et le lisseur de Kalman dans un cadre fréquentiste. L’autre solution consiste à exprimer ces MSCS sous forme de modèles multiniveaux de séries chronologiques dans un cadre bayésien hiérarchique et à les estimer à l’aide de l’échantillonneur de Gibbs. Nous comparons ici les estimations mensuelles du chômage et les erreurs-types fondées sur ces modèles pour les 12 provinces des Pays-Bas. Nous discutons ensuite des avantages et des inconvénients de la méthode multiniveau et de la méthode espace-état. Les MSCS multivariés conviennent pour l’emprunt d’information dans le temps et l’espace. La modélisation de la matrice de corrélation complète entre les composantes des séries chronologiques accroît rapidement le nombre d’hyperparamètres qu’il faut estimer. La modélisation de facteur commun est une des façons possibles d’obtenir des modèles plus parcimonieux qui continuent de tenir compte de la corrélation transversale. L’article propose une méthode encore plus parcimonieuse, dans laquelle les domaines ont en commun une tendance globale et leurs propres tendances indépendantes pour les écarts propres au domaine par rapport à la tendance globale. L’approche par modélisation de séries chronologiques est particulièrement adaptée à l’estimation de la variation mensuelle du chômage.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900100004
    Description :

    Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :