Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 1 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (8)

Tout (8) ((8 résultats))

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100009
    Description :

    L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

    Date de diffusion : 2021-06-24

  • 19-22-0004
    Description : L'un des principaux objectifs de la statistique consiste à présenter des données sous forme de renseignements faciles à résumer et à comprendre. L'utilisation d'outils de visualisation des données, comme les graphiques et les tableaux, est un moyen efficace d'atteindre cet objectif. Cette séance d'information vise à montrer des exemples de graphiques et de tableaux courants, à fournir des conseils pratiques pour aider les participants à choisir l'affichage approprié pour leurs données, et à déterminer ce qu'il faut éviter et pour quelle raison. De manière générale, l'objet est de renforcer la capacité statistique et d'améliorer la compréhension des techniques fondamentales qui favorisent la diffusion précise et efficace des statistiques et des résultats de recherche.

    https://www.statcan.gc.ca/fr/afc/information/19220004
    Date de diffusion : 2020-10-30

  • Articles et rapports : 12-001-X202000100006
    Description :

    Dans les enquêtes, les bornes logiques entre variables ou entre vagues d’enquêtes compliquent l’imputation des valeurs manquantes. Nous proposons une nouvelle méthode d’imputation multiple par la régression pour traiter les non-réponses d’enquête avec bornes logiques bilatérales. La méthode d’imputation proposée satisfait automatiquement aux conditions de bornes sans procédure supplémentaire d’acceptation ou de rejet et utilise l’information sur les bornes pour dériver une valeur imputée et déterminer la pertinence de la valeur imputée. Les résultats de la simulation montrent que notre nouvelle méthode d’imputation surpasse les méthodes d’imputation actuelles pour les estimations de la moyenne et des quantiles, quels que soient les taux de valeurs manquantes, les distributions d’erreurs et les mécanismes de valeurs manquantes. Nous appliquons notre méthode pour imputer la variable du « nombre d’années de tabagisme » autodéclaré dans les dépistages médicaux successifs de la population coréenne.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201900200001
    Description :

    L’élaboration de procédures d’imputation appropriées pour les données ayant des valeurs extrêmes ou des relations non linéaires avec des covariables constitue un défi important dans les enquêtes à grande échelle. Nous élaborons une procédure d’imputation pour les enquêtes complexes fondée sur la régression quantile semi-paramétrique. Nous appliquons cette méthode au Conservation Effects Assessment Project (CEAP), une enquête à grande échelle qui recueille des données utilisées pour quantifier la perte de sol provenant des champs de culture. Dans la procédure d’imputation, nous générons d’abord des valeurs imputées à partir d’un modèle semi-paramétrique pour les quantiles de la distribution conditionnelle de la réponse pour une covariable donnée. Ensuite, nous évaluons les paramètres d’intérêt à l’aide de la méthode généralisée des moments (MGM). Nous dérivons la distribution asymptotique des estimateurs MGM pour une classe générale de plans d’enquête complexes. Dans les simulations destinées à représenter les données du CEAP, nous évaluons les estimateurs de variance en fonction de la distribution asymptotique et comparons la méthode d’imputation par régression quantile (IRQ) semi-paramétrique à des solutions de rechange entièrement paramétriques et non paramétriques. La procédure de l’IRQ est plus efficace que les solutions de rechange non paramétriques et entièrement paramétriques, et les couvertures empiriques des intervalles de confiance se situent à moins de 1 % du niveau nominal de 95 %. Une application à l’estimation de l’érosion moyenne indique que l’IRQ pourrait être une option viable pour le CEAP.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100009
    Description :

    La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

    Date de diffusion : 2019-05-07
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (7)

Analyses (7) ((7 résultats))

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100009
    Description :

    L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202000100006
    Description :

    Dans les enquêtes, les bornes logiques entre variables ou entre vagues d’enquêtes compliquent l’imputation des valeurs manquantes. Nous proposons une nouvelle méthode d’imputation multiple par la régression pour traiter les non-réponses d’enquête avec bornes logiques bilatérales. La méthode d’imputation proposée satisfait automatiquement aux conditions de bornes sans procédure supplémentaire d’acceptation ou de rejet et utilise l’information sur les bornes pour dériver une valeur imputée et déterminer la pertinence de la valeur imputée. Les résultats de la simulation montrent que notre nouvelle méthode d’imputation surpasse les méthodes d’imputation actuelles pour les estimations de la moyenne et des quantiles, quels que soient les taux de valeurs manquantes, les distributions d’erreurs et les mécanismes de valeurs manquantes. Nous appliquons notre méthode pour imputer la variable du « nombre d’années de tabagisme » autodéclaré dans les dépistages médicaux successifs de la population coréenne.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201900200001
    Description :

    L’élaboration de procédures d’imputation appropriées pour les données ayant des valeurs extrêmes ou des relations non linéaires avec des covariables constitue un défi important dans les enquêtes à grande échelle. Nous élaborons une procédure d’imputation pour les enquêtes complexes fondée sur la régression quantile semi-paramétrique. Nous appliquons cette méthode au Conservation Effects Assessment Project (CEAP), une enquête à grande échelle qui recueille des données utilisées pour quantifier la perte de sol provenant des champs de culture. Dans la procédure d’imputation, nous générons d’abord des valeurs imputées à partir d’un modèle semi-paramétrique pour les quantiles de la distribution conditionnelle de la réponse pour une covariable donnée. Ensuite, nous évaluons les paramètres d’intérêt à l’aide de la méthode généralisée des moments (MGM). Nous dérivons la distribution asymptotique des estimateurs MGM pour une classe générale de plans d’enquête complexes. Dans les simulations destinées à représenter les données du CEAP, nous évaluons les estimateurs de variance en fonction de la distribution asymptotique et comparons la méthode d’imputation par régression quantile (IRQ) semi-paramétrique à des solutions de rechange entièrement paramétriques et non paramétriques. La procédure de l’IRQ est plus efficace que les solutions de rechange non paramétriques et entièrement paramétriques, et les couvertures empiriques des intervalles de confiance se situent à moins de 1 % du niveau nominal de 95 %. Une application à l’estimation de l’érosion moyenne indique que l’IRQ pourrait être une option viable pour le CEAP.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100009
    Description :

    La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

    Date de diffusion : 2019-05-07
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :