Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (9)

Tout (9) ((9 résultats))

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202000100006
    Description :

    Dans les enquêtes, les bornes logiques entre variables ou entre vagues d’enquêtes compliquent l’imputation des valeurs manquantes. Nous proposons une nouvelle méthode d’imputation multiple par la régression pour traiter les non-réponses d’enquête avec bornes logiques bilatérales. La méthode d’imputation proposée satisfait automatiquement aux conditions de bornes sans procédure supplémentaire d’acceptation ou de rejet et utilise l’information sur les bornes pour dériver une valeur imputée et déterminer la pertinence de la valeur imputée. Les résultats de la simulation montrent que notre nouvelle méthode d’imputation surpasse les méthodes d’imputation actuelles pour les estimations de la moyenne et des quantiles, quels que soient les taux de valeurs manquantes, les distributions d’erreurs et les mécanismes de valeurs manquantes. Nous appliquons notre méthode pour imputer la variable du « nombre d’années de tabagisme » autodéclaré dans les dépistages médicaux successifs de la population coréenne.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 11-633-X2017006
    Description :

    Ce document décrit une méthode d’imputation des codes postaux manquants dans une base de données longitudinale. La base de données Cohorte santé et environnement du Recensement du Canada (CSERCan) de 1991, qui contient des renseignements sur les répondants au questionnaire détaillé du Recensement de 1991, couplée avec les fichiers des déclarations de revenus T1 pour la période allant de 1984 à 2011, est utilisée pour illustrer et valider la méthode. La cohorte contient jusqu’à 28 champs consécutifs de codes postaux de résidences, mais en raison des vides fréquents dans l’historique des codes postaux, les codes postaux manquants doivent être imputés. Pour valider la méthode d’imputation, deux expériences ont été mises au point dans lesquelles 5 % et 10 % de tous les codes postaux issus d’un sous-ensemble comportant des historiques complets ont été effacés de façon aléatoire et imputés.

    Date de diffusion : 2017-03-13

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 12-001-X198600114440
    Description :

    Afin de répondre aux exigences de traitement de la plupart de ses enquêtes, Statistique Canada a mis sur pied un projet visant à élaborer un système généralisé de contrôle et d’imputation. Les auteurs de ce document analysent les diverses méthodes d’imputation qui ont été proposées dans le cadre de ce projet, pour traiter la non-réponse partielle. Ils se penchent aussi sur les aspects importants de l’application de ces propositions dans un système généralisé.

    Date de diffusion : 1986-06-16

  • Articles et rapports : 12-001-X197800254833
    Description : Les petits entrepreneurs se plaignent de la quantité de formules qu’il leur faut remplir et ont tendance à accuser les responsables de la collecte des statistiques. Les dossiers administratifs constituent une autre source possible, mais il y manque souvent des renseignements essentiels aux enquêteurs.

    Le système d’imputation à l’aide des données fiscales a recours aux données fiscales recueillies par Revenu Canada auprès d’un grand nombre d’entreprises et aux données obtenues par sondage auprès d’un petit sous-ensemble de ces entreprises. Les données sur les entreprises qui ne font pas partie de l’échantillon du sondage sont imputées (estimées) par la méthode du hot-deck, certaines corrections étant apportées pour assurer le respect de diverses règles de validation. Les résultats d’une simulation semblent indiquer que cette méthode possède des propriétés statistiques raisonnables. Les estimateurs (des moyennes ou des totaux) sont sans biais, et leurs variances présentent des grandeurs comparables à celles des variances des estimateurs obtenus par la méthode du quotient.
    Date de diffusion : 1978-12-15

  • Articles et rapports : 12-001-X197800254830
    Description :

    L’article analyse les problèmes posés par les mesures applicables, à diverses étapes de la planification d’une enquête, pour contrer la non-réponse, les répercussions de ces mesures sur l'erreur quadratique moyenne, ainsi que l’utilité pratique, les avantages et les inconvénients de ces mesures. Il examine aussi certaines questions théoriques touchant la complexité et les niveaux d’imputation. Il existe diverses méthodes d’imputation : par pondération, par reproduction et par substitution d’enregistrements. L’article traite aussi de certaines questions méthodologiques concernant le biais et la variance.

    Date de diffusion : 1978-12-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (9)

Analyses (9) ((9 résultats))

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202000100006
    Description :

    Dans les enquêtes, les bornes logiques entre variables ou entre vagues d’enquêtes compliquent l’imputation des valeurs manquantes. Nous proposons une nouvelle méthode d’imputation multiple par la régression pour traiter les non-réponses d’enquête avec bornes logiques bilatérales. La méthode d’imputation proposée satisfait automatiquement aux conditions de bornes sans procédure supplémentaire d’acceptation ou de rejet et utilise l’information sur les bornes pour dériver une valeur imputée et déterminer la pertinence de la valeur imputée. Les résultats de la simulation montrent que notre nouvelle méthode d’imputation surpasse les méthodes d’imputation actuelles pour les estimations de la moyenne et des quantiles, quels que soient les taux de valeurs manquantes, les distributions d’erreurs et les mécanismes de valeurs manquantes. Nous appliquons notre méthode pour imputer la variable du « nombre d’années de tabagisme » autodéclaré dans les dépistages médicaux successifs de la population coréenne.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 11-633-X2017006
    Description :

    Ce document décrit une méthode d’imputation des codes postaux manquants dans une base de données longitudinale. La base de données Cohorte santé et environnement du Recensement du Canada (CSERCan) de 1991, qui contient des renseignements sur les répondants au questionnaire détaillé du Recensement de 1991, couplée avec les fichiers des déclarations de revenus T1 pour la période allant de 1984 à 2011, est utilisée pour illustrer et valider la méthode. La cohorte contient jusqu’à 28 champs consécutifs de codes postaux de résidences, mais en raison des vides fréquents dans l’historique des codes postaux, les codes postaux manquants doivent être imputés. Pour valider la méthode d’imputation, deux expériences ont été mises au point dans lesquelles 5 % et 10 % de tous les codes postaux issus d’un sous-ensemble comportant des historiques complets ont été effacés de façon aléatoire et imputés.

    Date de diffusion : 2017-03-13

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 12-001-X198600114440
    Description :

    Afin de répondre aux exigences de traitement de la plupart de ses enquêtes, Statistique Canada a mis sur pied un projet visant à élaborer un système généralisé de contrôle et d’imputation. Les auteurs de ce document analysent les diverses méthodes d’imputation qui ont été proposées dans le cadre de ce projet, pour traiter la non-réponse partielle. Ils se penchent aussi sur les aspects importants de l’application de ces propositions dans un système généralisé.

    Date de diffusion : 1986-06-16

  • Articles et rapports : 12-001-X197800254833
    Description : Les petits entrepreneurs se plaignent de la quantité de formules qu’il leur faut remplir et ont tendance à accuser les responsables de la collecte des statistiques. Les dossiers administratifs constituent une autre source possible, mais il y manque souvent des renseignements essentiels aux enquêteurs.

    Le système d’imputation à l’aide des données fiscales a recours aux données fiscales recueillies par Revenu Canada auprès d’un grand nombre d’entreprises et aux données obtenues par sondage auprès d’un petit sous-ensemble de ces entreprises. Les données sur les entreprises qui ne font pas partie de l’échantillon du sondage sont imputées (estimées) par la méthode du hot-deck, certaines corrections étant apportées pour assurer le respect de diverses règles de validation. Les résultats d’une simulation semblent indiquer que cette méthode possède des propriétés statistiques raisonnables. Les estimateurs (des moyennes ou des totaux) sont sans biais, et leurs variances présentent des grandeurs comparables à celles des variances des estimateurs obtenus par la méthode du quotient.
    Date de diffusion : 1978-12-15

  • Articles et rapports : 12-001-X197800254830
    Description :

    L’article analyse les problèmes posés par les mesures applicables, à diverses étapes de la planification d’une enquête, pour contrer la non-réponse, les répercussions de ces mesures sur l'erreur quadratique moyenne, ainsi que l’utilité pratique, les avantages et les inconvénients de ces mesures. Il examine aussi certaines questions théoriques touchant la complexité et les niveaux d’imputation. Il existe diverses méthodes d’imputation : par pondération, par reproduction et par substitution d’enregistrements. L’article traite aussi de certaines questions méthodologiques concernant le biais et la variance.

    Date de diffusion : 1978-12-15
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :