Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (5)

Tout (5) ((5 résultats))

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30

  • Articles et rapports : 12-001-X19970023613
    Description :

    Dans bien des cas, les meilleures décisions en matière de politiques sont celles qui peuvent s'appuyer sur des données statistiques, elles-mêmes obtenues d'analyses de microdonnées pertinentes. Cependant, il arrive parfois que l'on dispose de toutes les données nécessaires mais que celles-ci soient réparties entre de multiples fichiers pour lesquels il n'existe pas d'identificateurs communs (p. ex. numéro d'assurance sociale, numéro d'identification de l'employeur ou numéro de sécurité sociale). Nous proposons ici une méthode pour analyser deux fichiers de ce genre: 1) lorsqu'il existe des informations communes non uniques, sujettes à de nombreuses erreurs et 2) lorsque chaque fichier de base contient des données quantitatives non communes qui peuvent être reliées au moyen de modèles appropriés. Une telle situation peut se produire lorsqu'on utilise des fichiers d'entreprises qui n'ont en commun que l'information - difficile à utiliser - sur le nom et l'adresse, par exemple un premier fichier portant sur les produits énergétiques consommés par les entreprises et l'autre fichier regroupant les données sur le type et la quantité de biens produits. Une autre situation similaire peut survenir avec des fichiers sur des particuliers, dont le premier contiendrait les données sur les gains, le deuxième, des renseignements sur les dépenses reliées à la santé et le troisième, des données sur les revenus complémentaires. Le but de la méthode présentée est de réaliser des analyses statistiques valables, avec production ou non de fichiers de microdonnées pertinentes.

    Date de diffusion : 1998-03-12
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (4)

Analyses (4) ((4 résultats))

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X19970023613
    Description :

    Dans bien des cas, les meilleures décisions en matière de politiques sont celles qui peuvent s'appuyer sur des données statistiques, elles-mêmes obtenues d'analyses de microdonnées pertinentes. Cependant, il arrive parfois que l'on dispose de toutes les données nécessaires mais que celles-ci soient réparties entre de multiples fichiers pour lesquels il n'existe pas d'identificateurs communs (p. ex. numéro d'assurance sociale, numéro d'identification de l'employeur ou numéro de sécurité sociale). Nous proposons ici une méthode pour analyser deux fichiers de ce genre: 1) lorsqu'il existe des informations communes non uniques, sujettes à de nombreuses erreurs et 2) lorsque chaque fichier de base contient des données quantitatives non communes qui peuvent être reliées au moyen de modèles appropriés. Une telle situation peut se produire lorsqu'on utilise des fichiers d'entreprises qui n'ont en commun que l'information - difficile à utiliser - sur le nom et l'adresse, par exemple un premier fichier portant sur les produits énergétiques consommés par les entreprises et l'autre fichier regroupant les données sur le type et la quantité de biens produits. Une autre situation similaire peut survenir avec des fichiers sur des particuliers, dont le premier contiendrait les données sur les gains, le deuxième, des renseignements sur les dépenses reliées à la santé et le troisième, des données sur les revenus complémentaires. Le but de la méthode présentée est de réaliser des analyses statistiques valables, avec production ou non de fichiers de microdonnées pertinentes.

    Date de diffusion : 1998-03-12
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30
Date de modification :