Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Enquête ou programme statistique

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X20050019458
    Description :

    La communication proposée présente une méthodologie alternative laissant aux données le soin de définir des classes homogènes, déterminées par une classification ascendante hiérachique sur les valeurs des détails observées. Le problème est ensuite d'affecter une entreprise non répondante à l'une de ces classes. Plusieurs procédures d'affectation, basées sur des variables explicatives disponibles dans la déclaration fiscales, sont comparées, sur données brutes ou discrétisées : analyses discriminantes paramétrique et non-paramétrique, modèles log-linéaires etc.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019494
    Description :

    Traditionnellement, les indicateurs de qualité utilisés pour les enquêtes ont été la variance échantillonnale, l'erreur de couverture, le taux de non-réponse et le taux d'imputation. Pour obtenir un taux d'imputation lorsque l'on combine des données d'enquêtes et des données administratives, un des problèmes est le calcul-même de ce taux d'imputation. Cette communication présentera une approche pour solutionner ce problème. En premier lieu, on discutera des propriétés désirées lorsque l'on développe un taux en général. On développera en deuxième lieu quelques concepts et définitions qui nous aideront à développer des taux combinés. En troisième lieu, on proposera différents taux combinés dans le cas de l'imputation. On présentera alors trois différents taux combinés et on discutera des propriétés de chaque taux. On terminera par quelques exemples illustratifs.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 75F0002M2006007
    Description :

    Le présent document résume les données sur les caractéristiques du logement et les dépenses liées au logement qui sont disponibles dans l'EDTR, une attention particulière étant portée aux méthodes d'imputation utilisées pour ces données. De 1994 à 2001, l'enquête ne portait que sur quelques caractéristiques, surtout le mode d'occupation et le type de logement. En 2002, avec le début de la commandite de la Société canadienne d'hypothèques et de logement (SCHL), plusieurs autres caractéristiques ainsi que des dépenses détaillées liées au logement ont été ajoutées à l'enquête. Diverses méthodes d'imputation ont aussi été adoptées à ce moment là, pour remplacer les valeurs manquantes attribuables à la non réponse à l'enquête, et pour fournir les coûts des services publics qui contribuent au coût total du logement. Ces méthodes tirent parti du plan de sondage longitudinal de l'EDTR, et elles utilisent également des données d'autres sources comme l'Enquête sur la population active et le Recensement. En juin 2006, d'autres améliorations aux méthodes d'imputation ont été adoptées pour 2004 et appliquées à des années antérieures dans le cadre d'une révision historique. Le présent rapport documente également cette révision.

    Date de diffusion : 2006-07-26

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20010015857
    Description :

    Le présent article décrit et évalue une procédure d'imputation des valeurs manquantes pour une structure relativement complexe des données lorsque celles-ci manquent au hasard. On obtient les imputations en ajustant une séquence de modèles de régression et en tirant les valeurs des distributions prédictives correspondantes. Les types de modèle de régression utilisés sont les suivants : linéaire, logistique, de Poisson, logit généralisé, ou encore un mélange qui dépend du type de variable imputé. Deux autres caractéristiques communes du processus d'imputation sont intégrées : la restriction à une sous-population pertinente pour certaines variables et des limites ou contraintes logiques pour les valeurs imputées. Les restrictions comportent la création de sous-ensembles d'unités d'échantillon répondant à certains critères au moment de l'ajustement des modèles de régression. Les limites supposent que l'on tire des valeurs d'une distribution prédictive tronquée. L'élaboration de cette méthode s'est inspirée en partie de l'analyse de deux fichiers de données utilisés à titre d'illustration. On applique la procédure de régression séquentielle à l'analyse d'imputations multiples pour les deux problèmes appliqués. Les propriétés d'échantillonnage des inférences tirées de fichiers de données polyimputées créés à l'aide de la méthode de régresison séquentielle sont évaluées en fonction de fichiers de données simulées.

    Date de diffusion : 2001-08-22

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1997006
    Description :

    Dans ce document, on présente la méthode de vérification et d'imputation retenue lors du traitement des données sur le revenu de la première vague de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1997-12-31
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (11)

Analyses (11) (0 à 10 de 11 résultats)

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X20050019458
    Description :

    La communication proposée présente une méthodologie alternative laissant aux données le soin de définir des classes homogènes, déterminées par une classification ascendante hiérachique sur les valeurs des détails observées. Le problème est ensuite d'affecter une entreprise non répondante à l'une de ces classes. Plusieurs procédures d'affectation, basées sur des variables explicatives disponibles dans la déclaration fiscales, sont comparées, sur données brutes ou discrétisées : analyses discriminantes paramétrique et non-paramétrique, modèles log-linéaires etc.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019494
    Description :

    Traditionnellement, les indicateurs de qualité utilisés pour les enquêtes ont été la variance échantillonnale, l'erreur de couverture, le taux de non-réponse et le taux d'imputation. Pour obtenir un taux d'imputation lorsque l'on combine des données d'enquêtes et des données administratives, un des problèmes est le calcul-même de ce taux d'imputation. Cette communication présentera une approche pour solutionner ce problème. En premier lieu, on discutera des propriétés désirées lorsque l'on développe un taux en général. On développera en deuxième lieu quelques concepts et définitions qui nous aideront à développer des taux combinés. En troisième lieu, on proposera différents taux combinés dans le cas de l'imputation. On présentera alors trois différents taux combinés et on discutera des propriétés de chaque taux. On terminera par quelques exemples illustratifs.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 75F0002M2006007
    Description :

    Le présent document résume les données sur les caractéristiques du logement et les dépenses liées au logement qui sont disponibles dans l'EDTR, une attention particulière étant portée aux méthodes d'imputation utilisées pour ces données. De 1994 à 2001, l'enquête ne portait que sur quelques caractéristiques, surtout le mode d'occupation et le type de logement. En 2002, avec le début de la commandite de la Société canadienne d'hypothèques et de logement (SCHL), plusieurs autres caractéristiques ainsi que des dépenses détaillées liées au logement ont été ajoutées à l'enquête. Diverses méthodes d'imputation ont aussi été adoptées à ce moment là, pour remplacer les valeurs manquantes attribuables à la non réponse à l'enquête, et pour fournir les coûts des services publics qui contribuent au coût total du logement. Ces méthodes tirent parti du plan de sondage longitudinal de l'EDTR, et elles utilisent également des données d'autres sources comme l'Enquête sur la population active et le Recensement. En juin 2006, d'autres améliorations aux méthodes d'imputation ont été adoptées pour 2004 et appliquées à des années antérieures dans le cadre d'une révision historique. Le présent rapport documente également cette révision.

    Date de diffusion : 2006-07-26

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20010015857
    Description :

    Le présent article décrit et évalue une procédure d'imputation des valeurs manquantes pour une structure relativement complexe des données lorsque celles-ci manquent au hasard. On obtient les imputations en ajustant une séquence de modèles de régression et en tirant les valeurs des distributions prédictives correspondantes. Les types de modèle de régression utilisés sont les suivants : linéaire, logistique, de Poisson, logit généralisé, ou encore un mélange qui dépend du type de variable imputé. Deux autres caractéristiques communes du processus d'imputation sont intégrées : la restriction à une sous-population pertinente pour certaines variables et des limites ou contraintes logiques pour les valeurs imputées. Les restrictions comportent la création de sous-ensembles d'unités d'échantillon répondant à certains critères au moment de l'ajustement des modèles de régression. Les limites supposent que l'on tire des valeurs d'une distribution prédictive tronquée. L'élaboration de cette méthode s'est inspirée en partie de l'analyse de deux fichiers de données utilisés à titre d'illustration. On applique la procédure de régression séquentielle à l'analyse d'imputations multiples pour les deux problèmes appliqués. Les propriétés d'échantillonnage des inférences tirées de fichiers de données polyimputées créés à l'aide de la méthode de régresison séquentielle sont évaluées en fonction de fichiers de données simulées.

    Date de diffusion : 2001-08-22

  • Articles et rapports : 12-001-X199400214423
    Description :

    La plupart des enquêtes souffrent du problème de données manquantes attribuable à la non-réponse. Pour traiter ce problème, on a souvent recours à l’imputation afin de créer un « ensemble de données complet », c’est-à-dire, un ensemble de données composé d’observations réelles (pour les répondants) et d’imputations (pour les non-répondants). Habituellement, on effectue l’imputation en supposant un mécanisme de réponse non-confondu. Quand cette hypothèse se révèle fausse, un biais est introduit dans l’estimateur ordinaire de la moyenne de population calculé à partir de l’ensemble de données complet. Dans le présent article, nous étudions l’idée d’employer des facteurs de correction simples pour régler le problème du biais dans le cas où l’on a recours à l’imputation par quotient. Nous évaluons l’efficacité des facteurs de correction à l’aide d’une simulation de Monte Carlo dans laquelle nous utilisons des ensembles de données produits artificiellement qui représentent divers taux de non-réponse et mécanismes de non-réponse et diverses superpopulations et corrélations entre la variable étudiée et la variable auxiliaire. Nous constatons que ces facteurs de correction sont efficaces, particulièrement lorsque la population suit le modèle sous-jacent l’imputation par quotient. Nous traitons aussi d’une option pour estimer la variance des estimations ponctuelles corrigées.

    Date de diffusion : 1994-12-15
Références (1)

Références (1) ((1 résultat))

Date de modification :