Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Imputation

Contenu archivé

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

En elle-même, la vérification apporte peu à l'amélioration générale des résultats réels de l'enquête si aucune mesure corrective n'est prise lorsque les articles ne respectent pas les règles établies durant la vérification. Lorsqu'il manque des données à un fichier, l'imputation a lieu en général après le traitement des données en fonction des règles de vérification.

Les non-réponses et les données invalides influent définitivement sur la qualité des résultats de l'enquête. L'imputation résout les problèmes des réponses manquantes, invalides ou incomplètes relevées durant la vérification, ainsi que les erreurs de vérification qui peuvent survenir. À ce stade, toutes les données font l'objet d'une recherche d'erreurs parce que les répondants ne sont pas les seuls à commettre des erreurs, qui risquent aussi de se glisser durant le codage et la vérification.

Les procédures d'imputation visent à combler les lacunes. Ainsi, les modifications sont apportées au nombre minimal de champs jusqu'à ce que les enregistrements aient fait l'objet de toutes les vérifications. À la détection de ces erreurs, les données des entrées invalides, manquantes ou incomplètes sont imputées ou remplacées par des valeurs appropriées. Nous attribuons aussi des réponses aux questions non répondues. Cette procédure relève de personnes qui ont un accès complet aux microdonnées et qui détiennent de bons renseignements auxiliaires.

Les procédures d'imputation sont établies lors de la planification et de l'élaboration de l'enquête. Certains problèmes sont éliminés plus tôt par une communication avec le répondant ou par l'examen manuel du questionnaire, mais en général il est impossible de résoudre tous les problèmes en raison du fardeau de réponse, du coût et des contraintes de temps. Ainsi, l'imputation sert à combler les lacunes de la vérification.

Bien que l'imputation puisse améliorer la qualité des données finales, il importe de choisir avec soin la méthodologie d'imputation pertinente. Certaines méthodes d'imputation ne préservent pas la relation entre les variables. En fait, certaines introduisent même une distorsion dans la répartition sous-jacente.

L'imputation des données exige que nous tenions compte de plusieurs facteurs. En général, l'imputation déductive est la première méthode utilisée. Cette méthode est utilisée lorsqu’on peut déduire une valeur avec certitude. Elle peut avoir lieu durant la collecte, la saisie, la vérification ou les étapes ultérieures du traitement des données. L'imputation déductive sert lorsqu'il n'y a qu'une seule réponse possible à la question (p. ex., toutes les valeurs sont données mais il manque le total ou le sous-total).

Voici d'autres méthodes d'imputation :

  • La méthode du hot deck recourt à d'autres enregistrements (donneurs) de la même enquête pour répondre à la question (ou à l'ensemble de questions) qui doit faire l'objet d'une imputation. Le donneur peut être choisi au hasard parmi un groupe de donneurs affichant le même jeu de caractéristiques prédéterminées. Par exemple, dans le cas où un questionnaire serait retourné parce qu'il manquait le revenu dans un enregistrement, nous pourrions regrouper toutes les unités déclarantes de la même province, de la même profession et du même nombre d'années d'expérience, puis en choisir un au hasard. On dresserait ensuite une liste des donneurs qui répondent à ces critères, puis on en choisirait un au hasard. Le revenu déclaré par cette personne tiendrait lieu de revenu pour la réponse manquante ou invalide.
  • La méthode de la substitution repose sur la disponibilité de données comparables. Les données imputées peuvent être extraites de l'enregistrement du répondant obtenu lors d'un cycle antérieur de l'enquête ou d'un autre fichier source (p. ex. fichiers administratifs ou autres fichiers d'enquête du même répondant). Cette méthode est souvent difficile à réaliser parce que, dans de nombreux cas, il n'existe aucune autre information au sujet de ce répondant, à part l'information de l'enquête en cours.
  • La méthode de l'estimateur recourt à une information tirée d'une autre question ou d'une autre réponse d'un enregistrement qui fera l'objet d'une imputation (du cycle actuel ou d'un cycle antérieur) et, au moyen d'opérations mathématiques, produit une valeur plausible destinée au champ vierge ou erroné.

    La méthode la plus simple est désignée imputation moyenne. Cette méthode permet l'insertion dans le champ vierge d'une valeur moyenne tirée des unités déclarantes affichant le même jeu de caractéristiques prédéterminées. Par exemple, s'il manque le revenu à un enregistrement, nous pourrions imputer le revenu moyen de la même province pour la même profession et la même expérience. Il existe aussi d'autres méthodes de l'estimateur plus poussées.
  • La méthode du cold deck ressemble à celle du hot deck, sauf que le donneur ne provient pas de la même enquête. Il peut venir d’enquêtes antérieures ou alors d’un recensement. Ces valeurs peuvent découler de données historiques, de l'expertise de la spécialité, etc. Un questionnaire « parfait » est créé pour répondre aux besoins complets ou partiels de l'imputation.
  • On peut aussi trouver le donneur par une méthode appelée estimateur du plus proche voisin. Dans un tel cas, nous devons élaborer, à partir de caractéristiques prédéterminées, un critère quelconque pour déterminer laquelle des unités déclarantes ressemble le plus à l'unité pour laquelle il manque une valeur. L'unité la plus semblable tient alors lieu de donneur.

La méthode d'imputation peut varier d'une enquête à l'autre et, dans des circonstances uniques ou particulières, à l'intérieur d'une même enquête. Ces méthodes peuvent être appliquées manuellement ou au moyen d'un système automatisé. La valeur imputée est déterminée à la suite d'une communication avec le répondant ou par le jugement d'un spécialiste du sujet. Pour faciliter l'imputation, Statistique Canada a écrit des programmes spécialisés d'imputation de données à la suite de commentaires sur la méthodologie formulés par des statisticiens d'expérience qui ont analysé l'enquête et suggéré des approches pour imputer avec la plus grande justesse des données significatives.

Les méthodes d'imputation peuvent être effectuées automatiquement, manuellement ou en combinaison. Bien réalisée, l'imputation restreint les écarts causés par l'absence d'enregistrements complets et précis, offre une piste de vérification destinée à l'évaluation et veille à uniformiser à l'interne les enregistrements imputés. Une bonne procédure d'imputation est automatisée, objective et efficiente.