Imputation

Portée et objet
Principes
Lignes directrices
Indicateurs de qualité
Bibliographie

Portée et objet

L'imputation est le processus qui permet d'attribuer des valeurs de remplacement à des données manquantes, invalides ou incohérentes rejetées à l'étape de vérification des données. Ce processus a lieu après le suivi auprès des répondants (si possible), l'examen manuel et la correction des questionnaires (le cas échéant). L'imputation sert surtout au traitement de la nonréponse partielle, mais aussi, à l'occasion, de la nonréponse totale. La nonréponse totale a lieu lorsqu'on n'obtient aucune information utilisable pour un enregistrement donné tandis que la nonréponse partielle a lieu lorsqu'on n'obtient qu'une partie de l'information recherchée. Après l'imputation, le fichier des données d'enquête devrait uniquement renfermer des enregistrements plausibles et cohérents à l'interne; ces enregistrements peuvent ensuite être utilisés pour l'estimation de quantités d'intérêt de la population.

Principes

Selon le principe de Fellegi-Holt (Fellegi et Holt, 1976), il faut changer le moins de valeurs répondues possible de telle sorte que l'enregistrement complété se conforme à chacune des règles de vérification. La détermination des champs à imputer peut se faire avant l'imputation ou au même moment que l'imputation.

L'imputation est effectuée par les personnes qui ont un accès sans restriction aux microdonnées et qui possèdent ainsi de l'information auxiliaire connue pour les unités avec et sans champs faisant l'objet d'une imputation. Cette information auxiliaire peut servir à prédire les valeurs manquantes au moyen d'un modèle de régression, à repérer des donneurs « proches » de receveurs ou à définir des classes d'imputation (p. ex. Haziza et Beaumont, 2007). Elle peut également servir directement de valeurs de remplacement pour les valeurs manquantes inconnues.

Le principe fondamental de l'imputation réside dans l'utilisation de l'information auxiliaire disponible afin d'obtenir des approximations aussi précises que possible des valeurs manquantes inconnues et ainsi produire des estimations de qualité de caractéristiques de la population. L'application de ce principe devrait donc normalement entraîner la réduction autant du biais que de la variance attribuables à l'impossibilité d'observer toutes les valeurs souhaitées.

Les bons processus d'imputation sont informatisés, objectifs et reproductibles. Ils utilisent efficacement l'information auxiliaire à leur disposition, incluent une piste de vérification pour les besoins de l'évaluation et garantissent que les enregistrements imputés sont cohérents à l'interne.

Lignes directrices

Variables auxiliaires

  • Le choix des variables auxiliaires servant à l'imputation – qu'on appelle aussi variables de couplage pour l'imputation par donneur – devrait être dicté principalement par l'ampleur de leur association avec les variables à imputer. Choisir ces variables en considérant l'utilisation de techniques de modélisation et consulter des spécialistes du sujet pour obtenir des informations sur les variables.

  • Identifier les variables susceptibles d'agir comme variables auxiliaires pour l'imputation des données manquantes en explorant diverses sources de données (p. ex. données d'enquête en cours, données historiques, données administratives, paradonnées, etc.). Examiner la qualité et la pertinence des variables à sa disposition pour savoir lesquelles utiliser comme variables auxiliaires.

  • Évaluer le type de nonréponse. Plus spécifiquement, tenter de déterminer quelles variables auxiliaires peuvent expliquer le(s) mécanisme(s) de nonréponse afin d'utiliser ces variables pour enrichir la méthode d'imputation, surtout si elles sont également associées aux variables à imputer.

  • Tenir compte du type de caractéristiques à estimer (niveaux c. changements, agrégats de niveau supérieur c. petits domaines, caractéristique transversale c. caractéristique longitudinale) dans le choix des variables auxiliaires et de la stratégie d'imputation, afin de maintenir les relations d'intérêt. Par exemple, utiliser des variables auxiliaires historiques si vous vous intéressez aux changements ou des variables indiquant l'appartenance aux domaines (si possible) si vous vous intéressez à l'estimation pour des domaines.

Méthodes d'imputation et mise en œuvre

Les méthodes d'imputation appartiennent à l'une ou l'autre de ces catégories, stochastiques ou déterministes, selon qu'elles sont fondées sur un processus aléatoire ou non. (Kalton et Kasprzyk, 1986; Kovar et Whitridge, 1995). Il existe plusieurs méthodes d'imputation déterministes : l'imputation logique, l'imputation historique (par exemple, l'imputation par valeur précédente), l'imputation par la moyenne, l'imputation par le ratio, l'imputation par régression et l'imputation par le plus proche voisin. Bien que toutes déterministes, ces méthodes se divisent encore en deux catégories. D'une part, il y a celles qui déduisent la valeur imputée en se fondant uniquement sur l'information disponible pour le non-répondant et d'autres données auxiliaires (logique et historique); d'autre part, il y a celles qui recourent aux données observées d'unités répondantes de l'enquête. Les données observées des unités répondantes peuvent être utilisées directement en opérant un transfert à partir d'un enregistrement donneur ou en utilisant des modèles paramétriques explicites (ratio et régression). Du côté des méthodes d'imputation stochastique, on trouve la méthode du « hot deck » aléatoire, l'imputation par le plus proche voisin, quand on opère une sélection aléatoire à partir de plusieurs « proches voisins », la régression avec résidus aléatoires, ainsi que toute autre méthode déterministe recourant à des résidus aléatoires.

  • Il faut consacrer beaucoup d'efforts à la modélisation pour s'assurer de choisir les variables auxiliaires et le modèle d'imputation appropriés (le modèle d'imputation est un ensemble d'hypothèses relatives aux variables à imputer). Après avoir choisi son modèle d'imputation, définir la stratégie d'imputation afin qu'elle soit en accord, autant que possible, avec ce modèle. Cette démarche devrait permettre de mieux contrôler le biais et la variance dus à la nonréponse, sans compter qu'elle peut s'avérer nécessaire pour estimer correctement la variance.

  • Faire en sorte que l'enregistrement imputé soit cohérent à l'interne et qu'il ressemble le plus possible à l'enregistrement rejeté à l'étape de vérification des données. Pour ce faire, imputer le moins de variables possible, afin de conserver le plus grand nombre possible de données attribuables au répondant, selon le principe de Fellegi-Holt. L'hypothèse sous-jacente est qu'un répondant est plus susceptible de commettre seulement une ou deux erreurs que plusieurs, même si cela n'est pas toujours vrai en pratique

  • Dans le cas de certaines enquêtes, il faut recourir à plusieurs méthodes d'imputation selon la disponibilité de l'information auxiliaire. Habituellement, on établit une hiérarchie de méthodes en utilisant des règles pré-définies. Élaborer et tester avec soin les méthodes associées à chaque échelon hiérarchique. Limiter, autant que possible, le nombre d'échelons. Dans le même ordre d'idées, lorsqu'il est nécessaire de regrouper des classes d'imputation, élaborer et tester les méthodes d'imputation associées à chaque ensemble de classes.

  • Lorsqu'on recourt à l'imputation par enregistrement donneur, tenter d'imputer les données d'un enregistrement en utilisant le moins de donneurs différents possible. Sur le plan opérationnel, cela peut équivaloir à un donneur par section du questionnaire, car il est pratiquement impossible de traiter simultanément toutes les variables d'un grand questionnaire. En outre, veiller à limiter le nombre de fois qu'un donneur particulier est utilisé pour imputer des receveurs; cela permet de contrôler la variance des estimateurs imputés. Selon les donneurs dont on dispose, cela peut signifier de faire en sorte que des actions d'imputation équivalentes aient des chances appropriées d'être retenues, ce qui permet d'éviter l'augmentation artificielle de la taille de certains groupes de la population.

  • Dans le cas de grandes enquêtes, il se peut qu'il faille traiter les variables séquentiellement sur deux ou plusieurs cycles – au lieu de traiter toutes les variables au cours d'un même cycle – pour réduire les coûts informatiques de l'enquête. En outre, il se peut qu'un enregistrement contienne un grand nombre d'erreurs de réponse. Il peut donc s'avérer difficile de suivre les lignes directrices à la lettre lorsque de tels scénarios se présentent : certaines cas peuvent nécessiter plus d'un donneur (par section du questionnaire) et plus de valeurs imputées que le nombre minimal.

Incidence sur les estimations

  • Il importe de garder l'information relative au processus d'imputation dans les fichiers postimputation, en vue d'évaluer l'incidence de ce processus sur les estimations et les variances. L'information dont il est question inclut des variables indiquant quelles valeurs ont été imputées et par quelle méthode, quels donneurs ont permis d'imputer les données d'un enregistrement et ainsi de suite. Conserver les valeurs non imputées et imputées des variables de l'enregistrement à des fins d'évaluation.

  • Tenir compte du degré d'imputation et de son incidence lors de l'analyse des données. Même lorsque le degré d'imputation est faible, les changements apportés à un enregistrement peuvent avoir des effets considérables; c'est le cas lorsque les changements concernent de grandes unités ou lorsqu'ils sont grands et qu'ils touchent un petit nombre d'unités. En général, plus le degré et l'incidence de l'imputation sont importants, plus l'analyste doit être judicieux dans l'utilisation des données. Dans de tels cas, les analyses peuvent être trompeuses si les valeurs imputées sont traitées comme des valeurs observées.

  • Il se peut que les méthodes d'imputation ne préservent pas les relations entre les variables et qu'elles exercent une influence considérable sur la distribution des données. Par exemple, les valeurs d'un domaine pourraient systématiquement augmenter pendant que diminueraient celles d'un autre domaine sans qu'aucun changement majeur soit survenu à un niveau agrégé. Cela voudrait vraisemblablement dire qu'il faut tenir compte de la variable indiquant l'appartenance aux domaines dans la stratégie d'imputation.

  • Évaluer le degré d'imputation et ses effets en recourant aux outils destinés à cette tâche. Il peut s'agir, par exemple, du Système généralisé de simulation et d'imputation (GENESIS), qui permet d'imputer des données dans un environnement simulé et d'évaluer le biais et la variance d'estimateurs imputés dans des conditions particulières.

Systèmes généralisés

  • Il existe des systèmes généralisés mettant en œuvre une variété d'algorithmes pour des données continues ou catégoriques. Il faut tenir compte de ces systèmes lorsqu'on élabore une méthodologie d'imputation. Généralement, ils sont conviviaux, du moins lorsque les règles de vérifications sont précisées; ils intègrent également des algorithmes permettant de déterminer quels champs imputer. Ils sont bien documentés et ils conservent des pistes de vérification permettant d'évaluer le processus d'imputation. Statistique Canada a présentement accès à deux systèmes : il s'agit du Système généralisé de vérification et d'imputation (SGVI/BANFF) (Kovar et coll., 1988; Statistique Canada, 2000a), pour l'imputation de variables économiques quantitatives et du Système canadien de contrôle et d'imputation du recensement (SCANCIR) (Bankier et coll., 1999), pour l'imputation de variables qualitatives et quantitatives.

Estimation de la variance

  • Penser à utiliser des techniques permettant de bien mesurer la variance d'échantillonnage en présence d'imputation de même que la variance additionnelle due à la non-réponse et à l'imputation (Lee et al. 2002; Haziza, 2008; Beaumont et Rancourt, 2005). Il faut disposer de ces informations pour satisfaire les exigences de la Politique visant à informer les utilisateurs sur la qualité des données et la méthodologie (Statistique Canada, 2000d; voir l'annexe 2, qui reproduit cette politique). On peut se servir, à cette fin, du Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI) développé à Statistique Canada.

  • Le rapport final et les recommandations du Comité sur les mesures de la qualité (Beaumont, Brisebois, Haziza, Lavallée, Mohl, Rancourt et Trépanier, 2008) contiennent des lignes directrices supplémentaires pour l'estimation de la variance en présence d'imputation, dont il serait bon de prendre connaissance et de tenir compte avant de mettre en oeuvre toute nouvelle méthodologie ou tout nouveau logiciel.

Ressources

  • Différentes ressources sont accessibles pour obtenir une formation générale en matière d'imputation ou pour plus de détails sur certains points spécifiques. Tout d'abord, on suggère de suivre le cours « 0423 : Non-réponse et imputation : Théorie et applications », offert par Statistique Canada. Le bulletin d'imputation est également une source intéressante et utile de renseignements sur le sujet. Enfin, des consultants externes, tels David Haziza et J.N.K. Rao, ainsi qu'un certain nombre de consultants internes, notamment les membres de la Division de la recherche et de l'innovation en statistique, les membres du Comité sur les mesures de la qualité et les membres du Comité sur les pratiques d'imputation sont à votre disposition pour répondre à vos questions.

Indicateurs de qualité

Principaux éléments de la qualité : exactitude, actualité, interprétabilité, cohérence.

Règle générale, les estimations obtenues après que la non-réponse a été observée et que l'imputation a servi à traiter cette nonréponse ne sont pas équivalentes à celles qu'on aurait obtenues si toutes les valeurs voulues avaient été observées sans erreur. La différence entre ces deux types d'estimation est appelée l'erreur de non-réponse. Le biais et la variance dus à la non-réponse (c'est-à-dire le biais et la variance dus à l'impossibilité d'observer toutes les valeurs voulues) sont deux quantités liées à l'erreur de non-réponse qui présentent habituellement un intérêt. Ces quantités inconnues, pour lesquelles nous aimerions normalement obtenir une mesure précise, sont rattachées à l'aspect « exactitude » de la qualité.

En théorie, on élimine le biais de non-réponse si la stratégie d'imputation est fondée sur un modèle d'imputation correctement spécifié possédant une bonne puissance prédictive. Un tel modèle d'imputation conduit également à une réduction de la variance due à la nonréponse. Un modèle d'imputation est correctement spécifié si, étant donné les variables auxiliaires choisies, les hypothèses sous-jacentes à ses premiers moments (habituellement la moyenne et la variance) sont valides. Le modèle est prédictif si les variables auxiliaires choisies sont fortement associées aux variables à imputer. Comme on l'a souligné dans les lignes directrices ci-dessus, les variables utilisées dans la définition de l'estimateur et les variables associées au mécanisme de non-réponse devraient être considérées comme des variables auxiliaires potentielles. L'objectif de ces lignes directrices est de faire en sorte que, étant donné les variables auxiliaires choisies, les répondants et les non-répondants se ressemblent par rapport aux variables mesurées.

Il est difficile de mesurer l'ampleur du biais de non-réponse, mais il est possible de dériver des indicateurs qui lui sont associés. Comme l'ampleur du biais de nonréponse dépend de l'adéquation du modèle d'imputation, des techniques classiques de validation du modèle, que l'on peut trouver dans les manuels conventionnels sur la régression, peuvent servir à dériver des indicateurs utiles. Par exemple, on peut utiliser des graphiques des résidus du modèle par rapport aux différentes variables auxiliaires, notamment les valeurs prédites, pour la détection des erreurs possibles de spécification du modèle. Les résidus peuvent également servir à dériver différentes statistiques. Pour la régression logistique, la statistique de test de Hosmer-Lemeshow peut fournir un indicateur utile. Ces indicateurs peuvent également être utiles pour donner une idée de la façon dont la variance due à la non-réponse a été contrôlée, particulièrement ceux qui donnent de l'information sur la force de la relation entre les variables auxiliaires et les variables à imputer.

Outre les diagnostiques du modèle ci-dessus, les estimations de la variance due à la non-réponse ou les estimations de la variance totale peuvent fournir de bonnes mesures de la variabilité accrue découlant de la non-réponse pourvu que l'on puisse poser comme hypothèse que le biais de non-réponse est raisonnablement faible. La variance totale est la variance due à l'échantillonnage à laquelle on ajoute une composante de non-réponse pour refléter l'incertitude supplémentaire due à la non-réponse. Il existe de nombreuses méthodes d'estimation de la variance et certains logiciels qui tiennent compte de la non-réponse et de l'imputation. Par exemple, les estimations de la composante due à la non-réponse ou de la variance totale peuvent être obtenues au moyen du système SEVANI.

On peut utiliser d'autres indicateurs utiles pour obtenir une indication du degré d'imputation, mais ils sont plus difficiles à relier directement au biais et à la variance dus à la non-réponse. L'un de ces indicateurs est le taux d'imputation selon la variable et les domaines importants. Pour des estimations des totaux et des moyennes, un autre indicateur utile est la contribution aux estimations clés qui provient des valeurs imputées. Une contribution importante peut indiquer que le biais et/ou la variance dus à la non-réponse ne sont pas négligeables. On peut déterminer d'autres indicateurs de l'incidence de l'imputation sur les estimations finales, ce qui fournit d'autres informations pour jauger la fiabilité des estimations.

Comme on l'a souligné plus haut, on devrait faire un effort de modélisation sérieux avant de s'arrêter sur une stratégie d'imputation. Cela demande du temps et des ressources. En pratique, un équilibre doit être atteint entre le temps que l'on prend pour produire le fichier de données imputées (actualité) et la qualité du modèle d'imputation sous-jacent si l'on veut éviter de retarder indûment la diffusion des données. Lorsque l'utilisation de systèmes généralisés d'imputation est appropriée, elle est susceptible de contribuer à réduire considérablement le délai de traitement, particulièrement le délai de développement de systèmes, et ainsi faire en sorte que l'on puisse consacrer plus de temps à choisir une stratégie d'imputation appropriée.

Enfin, on devrait clairement décrire et fournir aux utilisateurs la méthodologie d'imputation utilisée ainsi que certains indicateurs et certaines mesures mentionnés plus haut. Cela assure une meilleure interprétabilité des résultats de l'enquête. Si cela est possible et pertinent, on doit envisager d'utiliser des méthodes d'imputation semblables dans les enquêtes qui recueillent le même genre de données pour ainsi assurer la cohérence entre ces enquêtes.

Bibliographie

Bankier, M., M. Lachance et P. Poirier. 1999. « A Generic Implementation of the New Imputation Methodology », Proceedings of the Survey Research Methods Section, American Statistical Association, p. 548 à 553.

Beaumont, J.-F., F. Brisebois, D. Haziza, P. Lavallée, C. Mohl, E. Rancourt et J. Trépanier. 2008. Final Report and Recommendations : Variance Estimation in the Presence of Imputation. Rapport technique du Comité sur les mesures de la qualité de Statistique Canada.

Beaumont, J.-F. et É. Rancourt, 2005. Variance Estimation in the Presence of Imputation at Statistics Canada. Conférence présentée à l'assemblée du Comité consultatif des méthodes statistiques de Statistiques Canada de mai 2005.

Fellegi, I.P. et D. Holt. 1976. « A Systematic Approach to Automatic Edit and Imputation », Journal of the American Statistical Association, no71, p. 17 à 35.

Haziza, D. et J.-F. Beaumont. 2007. « On the Construction of Imputation Classes in Surveys », International Statistical Review, no75, p. 25 à 43.

Haziza, D. 2008. « Imputation and Inference in the Presence of Missing data », Handbook of Statistics, vol. 29, D. Pfeffermann and C.R. Rao, Elsevier, (à paraître).

Kalton, G. et D. Kasprzyk, 1986. « Le traitement des données d'enquête manquantes », Techniques d'enquête, no12, p. 1 à 17.

Kovar, J.G. et P. Whitridge. 1995. « Imputation of Business Survey Data », Business Survey Methods, B.G. Cox et coll., New York, Wiley, p. 403 à 423.

Kovar, J.G., J. MacMillan et P. Whitridge. 1988. Overview and Strategy for the Generalized Edit and Imputation System. Document de travail de la Direction de la méthodologie de Statistique Canada noBSMD 88-007 E/F.

Lee, H., E. Rancourt et C.-E Särndal. 2002. « Variance Estimation from Survey Data Under Single Imputation », Survey Nonresponse, R.M. Groves et coll., New York, Wiley, p. 315 à 328.

Statistique Canada. 2000d.  « Politique visant à informer les utilisateurs de la qualité des données et la méthodologie », Manuel des politiques de Statistique Canada (en ligne), www.statcan.gc.ca/about-apercu/policy-politique/info_user-usager-fra.htm.

Statistique Canada. 2000a. Description des fonctions du Système généralisé de vérification et d'imputation. Rapport technique de Statistique Canada.