Une généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 1. Introduction

Les données recueillies aux fins de la production de statistiques contiennent inévitablement des erreurs. Il est donc nécessaire de mettre en place un processus de vérification des données pour déceler et corriger ces erreurs, au moins dans la mesure où elles ont un effet appréciable sur la qualité des produits statistiques (Granquist et Kovar 1997). Traditionnellement, la vérification des données se faisait manuellement, idéalement par des vérificateurs spécialisés ayant une connaissance approfondie du sujet. Pour améliorer l’efficience, la rapidité et la reproductibilité de la vérification, beaucoup d’instituts de statistique ont tenté d’automatiser certains segments du processus (Pannekoek, Scholtus et van der Loo 2013). Il en a résulté des méthodes de correction déductive des erreurs systématiques et des algorithmes de localisation des erreurs pour les erreurs aléatoires (de Waal, Pannekoek et Scholtus 2011, chapitre 1). Le présent article est axé sur la vérification automatique des erreurs aléatoires.

Les méthodes pour l’exécution de cette tâche comprennent généralement un ajustement minimal de chaque enregistrement de données en fonction de certains critères d’optimisation, afin d’en assurer la cohérence avec un ensemble déterminé de contraintes que l’on appelle règles de vérification, ou simplement contrôles. Selon l’efficacité des critères d’optimisation et la puissance des contrôles, la vérification automatique peut remplacer en partie la vérification manuelle traditionnelle. Dans les faits, la vérification automatique est presque toujours jumelée à une forme quelconque de vérification sélective, ce qui signifie que les erreurs ayant les répercussions les plus importantes sont traitées manuellement (Hidiroglou et Berthelot 1986; Granquist 1995, 1997; Granquist et Kovar 1997; Lawrence et McKenzie 2000; Hedlin 2003; de Waal et coll. 2011).

La plupart des méthodes de vérification automatique actuellement utilisées pour la statistique officielle sont fondées sur le paradigme de Fellegi et Holt (1976) : pour chaque enregistrement, on trouve le plus petit sous-ensemble de variables erronées qui peuvent être imputées de sorte que l’enregistrement satisfasse aux contrôles. On peut obtenir une légère généralisation en attribuant ce qu’on appelle poids de confiance aux variables et en minimisant le poids total des variables imputées. Une fois résolu ce problème de localisation des erreurs, il faut trouver séparément de nouvelles valeurs qui conviennent pour les variables identifiées comme étant erronées. C’est ce qu’on appelle le problème d’imputation cohérente; voir à ce sujet de Waal et coll. (2011) et les ouvrages cités en référence. Le présent article est axé sur le problème de localisation des erreurs.

À Statistics Netherlands, la localisation des erreurs à l’aide du paradigme de Fellegi-Holt fait partie du processus de vérification des données relatives aux statistiques structurelles sur les entreprises (SSE) depuis plus de dix ans. Dans le cadre d’études d’évaluation, où les mêmes données sur les SSE ont été vérifiées à la fois automatiquement et manuellement, on a constaté un certain nombre de différences systématiques entre les deux processus. Bon nombre de ces différences pouvaient s’expliquer par le fait que les vérificateurs humains ont apporté certains types de correction qui ne sont pas optimaux selon le paradigme de Fellegi-Holt. Par exemple, les vérificateurs ont parfois interverti les valeurs de dépenses et de revenus associés ou transféré une partie des unités déclarées d’une variable à l’autre.

En pratique, le résultat de la vérification manuelle est généralement considéré comme étant la « norme de référence » pour évaluer la qualité de la vérification automatique. Une évaluation critique de cette hypothèse dépasse le cadre du présent article; toutefois, le lecteur intéressé pourra consulter EDIMBUS (2007, pages 34-35). On souligne simplement ici qu’en améliorant la capacité des méthodes de vérification automatique à reproduire les résultats de la vérification manuelle, on accroît leur utilité dans la pratique. Par ricochet, cela signifie que l’on peut accroître la part de la vérification automatique pour améliorer l’efficience du processus de vérification des données (Pannekoek et coll. 2013).

Dans une certaine mesure, les différences systématiques entre la vérification automatique et la vérification manuelle pourraient être éliminées par l’application judicieuse de poids de confiance. En règle générale, toutefois, les effets d’une modification des poids de confiance sur les résultats de la vérification automatique sont difficiles à prévoir. En outre, si les vérificateurs apportent un certain nombre de corrections différentes et complexes, il pourrait être impossible de toutes les modéliser sous le paradigme de Fellegi-Holt à l’aide d’un seul ensemble de poids de confiance. Une autre solution consiste à essayer de déceler les erreurs pour lesquelles on sait que le paradigme de Fellegi-Holt donne un résultat insatisfaisant dès les premières étapes du processus de vérification des données, c’est-à-dire durant la correction déductive des erreurs systématiques à l’aide de règles de correction automatique (de Waal et coll. 2011; Scholtus 2011). Cette méthode comporte toutefois des limites pratiques; elle peut notamment exiger un grand nombre de règles du type « si-alors », qui peuvent se révéler difficiles à concevoir et à tenir à jour au fil du temps (Chen, Thibaudeau et Winkler 2003). En outre, il n’est pas nécessairement aisé de trouver des règles de correction appropriées pour toutes les erreurs qui ne peuvent pas être traitées en vertu du paradigme de Fellegi-Holt.

Dans le présent article, on propose une autre approche : une nouvelle définition du problème de localisation des erreurs qui tient compte de la possibilité qu’une erreur puisse toucher plus d’une variable à la fois. On montre que ce problème contient la localisation des erreurs en vertu du paradigme original de Fellegi-Holt comme un cas particulier. Le présent article porte principalement sur les données numériques et les règles de vérification linéaires; un élargissement possible aux données catégoriques et mixtes est présenté brièvement à la section 8.

Le reste de l’article se présente comme suit. La section 2 passe brièvement en revue les travaux antérieurs pertinents dans le domaine. À la section 3, on présente et on illustre le concept des opérations de vérification. Le nouveau problème de localisation des erreurs est formulé en termes de ces opérations à la section 4. La section 5 énonce une généralisation d’une méthode existante pour trouver des solutions au problème de localisation des erreurs fondé sur le paradigme de Fellegi-Holt, et le résultat est utilisé à la section 6 pour construire un algorithme possible pour la résolution du nouveau problème. Une étude par simulations de petite envergure est présentée à la section 7. Enfin, à la section 8, on énonce certaines conclusions et on formule des questions pour approfondir la recherche.

Date de modification :