Une généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs
2. Contexte et travaux connexesUne généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs
2. Contexte et travaux connexes
Soit
un enregistrement de
variables numériques. Supposons que cet
enregistrement doive satisfaire à
règles de vérification, se présentant sous la
forme du système d’(in)égalités linéaires suivant :
où
est une matrice
de
coefficients et
est un vecteur de constantes. Ici comme
ailleurs,
représente un vecteur de zéros de longueur
appropriée; de même,
représente un vecteur symbolique d’opérateurs
de l’ensemble
Pour un
enregistrement donné
qui ne satisfait pas à toutes les règles de
vérification énoncées en (2.1), le problème de localisation des erreurs
fondée sur le paradigme de Fellegi-Holt consiste à trouver la valeur minimale
de
où
est le poids de confiance de la variable
et
à condition qu’on puisse assurer la cohérence
de l’enregistrement original avec les règles de vérification en imputant
uniquement les variables
pour lesquelles
(de Waal et coll. 2011, page 66).
Fellegi et Holt (1976) ont aussi
proposé une méthode de résolution du problème de localisation des erreurs
ci-dessus fondée sur la production d’un ensemble suffisant de vérifications implicites (voir
ci-dessous). Malheureusement, cette méthode exige souvent un très grand nombre
de vérifications implicites. Au cours des dernières décennies, divers
algorithmes spécialisés ont été élaborés pour le problème de localisation des
erreurs, notamment par Schaffer (1987), Garfinkel, Kunnathur et Liepins (1988),
Kovar et Whitridge (1990), Ragsdale et McKeown (1996), de Waal (2003), de Waal
et Quere (2003), Riera-Ledesma et Salazar-González (2003, 2007), Bruni (2004),
ainsi que de Jonge et van der Loo (2014). Les premiers
algorithmes visaient principalement à renforcer la méthode originale de Fellegi
et Holt (1976) en réduisant le nombre de vérifications implicites requises. Les
algorithmes plus récents reposent sur le fait que le problème de localisation
des erreurs peut être rédigé sous forme de problème de programmation mixte en
nombres entiers, ce qui permet l’application de techniques d’optimisation
normalisées. Voir aussi de Waal et Coutinho (2005) ou de Waal
et coll. (2011) pour une vue d’ensemble et une comparaison des divers
algorithmes de localisation des erreurs.
Les vérifications implicites sont
des contraintes qui découlent logiquement des règles de vérification originales
(2.1). Dans le contexte qui nous occupe (données numériques, vérifications
linéaires), toutes les vérifications implicites pertinentes peuvent être
générées par une technique appelée élimination
deFourier-Motzkin (élimination FM;
voir Williams 1986). L’élimination FM transforme un système de contraintes
linéaires à
variables en un système de contraintes
linéaires implicites à au plus
variables; ainsi, au moins une des variables
originales est éliminée. Pour les détails mathématiques, consultez l’annexe.
L’élimination FM est assortie
de la propriété fondamentale suivante : le système de contraintes
implicites est satisfait par les valeurs des variables non éliminées si et
seulement s’il existe une valeur pour la variable éliminée qui, prise avec les
autres valeurs, satisfait au système original de contraintes. Dans la
localisation des erreurs en vertu du paradigme de Fellegi-Holt, on peut, en
appliquant à répétition cette propriété fondamentale, vérifier si une
combinaison particulière de variables peut être imputée pour obtenir un
enregistrement cohérent, compte tenu des valeurs originales des autres
variables. L’algorithme de localisation des erreurs de de Waal et Quere
(2003) illustre bien cette utilisation de l’élimination FM.
Pour conclure cette section, il est
intéressant d’examiner brièvement l’interprétation statistique du problème de
localisation des erreurs. En fait, Fellegi et Holt (1976) n’ont fourni aucun
argument statistique formel pour expliquer leur paradigme de localisation
automatique des erreurs. Leur raisonnement était plutôt intuitif :
« Les données de
chaque enregistrement doivent être corrigées afin de satisfaire à toutes les
règles de vérification en changeant le moins d’éléments de données (champs)
possible. Nous sommes d’avis que cette méthode respecte l’idée de garder telles
quelles le plus grand nombre possible des données originales, compte tenu des
contraintes des règles de vérification, et donc de modifier le moins de données
possible. Parallèlement, si les erreurs sont relativement rares, il semble plus
probable que l’on puisse identifier les champs réellement erronés. »
(Fellegi et Holt 1976, page 18). [Traduction]
Liepins (1980) ainsi que Liepins,
Garfinkel et Kunnathur (1982), en se fondant sur les résultats antérieurs de
Naus, Johnson et Montalvo (1972), ont formulé un argument statistique pour minimiser
le nombre pondéré de variables imputées. Supposons que les erreurs se
produisent selon un processus stochastique, chaque variable
étant erronée selon une probabilité
qui ne dépend pas de sa valeur réelle et les
erreurs étant indépendantes d’une variable à l’autre. Supposons en outre que
les poids de confiance sont définis comme suit :
On peut alors montrer que la minimisation de l’expression (2.2) correspond approximativement
à la maximisation de la vraisemblance de l’enregistrement exempt d’erreur non
observé. Soulignons que ces auteurs supposent tacitement qu’une erreur affecte
toujours une seule variable à la fois.
D’autres
méthodes de localisation des erreurs reposant plus directement sur des modèles
statistiques ont été proposées, notamment par Little et Smith (1987) et par
Ghosh-Dastidar et Schafer (2006). Ces méthodes ont recours à des techniques de
détection des valeurs aberrantes et exigent un modèle explicite pour les
données réelles. Malheureusement, elles ne peuvent pas tenir compte de façon
directe des règles de vérification comme celle qui est illustrée en (2.1).
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.