Une généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 2. Contexte et travaux connexesUne généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 2. Contexte et travaux connexes

Soit $x = (x_{1}, \dots, x_{p})' \in ℝ^{p}$ un enregistrement de $p$ variables numériques. Supposons que cet enregistrement doive satisfaire à $k$ règles de vérification, se présentant sous la forme du système d’(in)égalités linéaires suivant :

$A x + b ⊙ 0, (2.1)$

où $A = (a_{r j})$ est une matrice $k \times p$ de coefficients et $b = (b_{1}, \dots, b_{k})'$ est un vecteur de constantes. Ici comme ailleurs, $0$ représente un vecteur de zéros de longueur appropriée; de même, $⊙$ représente un vecteur symbolique d’opérateurs de l’ensemble ${\geq, \leq, =} .$

Pour un enregistrement donné $x$ qui ne satisfait pas à toutes les règles de vérification énoncées en (2.1), le problème de localisation des erreurs fondée sur le paradigme de Fellegi-Holt consiste à trouver la valeur minimale de

$\sum_{j = 1}^{p} w_{j} δ_{j}, (2.2)$

où $w_{j} > 0$ est le poids de confiance de la variable $x_{j}$ et $δ_{j} \in {0, 1},$ à condition qu’on puisse assurer la cohérence de l’enregistrement original avec les règles de vérification en imputant uniquement les variables $x_{j}$ pour lesquelles $δ_{j} = 1$ (de Waal et coll. 2011, page 66).

Fellegi et Holt (1976) ont aussi proposé une méthode de résolution du problème de localisation des erreurs ci-dessus fondée sur la production d’un ensemble suffisant de vérifications implicites (voir ci-dessous). Malheureusement, cette méthode exige souvent un très grand nombre de vérifications implicites. Au cours des dernières décennies, divers algorithmes spécialisés ont été élaborés pour le problème de localisation des erreurs, notamment par Schaffer (1987), Garfinkel, Kunnathur et Liepins (1988), Kovar et Whitridge (1990), Ragsdale et McKeown (1996), de Waal (2003), de Waal et Quere (2003), Riera-Ledesma et Salazar-González (2003, 2007), Bruni (2004), ainsi que de Jonge et van der Loo (2014). Les premiers algorithmes visaient principalement à renforcer la méthode originale de Fellegi et Holt (1976) en réduisant le nombre de vérifications implicites requises. Les algorithmes plus récents reposent sur le fait que le problème de localisation des erreurs peut être rédigé sous forme de problème de programmation mixte en nombres entiers, ce qui permet l’application de techniques d’optimisation normalisées. Voir aussi de Waal et Coutinho (2005) ou de Waal et coll. (2011) pour une vue d’ensemble et une comparaison des divers algorithmes de localisation des erreurs.

Les vérifications implicites sont des contraintes qui découlent logiquement des règles de vérification originales (2.1). Dans le contexte qui nous occupe (données numériques, vérifications linéaires), toutes les vérifications implicites pertinentes peuvent être générées par une technique appelée élimination de Fourier-Motzkin (élimination FM; voir Williams 1986). L’élimination FM transforme un système de contraintes linéaires à $p$ variables en un système de contraintes linéaires implicites à au plus $p - 1$ variables; ainsi, au moins une des variables originales est éliminée. Pour les détails mathématiques, consultez l’annexe.

L’élimination FM est assortie de la propriété fondamentale suivante : le système de contraintes implicites est satisfait par les valeurs des variables non éliminées si et seulement s’il existe une valeur pour la variable éliminée qui, prise avec les autres valeurs, satisfait au système original de contraintes. Dans la localisation des erreurs en vertu du paradigme de Fellegi-Holt, on peut, en appliquant à répétition cette propriété fondamentale, vérifier si une combinaison particulière de variables peut être imputée pour obtenir un enregistrement cohérent, compte tenu des valeurs originales des autres variables. L’algorithme de localisation des erreurs de de Waal et Quere (2003) illustre bien cette utilisation de l’élimination FM.

Pour conclure cette section, il est intéressant d’examiner brièvement l’interprétation statistique du problème de localisation des erreurs. En fait, Fellegi et Holt (1976) n’ont fourni aucun argument statistique formel pour expliquer leur paradigme de localisation automatique des erreurs. Leur raisonnement était plutôt intuitif :

« Les données de chaque enregistrement doivent être corrigées afin de satisfaire à toutes les règles de vérification en changeant le moins d’éléments de données (champs) possible. Nous sommes d’avis que cette méthode respecte l’idée de garder telles quelles le plus grand nombre possible des données originales, compte tenu des contraintes des règles de vérification, et donc de modifier le moins de données possible. Parallèlement, si les erreurs sont relativement rares, il semble plus probable que l’on puisse identifier les champs réellement erronés. » (Fellegi et Holt 1976, page 18). [Traduction]

Liepins (1980) ainsi que Liepins, Garfinkel et Kunnathur (1982), en se fondant sur les résultats antérieurs de Naus, Johnson et Montalvo (1972), ont formulé un argument statistique pour minimiser le nombre pondéré de variables imputées. Supposons que les erreurs se produisent selon un processus stochastique, chaque variable $x_{j}$ étant erronée selon une probabilité $p_{j}$ qui ne dépend pas de sa valeur réelle et les erreurs étant indépendantes d’une variable à l’autre. Supposons en outre que les poids de confiance sont définis comme suit :

$w_{j} = - \log (\frac{p_{j}}{1 - p_{j}}) . (2.3)$

On peut alors montrer que la minimisation de l’expression (2.2) correspond approximativement à la maximisation de la vraisemblance de l’enregistrement exempt d’erreur non observé. Soulignons que ces auteurs supposent tacitement qu’une erreur affecte toujours une seule variable à la fois.

D’autres méthodes de localisation des erreurs reposant plus directement sur des modèles statistiques ont été proposées, notamment par Little et Smith (1987) et par Ghosh-Dastidar et Schafer (2006). Ces méthodes ont recours à des techniques de détection des valeurs aberrantes et exigent un modèle explicite pour les données réelles. Malheureusement, elles ne peuvent pas tenir compte de façon directe des règles de vérification comme celle qui est illustrée en (2.1).

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2016-06-22

Sélection de la langue

Recherche et menus

Recherche

Une généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 2. Contexte et travaux connexesUne généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 2. Contexte et travaux connexes