Une généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 7. Étude par simulationsUne généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 7. Étude par simulations

Pour mettre à l’essai l’utilité potentielle de la nouvelle méthode de localisation des erreurs, on a mené une étude par simulations de petite envergure dans l’environnement R pour calcul statistique (R Development Core Team 2015). Une mise en œuvre prototype de l’algorithme de la figure 6.1 a été créée dans R. Dans le cadre de cet exercice, on a largement utilisé la fonctionnalité de vérification automatique fondée sur le paradigme de Fellegi-Holt du progiciel editrules (van der Loo et de Jonge 2012; de Jonge et van der Loo 2014). Le programme n’était pas optimisé pour assurer l’efficacité du calcul, mais il s’est révélé suffisamment rapide pour les problèmes de localisation des erreurs d’envergure relativement petite de l’étude par simulations. (Remarque : L’auteur peut fournir le code R utilisé sur demande.)

L’étude par simulations a été réalisée à l’aide d’enregistrements contenant cinq variables numériques qui devaient satisfaire les neuf règles de vérification linéaires suivantes :

$\begin{array}{l} x_{1} + x_{2} & = x_{3}, \\ x_{3} - x_{4} & = x_{5}, \\ x_{j} & \geq 0, & j \in {1, 2, 3, 4}, \\ x_{1} & \geq x_{2}, \\ x_{5} & \geq - 0, 1 x_{3}, \\ x_{5} & \leq 0, 5 x_{3} . \end{array}$

On trouve généralement ce genre de règles de vérification pour les SSE, dans le cadre d’un ensemble de règles de vérification beaucoup plus vaste (Scholtus 2014).

Un ensemble aléatoire de données exempt d’erreurs contenant 2 000 enregistrements a été bâti à partir d’une distribution normale multivariée (à l’aide du progiciel mvtnorm) selon les paramètres suivants :

$μ = (\begin{matrix} 500 \\ 250 \\ 750 \\ 600 \\ 150 \end{matrix}) et Σ = (\begin{array}{r} 10 000 & -1 250 & 8 750 & 7 500 & 1 250 \\ -1 250 & 5 000 & 3 750 & 4 000 & -250 \\ 8 750 & 3 750 & 12 500 & 11 500 & 1 000 \\ 7 500 & 4 000 & 11 500 & 11 750 & -250 \\ 1 250 & -250 & 1 000 & -250 & 1 250 \end{array}) .$

Seuls les enregistrements satisfaisant à toutes les règles de vérification susmentionnées ont été inclus dans l’ensemble de données. Soulignons que $Σ$ est une matrice singulière de covariances comprenant les deux règles de vérification fondées sur une égalité. Techniquement, les données obtenues suivent une distribution normale singulière multivariée tronquée; voir de Waal et coll. (2011, pages 318ff) ou Tempelman (2007).

Les neuf opérations de vérification autorisées retenues dans le cadre de l’étude sont présentées au tableau 7.1. Soulignons que les cinq premières lignes correspondent aux opérations FH pour cet ensemble de données. Comme il est précisé dans le tableau, chaque opération de vérification est associée à un type d’erreur. Un ensemble de données synthétiques à vérifier a été créé par l’ajout aléatoire d’erreurs de ces types à l’ensemble de données exempt d’erreur susmentionné. La probabilité de chaque type d’erreur est indiquée dans la quatrième colonne du tableau 7.1. Le poids « idéal » qui y est associé selon (4.2) est précisé dans la dernière colonne.

Pour restreindre l’ampleur des calculs à effectuer, seuls les enregistrements exigeant trois opérations de vérification ou moins ont été pris en compte. Les enregistrements ne contenant aucune erreur ont aussi été retirés. Il restait donc 1 025 enregistrements à vérifier, chacun contenant une, deux ou trois des erreurs énumérées au tableau 7.1.

Tableau 7.1
Opérations de vérification autorisées aux fins de l’étude par simulations
Sommaire du tableau
Le tableau montre les résultats de Opérations de vérification autorisées aux fins de l’étude par simulations. Les données sont présentées selon nom (titres de rangée) et opération, type d’erreur associé, XXXX et XXXX(figurant comme en-tête de colonne).
nom	opération	type d’erreur associé	$p_{g}$	$w_{g}$
FH1	imputer $x_{1}$	valeur erronée de $x_{1}$	0,10	2,20
FH2	imputer $x_{2}$	valeur erronée de $x_{2}$	0,08	2,44
FH3	imputer $x_{3}$	valeur erronée de $x_{3}$	0,06	2,75
FH4	imputer $x_{4}$	valeur erronée de $x_{4}$	0,04	3,18
FH5	imputer $x_{5}$	valeur erronée de $x_{5}$	0,02	3,89
IC34	intervertir $x_{3}$ et $x_{4}$	valeurs réelles de $x_{3}$ et $x_{4}$ interverties	0,07	2,59
TF21	transférer une partie de $x_{2}$ à $x_{1}$	partie de la valeur réelle de $x_{1}$ déclarée comme faisant partie de $x_{2}$	0,09	2,31
CS4	changer le signe de $x_{4}$	erreur de signe dans $x_{4}$	0,11	2,09
CS5	changer le signe de $x_{5}$	erreur de signe dans $x_{5}$	0,13	1,90

Plusieurs méthodes de localisation des erreurs ont été appliquées à l’ensemble de données. On a tout d’abord utilisé la méthode de localisation des erreurs fondée sur le paradigme de Fellegi-Holt (c’est-à-dire à l’aide des opérations de vérification FH1 $-$ FH5 uniquement) et sur le nouveau paradigme (c’est-à-dire à l’aide de toutes les opérations de vérification du tableau 7.1). Les deux méthodes ont été mises à l’essai une fois à l’aide des poids « idéaux » indiqués dans le tableau 7.1 et une fois à l’aide de poids tous fixés à 1 (« aucun poids »). Ce dernier cas simule une situation où les opérations de vérification pertinentes sont connues, mais pas leurs fréquences respectives. Enfin, pour vérifier la robustesse de la nouvelle méthode de localisation des erreurs en cas de manque d’information à propos des opérations de vérification pertinentes, la méthode a aussi été appliquée en retirant l’une des opérations non-FH du tableau 7.1 de l’ensemble des opérations de vérification autorisées.

La qualité de la localisation des erreurs a été évaluée de deux façons. Tout d’abord, on a évalué dans quelle mesure les chemins optimaux des opérations de vérification trouvés par l’algorithme correspondaient à la distribution réelle des erreurs, en utilisant le tableau de contingences ci-dessous pour toutes les $1 025 \times 9 = 9 225$ combinaisons possibles des enregistrements et des opérations de vérification :

Tableau 7.2
Tableau de contingences des erreurs et des opérations de vérification suggérées par l’algorithme
Sommaire du tableau
Le tableau montre les résultats de Tableau de contingences des erreurs et des opérations de vérification suggérées par l’algorithme opération de vérification suggérée et opération de vérification non suggérée (figurant comme en-tête de colonne).
	opération de vérification suggérée	opération de vérification non suggérée
l’erreur associée s’est produite	$V P$	$F N$
l’erreur associée ne s’est pas produite	$F P$	$V N$

À partir de ce tableau, on a calculé des indicateurs mesurant la proportion de faux négatifs (FN), de faux positifs (FP) et de l’ensemble des mauvaises décisions, respectivement :

$α = \frac{F N}{V P + F N}; β = \frac{F P}{F P + V N}; δ = \frac{F N + F P}{V P + F N + F P + V N}$

Des indicateurs similaires sont présentés dans de Waal et coll. (2011, pages 410-411). On a aussi calculé $\bar{ρ} = 1 - ρ,$ où $ρ$ correspond à la fraction des enregistrements de l’ensemble de données pour lesquels l’algorithme de localisation des erreurs a trouvé exactement la bonne solution. Un bon algorithme de localisation des erreurs devrait donner des notes faibles pour les quatre indicateurs.

Il importe de souligner que les indicateurs de qualité ci-dessus désavantagent la méthode originale de Fellegi-Holt, qui ne fait pas appel à toutes les opérations de vérification énumérées au tableau 7.1. On a donc aussi calculé un deuxième ensemble d’indicateurs de qualité $α, β, δ$ et $\bar{ρ}$ portant sur les valeurs erronées plutôt que sur les opérations de vérification. Dans ce cas, $α$ mesure la proportion des valeurs de l’ensemble de données comportant des erreurs, mais non modifiées par la solution optimale au problème de localisation des erreurs, et de même pour les autres mesures.

Le tableau 7.3 présente les résultats de l’étude par simulations pour les deux ensembles d’indicateurs de qualité. Dans les deux cas, on constate une amélioration notable de la qualité des résultats de la localisation des erreurs de la méthode faisant appel à toutes les opérations de vérification, comparativement à la méthode utilisant uniquement les opérations FH. En outre, le fait d’omettre une seule opération de vérification pertinente de l’ensemble des opérations de vérification autorisées compromettait la qualité de la localisation des erreurs. Dans certains cas, cet effet était assez important $-$ particulièrement en ce qui concerne les opérations de vérification utilisées $-$ , mais les résultats de la nouvelle méthode de localisation des erreurs demeurent considérablement supérieurs à ceux de la méthode de Fellegi-Holt. Contrairement aux attentes, le fait de ne pas utiliser des poids de confiance différents a contribué à améliorer légèrement la qualité des résultats de la localisation des erreurs pour cet ensemble de données selon la méthode de Fellegi-Holt (pour les deux ensembles d’indicateurs) et aussi, dans une certaine mesure, selon la nouvelle méthode (second ensemble d’indicateurs seulement). Enfin, il semble que l’utilisation de toutes les opérations de vérification ait contribué à accroître le temps de calcul nécessaire par rapport à l’utilisation des opérations FH uniquement, mais pas de façon spectaculaire.

Tableau 7.3
Qualité de la localisation des erreurs en fonction des opérations de vérification utilisées et des valeurs erronées recensées; temps de calcul requis
Sommaire du tableau
Le tableau montre les résultats de Qualité de la localisation des erreurs en fonction des opérations de vérification utilisées et des valeurs erronées recensées; temps de calcul requis. Les données sont présentées selon méthode (titres de rangée) et indicateurs de qualité (opérations de vérification), indicateurs de qualité (valeurs erronées) et temps*, calculées selon XXXX unités de mesure (figurant comme en-tête de colonne).
méthode	indicateurs de qualité (opérations de vérification)				indicateurs de qualité (valeurs erronées)				temps^Note *
méthode	$α$	$β$	$δ$	$\bar{ρ}$	$α$	$β$	$δ$	$\bar{ρ}$	temps^Note *
Fellegi-Holt (avec poids)	74 %	12 %	23 %	80 %	19 %	10 %	13 %	32 %	46
Fellegi-Holt (sans poids)	70 %	12 %	21 %	74 %	13 %	8 %	9 %	24 %	33
toutes les opérations (avec poids)	14 %	3 %	5 %	24 %	10 %	5 %	7 %	17 %	98
sauf IC34	29 %	5 %	9 %	35 %	15 %	9 %	11 %	29 %	113
sauf TF21	34 %	5 %	10 %	37 %	10 %	5 %	7 %	18 %	80
sauf CS4	28 %	6 %	9 %	39 %	10 %	5 %	7 %	17 %	80
sauf CS5	35 %	7 %	10 %	47 %	11 %	6 %	7 %	18 %	82
toutes les opérations (sans poids)	27 %	5 %	8 %	36 %	6 %	4 %	5 %	13 %	99
Note * Temps total de calcul (en secondes) sur un ordinateur portatif doté d’un processeur à 2,5 GHz sous Windows 7. Retour à la référence de note *

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2016-06-22

Sélection de la langue

Recherche et menus

Recherche

Une généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 7. Étude par simulationsUne généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs 7. Étude par simulations