Une généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs
7. Étude par simulationsUne généralisation du paradigme de Fellegi-Holt pour la localisation automatique des erreurs
7. Étude par simulations
Pour
mettre à l’essai l’utilité potentielle de la nouvelle méthode de localisation
des erreurs, on a mené une étude par simulations de petite envergure dans
l’environnement R pour calcul statistique (R Development Core Team 2015).
Une mise en œuvre prototype de l’algorithme de la figure 6.1 a été créée
dans R. Dans le cadre de cet exercice, on a largement utilisé la fonctionnalité
de vérification automatique fondée sur le paradigme de Fellegi-Holt du
progiciel editrules (van der Loo
et de Jonge 2012; de Jonge et van der Loo 2014). Le programme
n’était pas optimisé pour assurer l’efficacité du calcul, mais il s’est révélé
suffisamment rapide pour les problèmes de localisation des erreurs d’envergure
relativement petite de l’étude par simulations. (Remarque : L’auteur peut
fournir le code R utilisé sur demande.)
L’étude
par simulations a été réalisée à l’aide d’enregistrements contenant cinq
variables numériques qui devaient satisfaire les neuf règles de vérification
linéaires suivantes :
On trouve généralement ce genre de règles de
vérification pour les SSE, dans le cadre d’un ensemble de règles de
vérification beaucoup plus vaste (Scholtus 2014).
Un
ensemble aléatoire de données exempt d’erreurs contenant
2 000 enregistrements a été bâti à partir d’une distribution normale
multivariée (à l’aide du progiciel mvtnorm) selon les paramètres suivants :
Seuls les enregistrements satisfaisant à toutes les règles de vérification
susmentionnées ont été inclus dans l’ensemble de données. Soulignons que
est une matrice singulière de covariances
comprenant les deux règles de vérification fondées sur une égalité.
Techniquement, les données obtenues suivent une distribution normale singulière
multivariée tronquée; voir de Waal et coll. (2011, pages 318ff)
ou Tempelman (2007).
Les neuf opérations de vérification
autorisées retenues dans le cadre de l’étude sont présentées au tableau 7.1.
Soulignons que les cinq premières lignes correspondent aux opérations FH pour
cet ensemble de données. Comme il est précisé dans le tableau, chaque opération
de vérification est associée à un type d’erreur. Un ensemble de données
synthétiques à vérifier a été créé par l’ajout aléatoire d’erreurs de ces types
à l’ensemble de données exempt d’erreur susmentionné. La probabilité de chaque
type d’erreur est indiquée dans la quatrième colonne du tableau 7.1. Le
poids « idéal » qui y est associé selon (4.2) est précisé dans la
dernière colonne.
Pour restreindre l’ampleur des
calculs à effectuer, seuls les enregistrements exigeant trois opérations de
vérification ou moins ont été pris en compte. Les enregistrements ne contenant
aucune erreur ont aussi été retirés. Il restait donc
1 025 enregistrements à vérifier, chacun contenant une, deux ou trois
des erreurs énumérées au tableau 7.1.
Tableau 7.1
Opérations de vérification autorisées aux fins de l’étude par simulations Sommaire du tableau
Le tableau montre les résultats de Opérations de vérification autorisées aux fins de l’étude par simulations. Les données sont présentées selon nom (titres de rangée) et opération, type d’erreur associé, XXXX et XXXX(figurant comme en-tête de colonne).
nom
opération
type d’erreur associé
FH1
imputer
valeur erronée de
0,10
2,20
FH2
imputer
valeur erronée de
0,08
2,44
FH3
imputer
valeur erronée de
0,06
2,75
FH4
imputer
valeur erronée de
0,04
3,18
FH5
imputer
valeur erronée de
0,02
3,89
IC34
intervertir et
valeurs réelles de et interverties
0,07
2,59
TF21
transférer une partie de à
partie de la valeur réelle de déclarée comme faisant partie de
0,09
2,31
CS4
changer le signe de
erreur de signe dans
0,11
2,09
CS5
changer le signe de
erreur de signe dans
0,13
1,90
Plusieurs méthodes de localisation
des erreurs ont été appliquées à l’ensemble de données. On a tout d’abord
utilisé la méthode de localisation des erreurs fondée sur le paradigme de
Fellegi-Holt (c’est-à-dire à l’aide des opérations de vérification FH1
FH5 uniquement) et sur le nouveau
paradigme (c’est-à-dire à l’aide de toutes les opérations de vérification du
tableau 7.1). Les deux méthodes ont été mises à l’essai une fois à l’aide des
poids « idéaux » indiqués dans le tableau 7.1 et une fois à
l’aide de poids tous fixés à 1 (« aucun poids »). Ce dernier cas
simule une situation où les opérations de vérification pertinentes sont
connues, mais pas leurs fréquences respectives. Enfin, pour vérifier la
robustesse de la nouvelle méthode de localisation des erreurs en cas de manque
d’information à propos des opérations de vérification pertinentes, la méthode a
aussi été appliquée en retirant l’une des opérations non-FH du tableau 7.1
de l’ensemble des opérations de vérification autorisées.
La qualité de la localisation des
erreurs a été évaluée de deux façons. Tout d’abord, on a évalué dans quelle
mesure les chemins optimaux des opérations de vérification trouvés par
l’algorithme correspondaient à la distribution réelle des erreurs, en utilisant
le tableau de contingences ci-dessous pour toutes les
combinaisons possibles des enregistrements et
des opérations de vérification :
Tableau 7.2
Tableau de contingences des erreurs et des opérations de vérification suggérées par l’algorithme Sommaire du tableau
Le tableau montre les résultats de Tableau de contingences des erreurs et des opérations de vérification suggérées par l’algorithme opération de vérification suggérée et opération de vérification non suggérée (figurant comme en-tête de colonne).
opération de vérification suggérée
opération de vérification non suggérée
l’erreur associée s’est produite
l’erreur associée ne s’est pas produite
À
partir de ce tableau, on a calculé des indicateurs mesurant la proportion de
faux négatifs (FN), de faux positifs (FP) et de l’ensemble des mauvaises décisions,
respectivement :
Des indicateurs similaires sont présentés dans de Waal et coll.
(2011, pages 410-411). On a aussi calculé
où
correspond à la fraction des enregistrements
de l’ensemble de données pour lesquels l’algorithme de localisation des erreurs
a trouvé exactement la bonne solution. Un bon algorithme de localisation des
erreurs devrait donner des notes faibles pour les quatre indicateurs.
Il
importe de souligner que les indicateurs de qualité ci-dessus désavantagent la
méthode originale de Fellegi-Holt, qui ne fait pas appel à toutes les
opérations de vérification énumérées au tableau 7.1. On a donc aussi
calculé un deuxième ensemble d’indicateurs de qualité
et
portant sur les valeurs erronées plutôt que
sur les opérations de vérification. Dans ce cas,
mesure la proportion des valeurs de l’ensemble
de données comportant des erreurs, mais non modifiées par la solution optimale
au problème de localisation des erreurs, et de même pour les autres mesures.
Le
tableau 7.3 présente les résultats de l’étude par simulations pour les
deux ensembles d’indicateurs de qualité. Dans les deux cas, on constate une
amélioration notable de la qualité des résultats de la localisation des erreurs
de la méthode faisant appel à toutes les opérations de vérification,
comparativement à la méthode utilisant uniquement les opérations FH. En outre,
le fait d’omettre une seule opération de vérification pertinente de l’ensemble
des opérations de vérification autorisées compromettait la qualité de la
localisation des erreurs. Dans certains cas, cet effet était assez important
particulièrement en ce qui concerne les
opérations de vérification utilisées
, mais les résultats de la nouvelle
méthode de localisation des erreurs demeurent considérablement supérieurs à
ceux de la méthode de Fellegi-Holt. Contrairement aux attentes, le fait de ne
pas utiliser des poids de confiance différents a contribué à améliorer
légèrement la qualité des résultats de la localisation des erreurs pour cet
ensemble de données selon la méthode de Fellegi-Holt (pour les deux ensembles
d’indicateurs) et aussi, dans une certaine mesure, selon la nouvelle méthode
(second ensemble d’indicateurs seulement). Enfin, il semble que l’utilisation
de toutes les opérations de vérification ait contribué à accroître le temps de
calcul nécessaire par rapport à l’utilisation des opérations FH uniquement, mais
pas de façon spectaculaire.
Tableau 7.3
Qualité de la localisation des erreurs en fonction des opérations de vérification utilisées et des valeurs erronées recensées; temps de calcul requis Sommaire du tableau
Le tableau montre les résultats de Qualité de la localisation des erreurs en fonction des opérations de vérification utilisées et des valeurs erronées recensées; temps de calcul requis. Les données sont présentées selon méthode (titres de rangée) et indicateurs de qualité (opérations de vérification), indicateurs de qualité (valeurs erronées) et temps*, calculées selon XXXX unités de mesure (figurant comme en-tête de colonne).
méthode
indicateurs de qualité (opérations de vérification)
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.