Méthode de perturbation multiniveau pour la protection des données tabulaires
Section 4. Examen empirique
Nous avons appliqué les méthodes MPM et
EZS aux données des particuliers d’un fichier fiscal. Deux variables ont été
utilisées :
revenu (si
et
(pour accroître l’asymétrie).
Nous avons produit des cellules comptant de 15 à 148 unités en combinant
les groupes d’âge avec le code postal, le sexe et l’état matrimonial. Nous
avons essayé différents degrés de bruit
d’une distribution triangulaire
divisée. Les résultats présentés sont ceux où
À
l’aide du cadre risque-utilité (Duncan, Keller-McNulty et
Stokes 2001), nous avons regardé l’incidence des méthodes sur la précision des
données et le risque.
Le tableau 4.1 montre l’effet de
la MPM sur la qualité des totaux des cellules par tranche de taille de cellule.
La méthode a été appliquée 500 fois à chaque cellule. Pour chaque tranche
de taille, le tableau présente le nombre de cellules, le coefficient de variation
(CV) moyen après perturbation et le pourcentage de fois que le total perturbé
se situe dans une marge de 2 %, 5 %, 8 % et 12 % du total
de départ. Aux fins de cette étude, nous avons présumé que les cellules non
conformes à une règle du pourcentage
s’appliquant aux cellules
sensibles où
seraient supprimées et
exclues des résultats. Il y avait plus de ces cellules avec la variable
(comme on pourrait davantage
l’observer avec les données des entreprises). Comme on pouvait s’y attendre,
l’effet de la perturbation était supérieur pour les cellules plus petites et
pour la variable
Toutes les cellules perturbées à plus de 8 % étaient quasi
sensibles et auraient été supprimées avec
Tableau 4.1
Incidence de la méthode de perturbation multiniveau sur les totaux des cellules
Sommaire du tableau
Le tableau montre les résultats de Incidence de la méthode de perturbation multiniveau sur les totaux des cellules. Les données sont présentées selon Taille
de cell. (titres de rangée) et Variable = Revenu (x), Variable = Revenu (y), Nbre
cell., CV
moy. et % de fois que la distance relative est ≤, calculées selon 2 %, 5 %, 8 % et 12 % unités de mesure (figurant comme en-tête de colonne).
Taille
de cell. |
Variable = Revenu (x) |
Variable = Revenu2 (y) |
Nbre
cell. |
CV
moy. |
% de fois que la distance relative est ≤ |
Nbre
cell. |
CV
moy. |
% de fois que la distance relative est ≤ |
2 % |
5 % |
8 % |
12 % |
2 % |
5 % |
8 % |
12 % |
15 – 18 |
1 822 |
2,37 |
58,5 |
95,1 |
99,5 |
100,0 |
1 777 |
4,09 |
34,5 |
72,0 |
92,4 |
99,6 |
19 – 25 |
2 230 |
2,03 |
66,2 |
97,2 |
99,7 |
100,0 |
2 185 |
3,71 |
38,1 |
77,1 |
94,4 |
99,7 |
26 – 40 |
1 920 |
1,57 |
78,2 |
99,1 |
99,9 |
100,0 |
1 899 |
3,24 |
44,2 |
82,8 |
96,0 |
99,8 |
41 – 148 |
1 312 |
1,05 |
92,1 |
99,5 |
99,9 |
100,0 |
1 301 |
2,53 |
57,1 |
90,0 |
97,7 |
99,9 |
Ensemble |
7 284 |
1,82 |
72,1 |
97,6 |
99,7 |
100,0 |
7 162 |
3,47 |
42,3 |
79,7 |
94,9 |
99,7 |
Le tableau 4.2 montre l’effet de
l’application d’un bruit multiplicatif par la méthode EZS, pour le même
aux totaux des cellules. Les
résultats sont plutôt semblables pour le revenu
et ils sont sensiblement
meilleurs pour
Des résultats du même ordre
ont été dégagés quand une valeur proche de 0,014 était utilisée pour
(la méthode MPM était un peu
meilleure avec
et la méthode EZS, avec
Tableau 4.2
Incidence de l’application d’un bruit multiplicatif par la méthode EZS aux totaux des cellules
Sommaire du tableau
Le tableau montre les résultats de Incidence de l’application d’un bruit multiplicatif par la méthode EZS aux totaux des cellules. Les données sont présentées selon Taille
de cell. (titres de rangée) et Variable = Revenu (x), Variable = Revenu (y), Nbre
cell., CV
moy. et % de fois que la distance relative est ≤, calculées selon 2 %, 5 %, 8 % et 12 % unités de mesure (figurant comme en-tête de colonne).
Taille
de cell. |
Variable = Revenu (x) |
Variable = Revenu2 (y) |
Nbre
cell. |
CV
moy. |
% de fois que la distance relative est ≤ |
Nbre
cell. |
CV
moy. |
% de fois que la distance relative est ≤ |
2 % |
5 % |
8 % |
12 % |
2 % |
5 % |
8 % |
12 % |
15 – 18 |
1 822 |
2,33 |
58,7 |
97,1 |
100,0 |
100,0 |
1 777 |
3,19 |
41,2 |
86,4 |
99,8 |
100,0 |
19 – 25 |
2 230 |
2,08 |
64,5 |
98,5 |
100,0 |
100,0 |
2 185 |
2,93 |
45,2 |
90,0 |
99,9 |
100,0 |
26 – 40 |
1 920 |
1,74 |
73,9 |
99,6 |
100,0 |
100,0 |
1 899 |
2,59 |
51,4 |
93,8 |
99,9 |
100,0 |
41 – 148 |
1 312 |
1,30 |
86,9 |
99,9 |
99,9 |
100,0 |
1 301 |
2,09 |
63,4 |
97,1 |
100,0 |
100,0 |
Ensemble |
7 824 |
1,91 |
69,6 |
98,7 |
99,9 |
100,0 |
7 162 |
2,76 |
49,2 |
91,4 |
99,9 |
100,0 |
Nous avons ensuite examiné le degré de
protection assuré aux unités les plus importantes de chaque cellule. Pour
chacune des cellules, nous avons obtenu une estimation
pour l’unité
en prenant les différences
sur les totaux perturbés des cellules avec et sans l’unité en question. Nous
avons calculé les différences relatives
et les avons intégrées à un
score correspondant à
où
si
si
et
dans les autres cas. Le
tableau 4.3 présente les quartiles de
et les scores des variables
et
pour les douze unités les
plus importantes de chaque cellule dans le cas de la méthode MPM et pour
l’unité la plus importante dans le cas de la méthode EZS (laquelle assure le
même degré de protection à toutes les unités).
Avec la MPM, les trois unités les plus
importantes étaient généralement les plus protégées, comme on pouvait s’y
attendre. La configuration est différente pour les variables
et
Si on regarde les quartiles de
pour la variable
le degré de protection
diminue progressivement jusqu’à l’unité 10 et augmente par la suite. Comme
les
sont les mêmes pour
les résultats devraient
continuer à s’améliorer après la 10e unité en importance. Les
scores racontent une même histoire. En ce qui concerne la variable
la descente n’est pas aussi
régulière et l’unité 5 est la moins protégée (l’unité 10 si on
considère seulement le quartile 1). La protection la plus faible autour
des unités 5 et 10 est prévue par les formules pour les
dont la configuration de base
change autour de ces deux unités. L’unité 10 est la plus vulnérable en cas
d’attaque ciblée répétée, une attaque consistant à tirer une estimation
des totaux pour les
unités 1 à 10, et pour les unités 1 à 9, au moyen d’un certain
ensemble d’unités plus petites (par exemple, tirer
des totaux sans l’unité
et sans les unités
et 10 pour
Si l’on prend la moyenne des
et s’il y en a suffisamment,
on peut obtenir de bonnes estimations de
De telles attaques exigent
des demandes de tableaux soigneusement formulées, ce que pourrait décourager un
cadre de production semi-contrôlée de tableaux.
Tableau 4.3
Protection des douze plus grandes unités avec la méthode MPM et de la plus grande avec la méthode EZS (quartiles de di)
Sommaire du tableau
Le tableau montre les résultats de Protection des douze plus grandes unités avec la méthode MPM et de la plus grande avec la méthode EZS (quartiles de di) Cellules, Q1, Médiane, Q3 et Score (%)(figurant comme en-tête de colonne).
|
Cellules |
Q1 |
Médiane |
Q3 |
Score (%) |
Variable = Revenu (x) |
|
Unité 1 |
7 962 |
7,9 |
15,7 |
26,6 |
3 196 (40) |
Unité 2 |
7 962 |
8,6 |
17,5 |
29,3 |
2 895 (36) |
Unité 3 |
7 962 |
8,1 |
16,9 |
28,7 |
3 021 (38) |
Unité 4 |
7 962 |
7,2 |
15,5 |
26,2 |
3 314 (42) |
Unité 5 |
7 962 |
6,4 |
13,9 |
23,8 |
3 647 (46) |
Unité 6 |
7 962 |
6,4 |
13,9 |
23,3 |
3 614 (45) |
Unité 7 |
7 962 |
6,2 |
13,3 |
22,4 |
3 765 (47) |
Unité 8 |
7 962 |
6,3 |
13,4 |
22,3 |
3 731 (47) |
Unité 9 |
7 962 |
5,1 |
11,5 |
19,9 |
4 267 (54) |
Unité 10 |
7 962 |
3,3 |
10,7 |
20,9 |
4 373 (55) |
Unité 11 |
7 962 |
3,8 |
11,8 |
22,4 |
4 121 (52) |
Unité 12 |
7 962 |
3,8 |
12,2 |
24,7 |
4 031 (51) |
U1/EZS |
7 962 |
6,7 |
7,5 |
8,4 |
7 941 (100) |
Variable = Revenu2 (y) |
|
Unité 1 |
7 823 |
7,6 |
14,4 |
23,2 |
3 365 (43) |
Unité 2 |
7 782 |
7,2 |
15,0 |
25,2 |
3 311 (43) |
Unité 3 |
7 782 |
6,6 |
14,1 |
24,2 |
3 522 (45) |
Unité 4 |
7 799 |
6,1 |
13,3 |
22,5 |
3 726 (48) |
Unité 5 |
7 808 |
5,5 |
11,9 |
20,5 |
4 052 (52) |
Unité 6 |
7 811 |
6,0 |
12,6 |
21,6 |
3 885 (50) |
Unité 7 |
7 814 |
6,0 |
12,6 |
22,2 |
3 868 (50) |
Unité 8 |
7 818 |
6,5 |
13,8 |
23,7 |
3 581 (46) |
Unité 9 |
7 818 |
5,7 |
13,0 |
24,2 |
3 750 (48) |
Unité 10 |
7 818 |
4,4 |
13,5 |
27,4 |
3 704 (47) |
Unité 11 |
7 818 |
4,8 |
15,7 |
32,1 |
3 422 (44) |
Unité 12 |
7 820 |
5,8 |
17,9 |
37,9 |
3 110 (40) |
U1/EZS |
7 823 |
6,7 |
7,5 |
8,5 |
7 803 (100) |
Par contraste, les résultats obtenus
avec la méthode EZS montrent que le degré de protection assuré à l’unité 1
(et à toute autre au demeurant) est relativement constant et qu’il est
généralement bien moindre qu’avec la méthode MPM. Le score obtenu avec la EZS est
presque de 100 %, un résultat fort médiocre. Il reste que cette méthode a
été conçue pour la protection des totaux, et non pour la prévention de la prise
de différences. Si l’on devait se protéger contre la prise de différences, il
faudrait fixer le degré de bruit bien plus haut pour que le niveau de
protection des valeurs soit comparable à celui qu’offre la méthode MPM. Mais
avec la méthode EZS, les unités autour de l’unité 10 ne seraient pas plus
vulnérables en cas d’attaque ciblée répétée.
Pour étudier les rôles respectifs de
et
nous avons tiré des valeurs
aléatoires d’une distribution uniforme, mais en créant une valeur aberrante
dans chaque cellule et en fixant
à la plus grande valeur ne
rendant pas la cellule sensible; pour
on aurait alors
Nous avons appliqué la MPM en
établissant
à 1, et en calculant
et
comme nous l’avons suggéré
précédemment ou en les fixant à 1. Pour les données que nous avons produites,
la valeur calculée de
ne s’écartait jamais de 1. Le
tableau 4.4 montre que le facteur
est utile, parce que, s’il
est fixé à 1, le degré de protection pour la valeur aberrante n’est pas assez élevé
quand
Tableau 4.4
Protection des valeurs aberrantes dans des populations artificielles pour 1 000 cellules (quartiles de d1)
Sommaire du tableau
Le tableau montre les résultats de Tableau 4.4
Protection des valeurs aberrantes dans des populations artificielles pour 1 000 cellules (quartiles de d1) Q1, Médiane, Q3 et Score(figurant comme en-tête de colonne).
|
Q1 |
Médiane |
Q3 |
Score |
MPM normale (K ≥ 1) |
11,1 |
12,6 |
14,2 |
472 |
MPM avec K = L = M = 1 |
6,7 |
7,5 |
8,6 |
996 |
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Ministre de l'Industrie, 2017
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : Semi-annuel
Ottawa