Méthode de perturbation multiniveau pour la protection des données tabulaires
Section 2. Contexte

La stratégie proposée vise à protéger la confidentialité des tableaux de données quantitatives dans un cadre de production semi-contrôlée de tableaux personnalisés. Elle a été conçue avant tout pour des données administratives (s’apparentant à celles du recensement), et notamment pour les données sur l’impôt des particuliers. À Statistique Canada, la diffusion de telles données est assujettie à des règles de contrôle de la divulgation, notamment la définition de tailles minimales de population pour les régions géographiques identifiables, l’application de règles relatives à la taille minimale des cellules et de règles de dominance pour supprimer des cellules sensibles (confidentielles), ou le recours à une suppression de cellules complémentaires (SCC) pour empêcher toute récupération de valeurs de cellules sensibles.

Alors que l’utilisation des données personnelles présente foncièrement moins de dangers que celle des données des entreprises, les données personnelles font plus fréquemment l’objet de tableaux personnalisés. Et si ces tableaux deviennent plus accessibles, il sera aussi de plus en plus difficile de procéder efficacement à des suppressions de cellules complémentaires. D’autres méthodes doivent donc être envisagées. La méthode que nous proposons consiste à appliquer indépendamment une technique perturbatrice à toute cellule non sensible de tout tableau. Seules les cellules sensibles sont supprimées, bien qu’on puisse envisager d’en diffuser quelques-unes une fois perturbées. La méthode vise à protéger les cellules sensibles des tableaux, ainsi qu’à prévenir la divulgation par recoupements découlant de tableaux multiples, surtout par la prise de différences sur des totaux imbriqués. Le but dans ce cas est de protéger deux totaux qui diffèrent par une unité.

Nous supposons l’existence d’un cadre semi-contrôlé où l’accès est quelque peu restreint, ou du moins jamais anonyme, et où donc il y a une surveillance et un contrôle quelconques des demandes. C’est une précaution qui s’impose, puisqu’en offrant sans restriction des tableaux à des pirates anonymes cherchant à exploiter toute vulnérabilité (en particulier, en multipliant les demandes pour obtenir des ensembles d’unités soigneusement choisis), on prête le flanc à une divulgation approximative de valeurs d’unités dans certaines conditions. Notre méthode est conçue pour des données s’apparentant à celles du recensement, qui sont plus à risque, mais elle pourrait sans aucun doute s’adapter à des données-échantillons au besoin. Notre stratégie convient mieux aux données personnelles, car elles sont moins susceptibles de dominance que les données des entreprises et les cellules quasi dominantes sont celles qui sont perturbées le plus. Mais sous réserve d’une certaine adaptation, les utilisateurs seraient à même de constater dans quelle mesure la stratégie pourrait répondre à leurs besoins pour d’autres types de données.

Dans la mesure du possible, nous aimerions employer cette stratégie pour remédier à d’autres problèmes de divulgation, notamment assurer la protection des rapports et d’autres genres de données. D’autres avantages seraient la capacité de traiter les zéros et les valeurs négatives, le maintien de la qualité des données, la préservation de l’additivité des tableaux, et des aspects opérationnels comme la simplicité de calcul et le recours à un minimum d’intervention manuelle.

Dans le présent exposé, nous appliquons une règle du pourcentage P MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuaaaa@34CF@ pour reconnaître les totaux de cellules sensibles, une cellule étant sensible si la contribution globale des plus petites unités, à partir de la troisième en importance, est inférieure à tel pourcentage P % MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuaiaays W7caGGLaaaaa@3705@ de la valeur de la plus grande unité (si X x 1 x 2 < P % x 1 , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacaWGybGaeyOeI0IaamiEa8aadaWgaaWcbaWdbiaaigdaa8aabeaa k8qacqGHsislcaWG4bWdamaaBaaaleaapeGaaGOmaaWdaeqaaOWdbi abgYda8iaadcfacaaMe8UaaiyjaiaaysW7caWG4bWdamaaBaaaleaa peGaaGymaaWdaeqaaOWdbiaacYcaaaa@43A2@ X MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiwaaaa@34D7@ est le total de la cellule et où x i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiEamaaBa aaleaacaWGPbaabeaaaaa@3611@ est la contribution de sa i e MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyAamaaCa aaleqabaGaaeyzaaaaaaa@35FD@ unité en importance). Nous supposons que les cellules non conformes à la règle de la taille minimale de cellule sont sensibles elles aussi.

Nous désirons préserver la qualité et la confidentialité des données quantitatives dans un cadre de production de tableaux personnalisés. Des techniques applicables à des tableaux de données quantitatives comme la suppression de cellules complémentaires (Cox et Sande 1979) et l’ajustement tabulaire contrôlé (Cox et Dandekar 2004) ne donnent pas de très bons résultats dans un tel cadre. Il nous faut résoudre des problèmes d’optimisation pour dégager des solutions par tableau. Des problèmes commencent à se poser quand on a à protéger des tableaux vastes, complexes ou liés (couplés); on sera alors incapable d’en venir à une solution ou bien une démarche heuristique risquera de créer des incohérences de suppression ou de perturbation qu’exploiteraient des pirates. Il est bien plus facile de perturber directement les totaux de cellules, notamment par l’application d’un bruit aléatoire, mais on aura toujours à s’attacher aux microdonnées pour assurer une protection suffisante, tout en contrôlant l’effet sur la qualité. Sans des mesures complémentaires, des incohérences pourraient apparaître dans et entre les tableaux, et les pirates en profiteraient.

Une perturbation des microdonnées, c’est-à-dire au niveau des microdonnées, convient mieux à un cadre multitableaux. Les tableaux sont additifs et habituellement exempts de toute suppression, et les résultats sont cohérents entre tableaux. Si l’on permet des tableaux personnalisés, quelqu’un pourrait peut-être récupérer certaines valeurs perturbées, soit directement, soit par prise de différences. Le degré de bruit appliqué à chaque unité doit donc être assez élevé pour qu’on réalise le degré d’ambiguïté recherché, et c’est pourquoi le bruit accumulé risque d’être ample pour des agrégats donnés. Une méthode de perturbation des microdonnées conçue et employée au U.S. Census Bureau s’appelle la méthode EZS (Evans, Zayatz et Slanta 1998). Elle consiste à multiplier les différentes valeurs x i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiEamaaBa aaleaacaWGPbaabeaaaaa@3611@ par un poids w i = 1 + ε i , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4DamaaBa aaleaacaWGPbaabeaakiabg2da9iaaigdacqGHRaWkcqaH1oqzdaWg aaWcbaGaamyAaaqabaGccaGGSaaaaa@3C38@ ε i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqyTdu2aaS baaSqaaiaadMgaaeqaaaaa@36BB@ représente des variables aléatoires indépendantes et identiquement distribuées (i.i.d.) à moyenne 0 et à variance σ ε 2 . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacqaHdpWCpaWaa0baaSqaa8qacqaH1oqza8aabaWdbiaaikdaaaGc paGaaiOlaaaa@3976@ Mentionnons deux distributions des ε i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqyTdu2aaS baaSqaaiaadMgaaeqaaaaa@36BB@ d’intérêt, soit la distribution triangulaire divisée (voir la figure 2.1) et la distribution uniforme divisée (voir la figure 2.2) où les valeurs correspondantes de σ ε 2   MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacqaHdpWCpaWaa0baaSqaa8qacqaH1oqza8aabaWdbiaaikdaaaGc caGGGcaaaa@39D9@ sont ( 3 a 2 + 2 a b + b 2 ) / 6 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSGbaeaada qadaqaaiaaiodacaWGHbWaaWbaaSqabeaacaaIYaaaaOGaey4kaSIa aGOmaiaadggacaWGIbGaey4kaSIaamOyamaaCaaaleqabaGaaGOmaa aaaOGaayjkaiaawMcaaaqaaiaaiAdaaaaaaa@3F16@ et ( a 2 + a b + b 2 ) / 3 , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSGbaeaada qadaqaaiaadggadaahaaWcbeqaaiaaikdaaaGccqGHRaWkcaWGHbGa amOyaiabgUcaRiaadkgadaahaaWcbeqaaiaaikdaaaaakiaawIcaca GLPaaaaeaacaaIZaaaaiaacYcaaaa@3E4A@ respectivement. Les ε i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqyTdu2aaS baaSqaaiaadMgaaeqaaaaa@36BB@ (ou les w i ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4DamaaBa aaleaacaWGPbaabeaakiaacMcaaaa@36C7@ sont attachés en permanence à leur unité i . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyAaiaac6 caaaa@359A@ Comme le même bruit est appliqué à toutes les variables, il n’y a aucune incidence sur les rapports. S’il est nécessaire de protéger les rapports, il devrait y avoir des valeurs de pondération w i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4DamaaBa aaleaacaWGPbaabeaaaaa@3610@ différentes selon les variables, ou des poids par unité pourraient être utilisés conjointement avec des poids par variable d’unité.

Figure 2.1 Distribution triangulaire divisée

Description de la figure 2.1

Figure illustrant la distribution triangulaire divisée. La distribution est nulle jusqu’à b. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeyOeI0Iaam Oyaiaac6caaaa@3684@ Les valeurs croissent ensuite de façon linéaire de b MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeyOeI0Iaam Oyaaaa@35D2@ à a, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeyOeI0Iaam yyaiaacYcaaaa@3681@ la distribution formant un triangle. Par la suite, la distribution est nulle. Elle reprend à a MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyyaaaa@34E4@ et décroît linéairement vers b, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOyaiaacY caaaa@3595@ la distribution formant un second triangle. Après, la distribution est nulle.

Figure 2.2 Distribution uniforme divisée

Description de la figure 2.2

Figure illustrant la distribution uniforme divisée. La distribution est non nulle seulement de b MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeyOeI0Iaam Oyaaaa@35D2@ à a MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeyOeI0Iaam yyaaaa@35D1@ et de a MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyyaaaa@34E4@ à b, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOyaiaacY caaaa@3595@ formant deux rectangles identiques.

Il existe des moyens d’atténuer l’effet accumulé de la perturbation des microdonnées sur la qualité. Massell et Funk (2007) proposent d’équilibrer les bruits aléatoires appliqués aux cellules d’un tableau primaire pour limiter leur incidence. Dans d’autres méthodes, on perturbe les microdonnées, mais pas toujours de la même manière et en créant donc certaines incohérences dans les résultats. Giessing (2011) propose de multiplier les valeurs d’unités x i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiEamaaBa aaleaacaWGPbaabeaaaaa@3611@ par w i = 1 ± | ε i | , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4DamaaBa aaleaacaWGPbaabeaakiabg2da9iaaigdacqGHXcqSdaabdaqaaiaa ykW7cqaH1oqzdaWgaaWcbaGaamyAaaqabaGccaaMc8oacaGLhWUaay jcSdGaaiilaaaa@437C@ pour ε i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqyTdu2aaS baaSqaaiaadMgaaeqaaaaa@36BB@ i.i.d. N ( 0 , σ 0 2 ) , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbiqaaGYdcaqGob WaaeWaaeaacaaIWaGaaiilaiabeo8aZnaaDaaaleaacaaIWaaabaGa aGOmaaaaaOGaayjkaiaawMcaaiaacYcaaaa@3C18@ sauf dans les cellules sensibles, où la valeur la plus grande serait multipliée par w i = 1 ± ( μ 0 + | ε i | ) . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4DamaaBa aaleaacaWGPbaabeaakiabg2da9iaaigdacqGHXcqSdaqadaqaaiab eY7aTnaaBaaaleaacaaIWaaabeaakiabgUcaRmaaemaabaGaaGPaVl abew7aLnaaBaaaleaacaWGPbaabeaakiaaykW7aiaawEa7caGLiWoa caaMc8oacaGLOaGaayzkaaGaaiOlaaaa@4A1A@ On choisit la valeur μ 0 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqiVd02aaS baaSqaaiaaicdaaeqaaaaa@3696@ pour assurer un degré approprié de protection des cellules sensibles, d’où la possibilité d’utiliser dans l’ensemble une valeur inférieure de σ 0 2 . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacqaHdpWCpaWaa0baaSqaa8qacaaIWaaapaqaa8qacaaIYaaaaOWd aiaac6caaaa@3889@ Il reste que, si σ 0 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpe0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacqaHdpWCpaWaa0baaSqaa8qacaaIWaaapaqaa8qacaaIYaaaaaaa @37BE@ est trop bas, la méthode ne protège peut-être pas suffisamment contre la divulgation par prise de différences. L’Australian Bureau of Statistics a conçu la méthode des principales contributions (Top Contributors Method ou TCM) pour son application d’accès à distance TableBuilder; celle-ci consiste à perturber les principaux répondants dans chaque cellule d’une manière semi-cohérente, seule une partie du bruit étant appliquée uniformément (Thompson, Broadfoot et Elazar 2013). La méthode de perturbation multiniveau fait appel à certains de ces concepts, mais elle protège davantage contre la prise de différences, comme nous allons l’expliquer.

D’autres stratégies courantes comme l’arrondissement, l’échantillonnage (ou le sous-échantillonnage) et l’échange d’unités, entre régions voisines disons, se prêtent mieux à une protection des tableaux statistiques.


Date de modification :