Soutien au contrôle de la confidentialité: Dominance et homogénéité avec SAS

ISBN : 978-0-660-69423-8

Date de diffusion : 29 avril 2022

Soutien au contrôle de la confidentialité: Dominance et homogénéité avec SAS

(Le symbole de Statistique Canada, le mot-symbole « Soutien au contrôle de la confidentialité: Dominance et homogénéité avec SAS » apparaissent à l'écran.)

Bienvenue à la série de formation de l'accès aux données de Statistique Canada. Cette vidéo fait partie de la série de soutien au contrôle de la confidentialité et présente des exemples d'utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles.

Aujourd'hui, nous allons vous montrer un exemple permettant d'utiliser les tests d'homogénéité et de dominance, incluant des tests de NK et P-pourcent pour la variable de revenu en dollar avec SAS. Nous utiliserons un échantillon factice du recensement de 2016 qui ne contient aucun cas réel.

La dominance, c'est lorsque la majeure partie de la contribution à la statistique provient d'une ou de quelques observations (sur la base d'observations non pondérées). Les règles de N, K et P% font partie des règles de dominance. Quant à la règle d'homogénéité, elle vise à éviter la divulgation de statistiques lorsque les répondants occupent une étendue étroite de valeurs (peut-être parce qu'elles ont été imputées du même répondant).

Nous avons choisi le recensement pour cet exemple, mais d'autres enquêtes de Statistique Canada les exigent également. Pour les chercheurs des CDR, Il peut être important de savoir comment réaliser ces tests. En effet, la sortie de résultats de statistiques descriptives ou de modèles impliquant la variable de revenu continue en dollar exige du chercheur qu'il joigne à sa demande de confidentialité des documents de soutien.

Mentionnons qu'il s'agit d'un exemple de tests pour faciliter la vie aux chercheurs. Il existe d'autres exemples de ces programmes en ligne. Cette version-ci est facilement accessible aux chercheurs des CDR. Si vous n'êtes pas sûrs de leur emplacement, demandez-le à votre analyste. La présente version se présente comme un programme SAS où il suffit essentiellement d'entrer les variables d'intérêt dans la macro, incluant la variable de revenu, et de l'exécuter.

D'entrée de jeu, sachez qu'il est possible d'importer une base de données dans un autre langage informatique que SAS dont SPSS et de le transformer en base de données SAS. De plus, il faut savoir qu'il existe d'autres outils pour réaliser les tests avec les logiciels STATA et R disponibles dans les CDR. Ensuite, il suffit de déterminer quelles variables seront introduites dans la macro SAS. Pour les fins de l'exercice, nous pouvons prendre l'exemple d'un chercheur qui demande la sortie d'un tableau croisé de de la moyenne du revenu (qui est une variable continue) par province et par sexe (deux variables catégorielles). Ensuite, on introduit sur la deuxième ligne notre variable de revenu.

Nous utilisons ici la variable totinc. Enfin, il faut donner une instruction à SAS quant à l'emplacement du fichier de données qui nous intéresse. Le reste de la procédure suit. Pour la démonstration, je vais soumettre la partie du test de dominance et d'homogénéité. Vous obtiendrai alors un tableau de sortie de résultats. On retrouve certains indicateurs permettant de voir si chacune des catégories passent ou non les tests. Ici on voit qu'aucun des tests n'a échoué par la mention 0. Aucun problème d'homogénéité et de dominance n'a été détecté. Une valeur de 1 aurait indiqué qu'une catégorie a échoué le test. Le chercheur devrait regrouper les variables pour augmenter les effectifs dans la catégorie en question.

Ce document peut être joint aux résultats qui font l'objet d'une demande de divulgation, sous forme de feuille Excel, par exemple. Le code a exécuté l'envoi d'un fichier Excel à l'emplacement que nous avons indiqué. Il se retrouve sur le Bureau, dans un Dossier, mais vous pouvez choisir l'emplacement de votre choix. Maintenant, on revient au programme pour exécuter le code des tests de N, K, et P-pourcent. Encore une fois, on sélectionne le code à exécuter. Le code génère des fichiers de données nécessaires au calcul des tests. Comme avec le test précédent, le tableau qui se trouve dans la fenêtre de sortie de données indiquent zéro.

On peut conclure qu'aucun problème de N, K et P-pourcent n'a été détecté, et qu'il n'est donc pas nécessaire de regrouper de catégories. Ces résultats peuvent être joints comme document de soutien à la demande de confidentialité. Merci de votre attention! Si vous avez des questions, veuillez contacter le personnel local du CDR ou envoyez un courriel à statcan.maddatadevteam-damequdevdonnees.statcan@canada.ca.

(Le mot-symbole « Canada » s'affiche.)