Contrôle de la divulgation et diffusion de données

Aller au contenu principal
Aller au pied de page

Sélection de la langue

English

Recherche et menus

Recherche et menus

Rechercher

Passer au filtres. Voir les résultats.

Résultats

Tout (10)

Tout (10) ((10 résultats))

1. La méthode de vraisemblance empirique fondée sur l’échantillon sous un plan de sondage complexe avec réponses brouillées
Articles et rapports : 12-001-X202100100003
Description :
L’utilisation de réponses brouillées est un moyen efficace d’effectuer le contrôle de la divulgation statistique. Les réponses brouillées peuvent être produites au moyen d’un procédé aléatoire contrôlé. Dans le présent article, nous proposons d’utiliser la méthode de la vraisemblance empirique fondée sur l’échantillon pour effectuer des inférences statistiques dans le cadre d’un plan de sondage complexe avec réponses brouillées. Plus précisément, nous proposons d’utiliser un intervalle de confiance de type Wilk pour l’inférence statistique. La méthode proposée peut servir d’outil général pour l’inférence en présence de fichiers de données d’enquête confidentielles à grande diffusion. Les propriétés asymptotiques sont produites, et l’étude par simulations limitée confirme la validité de la théorie. De plus, nous appliquons la méthode proposée à des situations réelles.
Date de diffusion : 2021-06-24
2. Trouver une aiguille dans une botte de foin : les fondements théoriques et empiriques de l’évaluation du risque de divulgation pour des microdonnées contextualisées Archivé
Articles et rapports : 11-522-X201700014731
Description :
Cette communication décrit divers facteurs qui posent un problème lorsque l’on évalue le risque de divulgation de microdonnées contextualisées, ainsi que certaines des étapes empiriques qui sont comprises dans leur évaluation. À partir d’ensembles synthétiques de répondants d’enquête, nous illustrons comment différents postulats modulent l’évolution du risque lorsque l’on tient compte : 1) des probabilités estimées que des régions géographiques non identifiées soient représentées dans une enquête; 2) du nombre de personnes dans la population qui partagent les mêmes identificateurs personnels et contextuels qu’un répondant; et 3) de l’ampleur prévue de l’erreur de couverture dans les chiffres de population du recensement et les fichiers existants qui fournissent des données d’identification (p. ex., le nom, l’adresse).
Date de diffusion : 2016-03-24
3. Amélioration du partage des données au moyen de « plans sécuritaires » Archivé
Articles et rapports : 11-522-X201700014733
Description :
La valeur sociale des collectes de données est améliorée de façon marquée par la vaste diffusion des fichiers de recherche et l’augmentation en découlant de la productivité scientifique. À l’heure actuelle, la plupart des études sont conçues en vue de recueillir des données utiles et exactes au niveau analytique, en se préoccupant peu de la façon dont elles seront mises en commun. Tant les ouvrages publiés que la pratique reposent sur le principe que l’analyse de la divulgation aura lieu après la collecte. Toutefois, pour produire des données à grande diffusion comportant la plus grande utilité analytique possible pour le groupe d’utilisateurs le plus important, on doit tenir compte du risque de divulgation au début du processus de recherche. À partir de cadres théoriques de décisions économiques et statistiques et de recherches en méthodes d’enquête, cette communication vise à améliorer la productivité scientifique des données de recherche partagées en décrivant comment le risque de divulgation peut être résolu aux étapes les plus précoces de la recherche, grâce à la formulation de « plans sécuritaires » et de « simulations de divulgation », une approche statistique appliquée ayant été adoptée pour : 1) l’élaboration et la validation de modèles qui prédisent la composition des données d’enquête selon différents plans d’échantillonnage; 2) la sélection et/ou l’élaboration de mesures et de méthodes utilisées pour déterminer le risque de divulgation, l’utilité analytique et les coûts de la divulgation des données d’enquête qui conviennent le mieux pour l’évaluation des plans d’échantillonnage et de bases de données; et 3) la tenue de simulations pour recueillir des estimations du risque, de l’utilité et du coût des études comportant une vaste gamme de caractéristiques d’échantillonnage et de conception de bases de données.
Date de diffusion : 2016-03-24
4. Estimation parcimonieuse et efficace de la variance par rééchantillonnage pour les enquêtes complexes Archivé
Articles et rapports : 12-001-X201300111826
Description :
Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.
Date de diffusion : 2013-06-28
5. Fournir des données spatiales pour l'analyse secondaire : problèmes et pratiques courantes concernant la protection des renseignements confidentiels Archivé
Articles et rapports : 11-522-X20050019433
Description :
Les données spatialement explicites offrent une série de possibilités et de défis à tous les acteurs de la fourniture de données destinées au stockage de longue durée et à l'analyse secondaire, c'est-à-dire le producteur, l'archiviste et l'utilisateur des données.
Date de diffusion : 2007-03-02
6. La présentation des méta-données: l'expérience d'un CDR Archivé
Articles et rapports : 11-522-X20050019456
Description :
Les méta-données liées à la production de micro-données sont souvent volumineuses et déconcernant. Il manque un système pour la présentation des méta-données associées aux dossiers confidentiels de micro-données des enquêtes gérés par Statistiques Canada. Cette pénurie appliqué également au contenu qu'à la méthode de dissémination. Un projet pilot à été conduit au sein du programme de CDR afin d'évaluer la capacité d'une norme, l'Initiative de democratization des données (IDD), de pourvoir soutenir un tel processus.
Date de diffusion : 2007-03-02
7. Information sur la variance à l'intention des utilisateurs de données Archivé
Articles et rapports : 11-522-X20050019462
Description :
La façon habituelle de présenter l'information sur la variance aux utilisateurs de données consiste à publier des estimations de la variance ou de statistiques connexes, comme les écarts types, les coefficients de variation, les limites de confiance ou de simples systèmes de classement. La communication porte sur les sources éventuelles de variance, comme le plan de sondage, la répartition de l'échantillon, la sélection de l'échantillon et la non réponse, et sur les meilleures mesures qui pourraient être prises pour réduire la variance. Enfin, elle donne une brève évaluation des coûts financiers qu'occasionne aux producteurs et aux utilisateurs de données le fait de réduire ou de ne pas réduire la variance et décrit comment un compromis pourrait être établi entre les coûts associés à la production de statistiques plus exactes et les avantages financiers d'une plus grande précision.
Date de diffusion : 2007-03-02
8. Aperçu du contrôle statistique de la divulgation des microdonnées Archivé
Articles et rapports : 12-001-X199600114381
Description :
Les problèmes que pose le contrôle statistique de la divulgation, lequel a pour but d’empêcher les utilisateurs des données de divulguer des renseignements sur des répondants particuliers, se sont multipliés rapidement au cours des dernières années. La situation est due principalement à l’augmentation de la demande de données détaillées provenant des bureaux de la statistique, elle-même causée par l’accroissement continuel de l’usage des ordinateurs. Auparavant, ces bureaux produisaient des tableaux contenant relativement peu d’information. Aujourd’hui, par contre, les utilisateurs de données demandent des tableaux beaucoup plus détaillés et, qui plus est, des microdonnées à analyser eux-mêmes. Or, l’augmentation du contenu informatique des données rend le contrôle statistique de la divulgation beaucoup plus difficile. Les auteurs se fondent sur l’expérience qu’ils ont acquise dans le domaine du contrôle statistique de la divulgation à Statistics Netherlands pour exposer les problèmes qu’il faut, selon eux, surmonter quand on essaie de protéger les microdonnées contre la divulgation.
Date de diffusion : 1996-06-14
9. La diffusion des données d'enquêtes longitudinales : l'expérience de l'EDTR Archivé
Articles et rapports : 75F0002M1995011
Description :
Dans ce document, on brosse un tableau des défis que représente la diffusion des microdonnées provenant d'enquêtes longitudinales, et de certaines des mesures proposées pour les relever, en se servant de l'Enquête sur la dynamique du travail et du revenu (EDTR) comme étude de cas.
Date de diffusion : 1995-12-30
10. Premier fichier de microdonnées de l'EDTR : contenu prévu Archivé
Enquêtes et programmes statistiques — Documentation : 75F0002M1995018
Description :
Dans ce document, on donne un aperçu des variables du premier fichier de microdonnées de l'Enquête sur la dynamique du travail et du revenu (EDTR).
Date de diffusion : 1995-12-30

Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (9)

Analyses (9) ((9 résultats))

1. La méthode de vraisemblance empirique fondée sur l’échantillon sous un plan de sondage complexe avec réponses brouillées
Articles et rapports : 12-001-X202100100003
Description :
L’utilisation de réponses brouillées est un moyen efficace d’effectuer le contrôle de la divulgation statistique. Les réponses brouillées peuvent être produites au moyen d’un procédé aléatoire contrôlé. Dans le présent article, nous proposons d’utiliser la méthode de la vraisemblance empirique fondée sur l’échantillon pour effectuer des inférences statistiques dans le cadre d’un plan de sondage complexe avec réponses brouillées. Plus précisément, nous proposons d’utiliser un intervalle de confiance de type Wilk pour l’inférence statistique. La méthode proposée peut servir d’outil général pour l’inférence en présence de fichiers de données d’enquête confidentielles à grande diffusion. Les propriétés asymptotiques sont produites, et l’étude par simulations limitée confirme la validité de la théorie. De plus, nous appliquons la méthode proposée à des situations réelles.
Date de diffusion : 2021-06-24
2. Trouver une aiguille dans une botte de foin : les fondements théoriques et empiriques de l’évaluation du risque de divulgation pour des microdonnées contextualisées Archivé
Articles et rapports : 11-522-X201700014731
Description :
Cette communication décrit divers facteurs qui posent un problème lorsque l’on évalue le risque de divulgation de microdonnées contextualisées, ainsi que certaines des étapes empiriques qui sont comprises dans leur évaluation. À partir d’ensembles synthétiques de répondants d’enquête, nous illustrons comment différents postulats modulent l’évolution du risque lorsque l’on tient compte : 1) des probabilités estimées que des régions géographiques non identifiées soient représentées dans une enquête; 2) du nombre de personnes dans la population qui partagent les mêmes identificateurs personnels et contextuels qu’un répondant; et 3) de l’ampleur prévue de l’erreur de couverture dans les chiffres de population du recensement et les fichiers existants qui fournissent des données d’identification (p. ex., le nom, l’adresse).
Date de diffusion : 2016-03-24
3. Amélioration du partage des données au moyen de « plans sécuritaires » Archivé
Articles et rapports : 11-522-X201700014733
Description :
La valeur sociale des collectes de données est améliorée de façon marquée par la vaste diffusion des fichiers de recherche et l’augmentation en découlant de la productivité scientifique. À l’heure actuelle, la plupart des études sont conçues en vue de recueillir des données utiles et exactes au niveau analytique, en se préoccupant peu de la façon dont elles seront mises en commun. Tant les ouvrages publiés que la pratique reposent sur le principe que l’analyse de la divulgation aura lieu après la collecte. Toutefois, pour produire des données à grande diffusion comportant la plus grande utilité analytique possible pour le groupe d’utilisateurs le plus important, on doit tenir compte du risque de divulgation au début du processus de recherche. À partir de cadres théoriques de décisions économiques et statistiques et de recherches en méthodes d’enquête, cette communication vise à améliorer la productivité scientifique des données de recherche partagées en décrivant comment le risque de divulgation peut être résolu aux étapes les plus précoces de la recherche, grâce à la formulation de « plans sécuritaires » et de « simulations de divulgation », une approche statistique appliquée ayant été adoptée pour : 1) l’élaboration et la validation de modèles qui prédisent la composition des données d’enquête selon différents plans d’échantillonnage; 2) la sélection et/ou l’élaboration de mesures et de méthodes utilisées pour déterminer le risque de divulgation, l’utilité analytique et les coûts de la divulgation des données d’enquête qui conviennent le mieux pour l’évaluation des plans d’échantillonnage et de bases de données; et 3) la tenue de simulations pour recueillir des estimations du risque, de l’utilité et du coût des études comportant une vaste gamme de caractéristiques d’échantillonnage et de conception de bases de données.
Date de diffusion : 2016-03-24
4. Estimation parcimonieuse et efficace de la variance par rééchantillonnage pour les enquêtes complexes Archivé
Articles et rapports : 12-001-X201300111826
Description :
Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.
Date de diffusion : 2013-06-28
5. Fournir des données spatiales pour l'analyse secondaire : problèmes et pratiques courantes concernant la protection des renseignements confidentiels Archivé
Articles et rapports : 11-522-X20050019433
Description :
Les données spatialement explicites offrent une série de possibilités et de défis à tous les acteurs de la fourniture de données destinées au stockage de longue durée et à l'analyse secondaire, c'est-à-dire le producteur, l'archiviste et l'utilisateur des données.
Date de diffusion : 2007-03-02
6. La présentation des méta-données: l'expérience d'un CDR Archivé
Articles et rapports : 11-522-X20050019456
Description :
Les méta-données liées à la production de micro-données sont souvent volumineuses et déconcernant. Il manque un système pour la présentation des méta-données associées aux dossiers confidentiels de micro-données des enquêtes gérés par Statistiques Canada. Cette pénurie appliqué également au contenu qu'à la méthode de dissémination. Un projet pilot à été conduit au sein du programme de CDR afin d'évaluer la capacité d'une norme, l'Initiative de democratization des données (IDD), de pourvoir soutenir un tel processus.
Date de diffusion : 2007-03-02
7. Information sur la variance à l'intention des utilisateurs de données Archivé
Articles et rapports : 11-522-X20050019462
Description :
La façon habituelle de présenter l'information sur la variance aux utilisateurs de données consiste à publier des estimations de la variance ou de statistiques connexes, comme les écarts types, les coefficients de variation, les limites de confiance ou de simples systèmes de classement. La communication porte sur les sources éventuelles de variance, comme le plan de sondage, la répartition de l'échantillon, la sélection de l'échantillon et la non réponse, et sur les meilleures mesures qui pourraient être prises pour réduire la variance. Enfin, elle donne une brève évaluation des coûts financiers qu'occasionne aux producteurs et aux utilisateurs de données le fait de réduire ou de ne pas réduire la variance et décrit comment un compromis pourrait être établi entre les coûts associés à la production de statistiques plus exactes et les avantages financiers d'une plus grande précision.
Date de diffusion : 2007-03-02
8. Aperçu du contrôle statistique de la divulgation des microdonnées Archivé
Articles et rapports : 12-001-X199600114381
Description :
Les problèmes que pose le contrôle statistique de la divulgation, lequel a pour but d’empêcher les utilisateurs des données de divulguer des renseignements sur des répondants particuliers, se sont multipliés rapidement au cours des dernières années. La situation est due principalement à l’augmentation de la demande de données détaillées provenant des bureaux de la statistique, elle-même causée par l’accroissement continuel de l’usage des ordinateurs. Auparavant, ces bureaux produisaient des tableaux contenant relativement peu d’information. Aujourd’hui, par contre, les utilisateurs de données demandent des tableaux beaucoup plus détaillés et, qui plus est, des microdonnées à analyser eux-mêmes. Or, l’augmentation du contenu informatique des données rend le contrôle statistique de la divulgation beaucoup plus difficile. Les auteurs se fondent sur l’expérience qu’ils ont acquise dans le domaine du contrôle statistique de la divulgation à Statistics Netherlands pour exposer les problèmes qu’il faut, selon eux, surmonter quand on essaie de protéger les microdonnées contre la divulgation.
Date de diffusion : 1996-06-14
9. La diffusion des données d'enquêtes longitudinales : l'expérience de l'EDTR Archivé
Articles et rapports : 75F0002M1995011
Description :
Dans ce document, on brosse un tableau des défis que représente la diffusion des microdonnées provenant d'enquêtes longitudinales, et de certaines des mesures proposées pour les relever, en se servant de l'Enquête sur la dynamique du travail et du revenu (EDTR) comme étude de cas.
Date de diffusion : 1995-12-30

Références (1)

Références (1) ((1 résultat))

1. Premier fichier de microdonnées de l'EDTR : contenu prévu Archivé
Enquêtes et programmes statistiques — Documentation : 75F0002M1995018
Description :
Dans ce document, on donne un aperçu des variables du premier fichier de microdonnées de l'Enquête sur la dynamique du travail et du revenu (EDTR).
Date de diffusion : 1995-12-30

Signaler un problème ou une erreur sur cette page

Date de modification :: 2024-04-25

Comment utiliser les filtres et le champ de recherche

Vous pouvez faire une recherche en inscrivant des mots-clés ou en sélectionnant des filtres (p. ex. sous Sujet, Géographie, etc.) du côté gauche de la page.
On peut utiliser les filtres ensemble ou former diverses combinaisons. À chaque sélection de filtre, la page des résultats est mise à jour.
Pour commencer une nouvelle recherche, cliquez sur le bouton Effacer tout au-dessus du champ de recherche ou décochez tous les filtres.
Les mots-clés et les filtres précisés sont affichés au-dessus du champ de recherche. Vous pouvez désélectionner l’un ou l’autre des éléments ou tous les éléments, pour préciser ou effacer votre recherche.

Comment préciser ma recherche

Vous pouvez entrer des mots-clés dans le champ de recherche. Il n’est pas nécessaire d’utiliser « + » ou « , » ou « ET ».
Vous pouvez supprimer certains mots-clés ou tous les mots-clés de votre chaîne de recherche.
Les mots-clés entre guillemets limitent la recherche à l’expression précise.
- Par exemple, si vous cherchez « Enquête sur la population active », vous obtiendrez seulement des documents contenant cette suite de mots.
Utilisez « ou » entre les mots-clés pour obtenir des résultats qui contiennent au moins l’un des termes recherchés.
- Par exemple, si vous cherchez enquête ou population ou active, vous obtiendrez seulement les documents contenant l’un ou l’autre de ces mots, ou tous ces mots.

Comment fonctionne la recherche

Cette forme de recherche fournira les résultats contenant le(s) mot(s) inscrit(s) dans le titre, la description, le sujet, la géographie, le numéro de produit ou toute autre information au sujet du produit.
- Par exemple, lorsque vous cherchez le mot « maladies », tous les résultats obtenus contiendront ce mot dans le titre, la description, ou le sujet.
La recherche ne se fait pas dans le texte des articles ou des publications. Pour faire une recherche plein texte dans les articles, utilisez la fonction de recherche du site.