Contrôle de la divulgation et diffusion de données

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (10)

Tout (10) ((10 résultats))

  • Articles et rapports : 12-001-X202100100003
    Description :

    L’utilisation de réponses brouillées est un moyen efficace d’effectuer le contrôle de la divulgation statistique. Les réponses brouillées peuvent être produites au moyen d’un procédé aléatoire contrôlé. Dans le présent article, nous proposons d’utiliser la méthode de la vraisemblance empirique fondée sur l’échantillon pour effectuer des inférences statistiques dans le cadre d’un plan de sondage complexe avec réponses brouillées. Plus précisément, nous proposons d’utiliser un intervalle de confiance de type Wilk pour l’inférence statistique. La méthode proposée peut servir d’outil général pour l’inférence en présence de fichiers de données d’enquête confidentielles à grande diffusion. Les propriétés asymptotiques sont produites, et l’étude par simulations limitée confirme la validité de la théorie. De plus, nous appliquons la méthode proposée à des situations réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 11-522-X201700014731
    Description :

    Cette communication décrit divers facteurs qui posent un problème lorsque l’on évalue le risque de divulgation de microdonnées contextualisées, ainsi que certaines des étapes empiriques qui sont comprises dans leur évaluation. À partir d’ensembles synthétiques de répondants d’enquête, nous illustrons comment différents postulats modulent l’évolution du risque lorsque l’on tient compte : 1) des probabilités estimées que des régions géographiques non identifiées soient représentées dans une enquête; 2) du nombre de personnes dans la population qui partagent les mêmes identificateurs personnels et contextuels qu’un répondant; et 3) de l’ampleur prévue de l’erreur de couverture dans les chiffres de population du recensement et les fichiers existants qui fournissent des données d’identification (p. ex., le nom, l’adresse).

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014733
    Description :

    La valeur sociale des collectes de données est améliorée de façon marquée par la vaste diffusion des fichiers de recherche et l’augmentation en découlant de la productivité scientifique. À l’heure actuelle, la plupart des études sont conçues en vue de recueillir des données utiles et exactes au niveau analytique, en se préoccupant peu de la façon dont elles seront mises en commun. Tant les ouvrages publiés que la pratique reposent sur le principe que l’analyse de la divulgation aura lieu après la collecte. Toutefois, pour produire des données à grande diffusion comportant la plus grande utilité analytique possible pour le groupe d’utilisateurs le plus important, on doit tenir compte du risque de divulgation au début du processus de recherche. À partir de cadres théoriques de décisions économiques et statistiques et de recherches en méthodes d’enquête, cette communication vise à améliorer la productivité scientifique des données de recherche partagées en décrivant comment le risque de divulgation peut être résolu aux étapes les plus précoces de la recherche, grâce à la formulation de « plans sécuritaires » et de « simulations de divulgation », une approche statistique appliquée ayant été adoptée pour : 1) l’élaboration et la validation de modèles qui prédisent la composition des données d’enquête selon différents plans d’échantillonnage; 2) la sélection et/ou l’élaboration de mesures et de méthodes utilisées pour déterminer le risque de divulgation, l’utilité analytique et les coûts de la divulgation des données d’enquête qui conviennent le mieux pour l’évaluation des plans d’échantillonnage et de bases de données; et 3) la tenue de simulations pour recueillir des estimations du risque, de l’utilité et du coût des études comportant une vaste gamme de caractéristiques d’échantillonnage et de conception de bases de données.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201300111826
    Description :

    Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 11-522-X20050019433
    Description :

    Les données spatialement explicites offrent une série de possibilités et de défis à tous les acteurs de la fourniture de données destinées au stockage de longue durée et à l'analyse secondaire, c'est-à-dire le producteur, l'archiviste et l'utilisateur des données.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019456
    Description :

    Les méta-données liées à la production de micro-données sont souvent volumineuses et déconcernant. Il manque un système pour la présentation des méta-données associées aux dossiers confidentiels de micro-données des enquêtes gérés par Statistiques Canada. Cette pénurie appliqué également au contenu qu'à la méthode de dissémination. Un projet pilot à été conduit au sein du programme de CDR afin d'évaluer la capacité d'une norme, l'Initiative de democratization des données (IDD), de pourvoir soutenir un tel processus.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019462
    Description :

    La façon habituelle de présenter l'information sur la variance aux utilisateurs de données consiste à publier des estimations de la variance ou de statistiques connexes, comme les écarts types, les coefficients de variation, les limites de confiance ou de simples systèmes de classement. La communication porte sur les sources éventuelles de variance, comme le plan de sondage, la répartition de l'échantillon, la sélection de l'échantillon et la non réponse, et sur les meilleures mesures qui pourraient être prises pour réduire la variance. Enfin, elle donne une brève évaluation des coûts financiers qu'occasionne aux producteurs et aux utilisateurs de données le fait de réduire ou de ne pas réduire la variance et décrit comment un compromis pourrait être établi entre les coûts associés à la production de statistiques plus exactes et les avantages financiers d'une plus grande précision.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 12-001-X199600114381
    Description :

    Les problèmes que pose le contrôle statistique de la divulgation, lequel a pour but d’empêcher les utilisateurs des données de divulguer des renseignements sur des répondants particuliers, se sont multipliés rapidement au cours des dernières années. La situation est due principalement à l’augmentation de la demande de données détaillées provenant des bureaux de la statistique, elle-même causée par l’accroissement continuel de l’usage des ordinateurs. Auparavant, ces bureaux produisaient des tableaux contenant relativement peu d’information. Aujourd’hui, par contre, les utilisateurs de données demandent des tableaux beaucoup plus détaillés et, qui plus est, des microdonnées à analyser eux-mêmes. Or, l’augmentation du contenu informatique des données rend le contrôle statistique de la divulgation beaucoup plus difficile. Les auteurs se fondent sur l’expérience qu’ils ont acquise dans le domaine du contrôle statistique de la divulgation à Statistics Netherlands pour exposer les problèmes qu’il faut, selon eux, surmonter quand on essaie de protéger les microdonnées contre la divulgation.

    Date de diffusion : 1996-06-14

  • Articles et rapports : 75F0002M1995011
    Description :

    Dans ce document, on brosse un tableau des défis que représente la diffusion des microdonnées provenant d'enquêtes longitudinales, et de certaines des mesures proposées pour les relever, en se servant de l'Enquête sur la dynamique du travail et du revenu (EDTR) comme étude de cas.

    Date de diffusion : 1995-12-30

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1995018
    Description :

    Dans ce document, on donne un aperçu des variables du premier fichier de microdonnées de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1995-12-30
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (9)

Analyses (9) ((9 résultats))

  • Articles et rapports : 12-001-X202100100003
    Description :

    L’utilisation de réponses brouillées est un moyen efficace d’effectuer le contrôle de la divulgation statistique. Les réponses brouillées peuvent être produites au moyen d’un procédé aléatoire contrôlé. Dans le présent article, nous proposons d’utiliser la méthode de la vraisemblance empirique fondée sur l’échantillon pour effectuer des inférences statistiques dans le cadre d’un plan de sondage complexe avec réponses brouillées. Plus précisément, nous proposons d’utiliser un intervalle de confiance de type Wilk pour l’inférence statistique. La méthode proposée peut servir d’outil général pour l’inférence en présence de fichiers de données d’enquête confidentielles à grande diffusion. Les propriétés asymptotiques sont produites, et l’étude par simulations limitée confirme la validité de la théorie. De plus, nous appliquons la méthode proposée à des situations réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 11-522-X201700014731
    Description :

    Cette communication décrit divers facteurs qui posent un problème lorsque l’on évalue le risque de divulgation de microdonnées contextualisées, ainsi que certaines des étapes empiriques qui sont comprises dans leur évaluation. À partir d’ensembles synthétiques de répondants d’enquête, nous illustrons comment différents postulats modulent l’évolution du risque lorsque l’on tient compte : 1) des probabilités estimées que des régions géographiques non identifiées soient représentées dans une enquête; 2) du nombre de personnes dans la population qui partagent les mêmes identificateurs personnels et contextuels qu’un répondant; et 3) de l’ampleur prévue de l’erreur de couverture dans les chiffres de population du recensement et les fichiers existants qui fournissent des données d’identification (p. ex., le nom, l’adresse).

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014733
    Description :

    La valeur sociale des collectes de données est améliorée de façon marquée par la vaste diffusion des fichiers de recherche et l’augmentation en découlant de la productivité scientifique. À l’heure actuelle, la plupart des études sont conçues en vue de recueillir des données utiles et exactes au niveau analytique, en se préoccupant peu de la façon dont elles seront mises en commun. Tant les ouvrages publiés que la pratique reposent sur le principe que l’analyse de la divulgation aura lieu après la collecte. Toutefois, pour produire des données à grande diffusion comportant la plus grande utilité analytique possible pour le groupe d’utilisateurs le plus important, on doit tenir compte du risque de divulgation au début du processus de recherche. À partir de cadres théoriques de décisions économiques et statistiques et de recherches en méthodes d’enquête, cette communication vise à améliorer la productivité scientifique des données de recherche partagées en décrivant comment le risque de divulgation peut être résolu aux étapes les plus précoces de la recherche, grâce à la formulation de « plans sécuritaires » et de « simulations de divulgation », une approche statistique appliquée ayant été adoptée pour : 1) l’élaboration et la validation de modèles qui prédisent la composition des données d’enquête selon différents plans d’échantillonnage; 2) la sélection et/ou l’élaboration de mesures et de méthodes utilisées pour déterminer le risque de divulgation, l’utilité analytique et les coûts de la divulgation des données d’enquête qui conviennent le mieux pour l’évaluation des plans d’échantillonnage et de bases de données; et 3) la tenue de simulations pour recueillir des estimations du risque, de l’utilité et du coût des études comportant une vaste gamme de caractéristiques d’échantillonnage et de conception de bases de données.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201300111826
    Description :

    Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 11-522-X20050019433
    Description :

    Les données spatialement explicites offrent une série de possibilités et de défis à tous les acteurs de la fourniture de données destinées au stockage de longue durée et à l'analyse secondaire, c'est-à-dire le producteur, l'archiviste et l'utilisateur des données.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019456
    Description :

    Les méta-données liées à la production de micro-données sont souvent volumineuses et déconcernant. Il manque un système pour la présentation des méta-données associées aux dossiers confidentiels de micro-données des enquêtes gérés par Statistiques Canada. Cette pénurie appliqué également au contenu qu'à la méthode de dissémination. Un projet pilot à été conduit au sein du programme de CDR afin d'évaluer la capacité d'une norme, l'Initiative de democratization des données (IDD), de pourvoir soutenir un tel processus.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019462
    Description :

    La façon habituelle de présenter l'information sur la variance aux utilisateurs de données consiste à publier des estimations de la variance ou de statistiques connexes, comme les écarts types, les coefficients de variation, les limites de confiance ou de simples systèmes de classement. La communication porte sur les sources éventuelles de variance, comme le plan de sondage, la répartition de l'échantillon, la sélection de l'échantillon et la non réponse, et sur les meilleures mesures qui pourraient être prises pour réduire la variance. Enfin, elle donne une brève évaluation des coûts financiers qu'occasionne aux producteurs et aux utilisateurs de données le fait de réduire ou de ne pas réduire la variance et décrit comment un compromis pourrait être établi entre les coûts associés à la production de statistiques plus exactes et les avantages financiers d'une plus grande précision.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 12-001-X199600114381
    Description :

    Les problèmes que pose le contrôle statistique de la divulgation, lequel a pour but d’empêcher les utilisateurs des données de divulguer des renseignements sur des répondants particuliers, se sont multipliés rapidement au cours des dernières années. La situation est due principalement à l’augmentation de la demande de données détaillées provenant des bureaux de la statistique, elle-même causée par l’accroissement continuel de l’usage des ordinateurs. Auparavant, ces bureaux produisaient des tableaux contenant relativement peu d’information. Aujourd’hui, par contre, les utilisateurs de données demandent des tableaux beaucoup plus détaillés et, qui plus est, des microdonnées à analyser eux-mêmes. Or, l’augmentation du contenu informatique des données rend le contrôle statistique de la divulgation beaucoup plus difficile. Les auteurs se fondent sur l’expérience qu’ils ont acquise dans le domaine du contrôle statistique de la divulgation à Statistics Netherlands pour exposer les problèmes qu’il faut, selon eux, surmonter quand on essaie de protéger les microdonnées contre la divulgation.

    Date de diffusion : 1996-06-14

  • Articles et rapports : 75F0002M1995011
    Description :

    Dans ce document, on brosse un tableau des défis que représente la diffusion des microdonnées provenant d'enquêtes longitudinales, et de certaines des mesures proposées pour les relever, en se servant de l'Enquête sur la dynamique du travail et du revenu (EDTR) comme étude de cas.

    Date de diffusion : 1995-12-30
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1995018
    Description :

    Dans ce document, on donne un aperçu des variables du premier fichier de microdonnées de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1995-12-30
Date de modification :