Contrôle de la divulgation et diffusion de données

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (10)

Tout (10) ((10 résultats))

  • Articles et rapports : 11-522-X202200100007
    Description : Dans le contexte de la disponibilité de sources de données plus vastes et plus diverses, les instituts statistiques en Europe sont enclins à publier des statistiques sur des groupes plus petits qu’auparavant. En outre, des épisodes mondiaux à forte incidence, comme la crise de la COVID-19 et la situation en Ukraine, peuvent également nécessiter des statistiques sur des sous-groupes particuliers de personnes. La publication de données concernant de petits groupes ciblés soulève non seulement des questions sur la qualité statistique des chiffres, mais aussi sur le risque de divulgation statistique. Le principe du contrôle de la divulgation statistique ne dépend pas de la taille des groupes sur lesquels les statistiques sont basées. Cependant, le risque de divulgation dépend de la taille du groupe : plus un groupe est petit, plus le risque est élevé. Les méthodes classiques de gestion du contrôle de la divulgation statistique lorsque la taille des groupes est réduite comprennent la suppression de données et le regroupement des catégories. Pour l’essentiel, ces méthodes consistent à augmenter la taille (moyenne) des groupes. Des approches plus récentes incluent des méthodes de perturbation des données visant à maintenir des groupes de petite taille pour préserver le plus d’information possible, tout en réduisant suffisamment le risque de divulgation. Dans le présent article, nous mentionnerons quelques exemples européens de statistiques sur des groupes types présentant un intérêt particulier et évoquerons les implications sur le contrôle de la divulgation statistique. Nous aborderons, en outre, certains problèmes liés à l’utilisation de méthodes de perturbation des données, à savoir leur incidence sur le risque de divulgation et sur l’utilité, ainsi que les défis liés à une bonne communication à ce sujet.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300100007
    Description : Je donnerai un aperçu de l’évolution de la recherche sur le contrôle de la divulgation statistique (CDS) dans les dernières décennies et de son adaptation à la révolution des données à l’aide de définitions plus officielles de la confidentialité. Je soulignerai les nombreux apports de Chris Skinner aux domaines de recherche sur le CDS. Je passerai en revue ses recherches de pionnier en commençant par ses travaux des années 1990 sur la diffusion de microdonnées d’échantillon du recensement au Royaume-Uni. De ces recherches sont nées diverses études où l’on a mesuré le risque de réidentification dans les microdonnées d’enquête au moyen de modèles probabilistes. Je porterai principalement mon attention à traiter d’autres aspects des recherches en CDS de Chris. Chris Skinner a reçu le prix Waksberg en 2019 et n’a malheureusement jamais eu l’occasion de présenter son discours Waksberg au Symposium international sur les questions de méthodologie de Statistique Canada. Le présent article suivra le canevas préparé par Chris en prévision de cette allocution.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 11-522-X200600110434
    Description :

    La protection contre la divulgation de l'identité des répondants dans les données d'enquête publiées constitue un enjeu d'ordre pratique pour de nombreux organismes gouvernementaux. Parmi les méthodes de protection figurent la suppression des identificateurs de grappe et de strate, de même que la modification des données ou la permutation des valeurs entre les enregistrements des répondants. Malheureusement, les identificateurs de grappe et de strate sont généralement nécessaires à l'estimation de la variance axée sur la linéarisation ainsi qu'aux méthodes de répétition, dans la mesure où le rééchantillonnage porte habituellement sur les unités de sondage du premier degré dans les strates. On pourrait penser que la diffusion d'un ensemble de poids de rééchantillonnage duquel les identificateurs de strate et de grappe auraient été supprimés permettrait de régler une partie du problème, particulièrement si l'on fait appel à une méthode de rééchantillonnage aléatoire, comme celle du bootstrap. Dans le présent article, nous démontrons dans un premier temps que, en considérant les poids de rééchantillonnage comme des observations dans un espace dimensionnel de haut niveau, on peut facilement utiliser un algorithme de mise en grappes pour reconstruire les identificateurs de grappe, peu importe la méthode de rééchantillonnage, même si les poids de rééchantillonnage ont été modifiés aléatoirement. Nous proposons ensuite un algorithme rapide qui permet de permuter les identificateurs de grappe et de strate des unités finales avant la création des poids de rééchantillonnage, sans influer de façon significative sur les estimations de la variance des caractéristiques visées qui en résultent. Ces méthodes sont illustrées par leur application aux données publiées issues des National Health and Nutrition Examination Surveys, enquêtes pour lesquelles les questions de divulgation sont extrêmement importantes.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20050019460
    Description :

    Les utilisateurs analysent et interprètent les séries chronologiques d'estimations de différentes manières, en faisant souvent appel à des estimations portant sur plusieurs périodes. Malgré la taille importante des échantillons et le degré de chevauchement entre eux pour certaines périodes, les erreurs d'échantillonnage peuvent encore affecter substantiellement les estimations des mouvements et les fonctions connexes qui servent à interpréter la série d'estimations. Nous considérons comment tenir compte des erreurs d'échantillonnage dans l'interprétation des estimations provenant d'enquêtes à passages répétés et comment informer les utilisateurs et les analystes de leur incidence éventuelle.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019463
    Description :

    Les statisticiens définissent de nouveaux concepts pour communiquer les erreurs liées aux estimations. Bon nombre de ces concepts sont faciles à comprendre pour les statisticiens, mais sont encore plus difficiles à expliquer aux utilisateurs que le traditionnel intervalle de confiance. La solution proposée, pour communiquer avec des non-statisticiens, consiste à améliorer les estimations de façon à réduire au minimum la nécessité d'expliquer les erreurs. On évite ainsi de déconcerter l'utilisateur en lui fournissant trop de chiffres à comprendre.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019483
    Description :

    Tous les pays membres de l'Union européenne font face à des problèmes semblables de contrôle de la divulgation statistique (CDS). Tous doivent trouver un juste équilibre entre la protection des renseignements confidentiels fournis par les répondants et les demandes fort légitimes de la société, des chercheurs et des décideurs qui souhaitent obtenir des données de plus en plus détaillées. Cette demande croissante suscitée par l'avènement de l'ère de l'information et de la société du savoir est un problème commun du système statistique européen (SSE). La communication expose les questions et les stratégies relatives à la confidentialité des données en vigueur à l'heure actuelle à Eurostat et décrit une approche européenne du CDS grâce à l'établissement de centres et de réseaux d'excellence (CENEX pour Centres and Networks of Excellence).

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20030017691
    Description :

    Dans ce document, on explique comment des résultats de projets de recherche européens sur le contrôle de la divulgation des statistiques (CDS) peuvent être appliqués à la production de statistiques officielles. On y décrit aussi deux progiciels statistiques qui permettent de produire des données ne posant pas de risque de divulgation : tau-ARGUS pour les données tabulaires et mu-ARGUS pour les microdonnées.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017692
    Description :

    Ce document porte sur les serveurs d'applications de régression, lesquels sont des systèmes de diffusion des données qui ne fournissent que certains résultats des analyses par régression en réponse aux demandes de l'utilisateur. On y présente aussi de façon détaillée les travaux sur le cas spécial où les données contiennent une variable confidentielle pour laquelle les résultats des régressions doivent être protégés.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 12-001-X20030026784
    Description :

    Skinner et Elliot (2002) ont proposé une mesure simple du risque de divulgation pour les microdonnées d'enquête et montré comment estimer cette mesure sous échantillonnage avec probabilités égales. Dans le présent article, nous montrons comment on peut étendre leurs résultats pour l'estimation ponctuelle et l'estimation de la variance à l'échantillonnage avec probabilités inégales. Nous élaborons notre méthode en supposant un plan d'échantillonnage de Poisson et faisons certains commentaires sur les résultats éventuels lorsqu'on s'écarte de cette hypothèse.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 11-522-X20010016286
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Il est de règle que les organismes statistiques vérifient les tableaux dont certaines cellules ont été supprimées afin de s'assurer que la protection contre la divulgation accidentelle de renseignements confidentiels est suffisante. Lorsque le tableau contient des valeurs arrondies, il arrive que la méthode de vérification ne tienne pas compte de cette situation. Cette omission peut donner lieu à une surprotection qui réduit l'utilité des données publiées. Dans le présent document, nous proposons une formule de vérification correcte et donnons des exemples de surprotection.

    Date de diffusion : 2002-09-12
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (10)

Analyses (10) ((10 résultats))

  • Articles et rapports : 11-522-X202200100007
    Description : Dans le contexte de la disponibilité de sources de données plus vastes et plus diverses, les instituts statistiques en Europe sont enclins à publier des statistiques sur des groupes plus petits qu’auparavant. En outre, des épisodes mondiaux à forte incidence, comme la crise de la COVID-19 et la situation en Ukraine, peuvent également nécessiter des statistiques sur des sous-groupes particuliers de personnes. La publication de données concernant de petits groupes ciblés soulève non seulement des questions sur la qualité statistique des chiffres, mais aussi sur le risque de divulgation statistique. Le principe du contrôle de la divulgation statistique ne dépend pas de la taille des groupes sur lesquels les statistiques sont basées. Cependant, le risque de divulgation dépend de la taille du groupe : plus un groupe est petit, plus le risque est élevé. Les méthodes classiques de gestion du contrôle de la divulgation statistique lorsque la taille des groupes est réduite comprennent la suppression de données et le regroupement des catégories. Pour l’essentiel, ces méthodes consistent à augmenter la taille (moyenne) des groupes. Des approches plus récentes incluent des méthodes de perturbation des données visant à maintenir des groupes de petite taille pour préserver le plus d’information possible, tout en réduisant suffisamment le risque de divulgation. Dans le présent article, nous mentionnerons quelques exemples européens de statistiques sur des groupes types présentant un intérêt particulier et évoquerons les implications sur le contrôle de la divulgation statistique. Nous aborderons, en outre, certains problèmes liés à l’utilisation de méthodes de perturbation des données, à savoir leur incidence sur le risque de divulgation et sur l’utilité, ainsi que les défis liés à une bonne communication à ce sujet.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300100007
    Description : Je donnerai un aperçu de l’évolution de la recherche sur le contrôle de la divulgation statistique (CDS) dans les dernières décennies et de son adaptation à la révolution des données à l’aide de définitions plus officielles de la confidentialité. Je soulignerai les nombreux apports de Chris Skinner aux domaines de recherche sur le CDS. Je passerai en revue ses recherches de pionnier en commençant par ses travaux des années 1990 sur la diffusion de microdonnées d’échantillon du recensement au Royaume-Uni. De ces recherches sont nées diverses études où l’on a mesuré le risque de réidentification dans les microdonnées d’enquête au moyen de modèles probabilistes. Je porterai principalement mon attention à traiter d’autres aspects des recherches en CDS de Chris. Chris Skinner a reçu le prix Waksberg en 2019 et n’a malheureusement jamais eu l’occasion de présenter son discours Waksberg au Symposium international sur les questions de méthodologie de Statistique Canada. Le présent article suivra le canevas préparé par Chris en prévision de cette allocution.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 11-522-X200600110434
    Description :

    La protection contre la divulgation de l'identité des répondants dans les données d'enquête publiées constitue un enjeu d'ordre pratique pour de nombreux organismes gouvernementaux. Parmi les méthodes de protection figurent la suppression des identificateurs de grappe et de strate, de même que la modification des données ou la permutation des valeurs entre les enregistrements des répondants. Malheureusement, les identificateurs de grappe et de strate sont généralement nécessaires à l'estimation de la variance axée sur la linéarisation ainsi qu'aux méthodes de répétition, dans la mesure où le rééchantillonnage porte habituellement sur les unités de sondage du premier degré dans les strates. On pourrait penser que la diffusion d'un ensemble de poids de rééchantillonnage duquel les identificateurs de strate et de grappe auraient été supprimés permettrait de régler une partie du problème, particulièrement si l'on fait appel à une méthode de rééchantillonnage aléatoire, comme celle du bootstrap. Dans le présent article, nous démontrons dans un premier temps que, en considérant les poids de rééchantillonnage comme des observations dans un espace dimensionnel de haut niveau, on peut facilement utiliser un algorithme de mise en grappes pour reconstruire les identificateurs de grappe, peu importe la méthode de rééchantillonnage, même si les poids de rééchantillonnage ont été modifiés aléatoirement. Nous proposons ensuite un algorithme rapide qui permet de permuter les identificateurs de grappe et de strate des unités finales avant la création des poids de rééchantillonnage, sans influer de façon significative sur les estimations de la variance des caractéristiques visées qui en résultent. Ces méthodes sont illustrées par leur application aux données publiées issues des National Health and Nutrition Examination Surveys, enquêtes pour lesquelles les questions de divulgation sont extrêmement importantes.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20050019460
    Description :

    Les utilisateurs analysent et interprètent les séries chronologiques d'estimations de différentes manières, en faisant souvent appel à des estimations portant sur plusieurs périodes. Malgré la taille importante des échantillons et le degré de chevauchement entre eux pour certaines périodes, les erreurs d'échantillonnage peuvent encore affecter substantiellement les estimations des mouvements et les fonctions connexes qui servent à interpréter la série d'estimations. Nous considérons comment tenir compte des erreurs d'échantillonnage dans l'interprétation des estimations provenant d'enquêtes à passages répétés et comment informer les utilisateurs et les analystes de leur incidence éventuelle.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019463
    Description :

    Les statisticiens définissent de nouveaux concepts pour communiquer les erreurs liées aux estimations. Bon nombre de ces concepts sont faciles à comprendre pour les statisticiens, mais sont encore plus difficiles à expliquer aux utilisateurs que le traditionnel intervalle de confiance. La solution proposée, pour communiquer avec des non-statisticiens, consiste à améliorer les estimations de façon à réduire au minimum la nécessité d'expliquer les erreurs. On évite ainsi de déconcerter l'utilisateur en lui fournissant trop de chiffres à comprendre.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20050019483
    Description :

    Tous les pays membres de l'Union européenne font face à des problèmes semblables de contrôle de la divulgation statistique (CDS). Tous doivent trouver un juste équilibre entre la protection des renseignements confidentiels fournis par les répondants et les demandes fort légitimes de la société, des chercheurs et des décideurs qui souhaitent obtenir des données de plus en plus détaillées. Cette demande croissante suscitée par l'avènement de l'ère de l'information et de la société du savoir est un problème commun du système statistique européen (SSE). La communication expose les questions et les stratégies relatives à la confidentialité des données en vigueur à l'heure actuelle à Eurostat et décrit une approche européenne du CDS grâce à l'établissement de centres et de réseaux d'excellence (CENEX pour Centres and Networks of Excellence).

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20030017691
    Description :

    Dans ce document, on explique comment des résultats de projets de recherche européens sur le contrôle de la divulgation des statistiques (CDS) peuvent être appliqués à la production de statistiques officielles. On y décrit aussi deux progiciels statistiques qui permettent de produire des données ne posant pas de risque de divulgation : tau-ARGUS pour les données tabulaires et mu-ARGUS pour les microdonnées.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017692
    Description :

    Ce document porte sur les serveurs d'applications de régression, lesquels sont des systèmes de diffusion des données qui ne fournissent que certains résultats des analyses par régression en réponse aux demandes de l'utilisateur. On y présente aussi de façon détaillée les travaux sur le cas spécial où les données contiennent une variable confidentielle pour laquelle les résultats des régressions doivent être protégés.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 12-001-X20030026784
    Description :

    Skinner et Elliot (2002) ont proposé une mesure simple du risque de divulgation pour les microdonnées d'enquête et montré comment estimer cette mesure sous échantillonnage avec probabilités égales. Dans le présent article, nous montrons comment on peut étendre leurs résultats pour l'estimation ponctuelle et l'estimation de la variance à l'échantillonnage avec probabilités inégales. Nous élaborons notre méthode en supposant un plan d'échantillonnage de Poisson et faisons certains commentaires sur les résultats éventuels lorsqu'on s'écarte de cette hypothèse.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 11-522-X20010016286
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Il est de règle que les organismes statistiques vérifient les tableaux dont certaines cellules ont été supprimées afin de s'assurer que la protection contre la divulgation accidentelle de renseignements confidentiels est suffisante. Lorsque le tableau contient des valeurs arrondies, il arrive que la méthode de vérification ne tienne pas compte de cette situation. Cette omission peut donner lieu à une surprotection qui réduit l'utilité des données publiées. Dans le présent document, nous proposons une formule de vérification correcte et donnons des exemples de surprotection.

    Date de diffusion : 2002-09-12
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :