Contrôle de la divulgation et diffusion de données

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (8)

Tout (8) ((8 résultats))

  • Articles et rapports : 12-001-X202300100006
    Description : Mes commentaires sont répartis en trois volets : 1) bref compte rendu de mon association professionnelle avec Chris Skinner, 2) observations sur les réalisations de Skinner en matière de contrôle de la divulgation statistique et 3) propos sur la production d’inférences à partir de données d’enquête masquées.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 11-522-X20050019483
    Description :

    Tous les pays membres de l'Union européenne font face à des problèmes semblables de contrôle de la divulgation statistique (CDS). Tous doivent trouver un juste équilibre entre la protection des renseignements confidentiels fournis par les répondants et les demandes fort légitimes de la société, des chercheurs et des décideurs qui souhaitent obtenir des données de plus en plus détaillées. Cette demande croissante suscitée par l'avènement de l'ère de l'information et de la société du savoir est un problème commun du système statistique européen (SSE). La communication expose les questions et les stratégies relatives à la confidentialité des données en vigueur à l'heure actuelle à Eurostat et décrit une approche européenne du CDS grâce à l'établissement de centres et de réseaux d'excellence (CENEX pour Centres and Networks of Excellence).

    Date de diffusion : 2007-03-02

  • Articles et rapports : 12-001-X20040027755
    Description :

    Plusieurs organismes statistiques utilisent, ou considèrent utiliser, l'imputation multiple pour limiter le risque de divulguer l'identité des répondants ou certains attributs délicats dans les fichiers de données à grande diffusion. Par exemple, ces organismes peuvent diffuser des ensembles de données partiellement synthétiques comprenant les unités étudiées originellement, où certaines valeurs recueillies, comme les valeurs délicates posant un risque élevé de divulgation ou les valeurs d'identificateurs clés, sont remplacées par des imputations multiples. Le présent article décrit une approche permettant de générer des ensembles de données partiellement synthétiques multi imputés pour traiter simultanément le contrôle de la divulgation et les données manquantes. L'idée fondamentale consiste à imputer d'abord les valeurs manquantes pour produire m ensembles de données complets, puis à remplacer dans chaque ensemble de données complet les valeurs délicates ou permettant l'identification par r valeurs imputées. L'article décrit aussi des méthodes permettant de faire des inférences valides à partir d'ensembles de données multi imputés de ce genre. De nouvelles règles sont nécessaires pour combiner les estimations ponctuelles et de variances multiples, parce que les deux étapes d'imputation multiple introduisent dans les estimations ponctuelles deux sources de variabilité que les méthodes existantes d'obtention d'inférences à partir d'ensembles de données multi imputés ne mesurent pas correctement. Une loi t de référence appropriée pour l'inférence quand les valeurs de m et r sont moyennes est établie au moyen d'approximations par appariement de moments et par développement en série de Taylor.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 11-522-X20030017692
    Description :

    Ce document porte sur les serveurs d'applications de régression, lesquels sont des systèmes de diffusion des données qui ne fournissent que certains résultats des analyses par régression en réponse aux demandes de l'utilisateur. On y présente aussi de façon détaillée les travaux sur le cas spécial où les données contiennent une variable confidentielle pour laquelle les résultats des régressions doivent être protégés.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20010016282
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    La Base de données sur les congés des patients (BDCP) est l'un des dépôts de données importants tenus à jour par l'Institut canadien d'information sur la santé (ICIS). Ce dernier est un organisme national, sans but lucratif, qui joue un rôle essentiel dans l'élaboration du système canadien d'information sur la santé. La BDCP contient des données sur les sorties des patients ayant reçu des soins de courte durée transmises à l'ICIS par la plupart des hôpitaux canadiens. Les données recueillies sont indispensables à la détermination, par exemple, du nombre et du genre d'interventions et de la durée des hospitalisations. L'ICIS est en train de réaliser la première étude nationale de la qualité de certaines données cliniques et administratives contenues dans la BDCP. Cette étude a pour but d'évaluer l'exactitude des données de la BDCP par comparaison des sources de données aux renseignements qui figurent dans la base de données de l'ICIS, afin de repérer toute discordance et d'en établir les causes. Le présent document traite de l'étude de la qualité des données de la BDCP et fournit certains résultats provisoires. Ces résultats sont également comparés brièvement à ceux d'une étude similaire. Pour conclure, on passe en revue les étapes ultérieures de l'étude et la façon dont les résultats des travaux de la première année permettent d'améliorer la qualité de la BDCP.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 11-522-X20010016286
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Il est de règle que les organismes statistiques vérifient les tableaux dont certaines cellules ont été supprimées afin de s'assurer que la protection contre la divulgation accidentelle de renseignements confidentiels est suffisante. Lorsque le tableau contient des valeurs arrondies, il arrive que la méthode de vérification ne tienne pas compte de cette situation. Cette omission peut donner lieu à une surprotection qui réduit l'utilité des données publiées. Dans le présent document, nous proposons une formule de vérification correcte et donnons des exemples de surprotection.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 11-522-X20010016287
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Dans le présent document, nous traitons d'un élément précis d'un programme de recherche axé sur la protection contre la divulgation dans le cas des produits statistiques « non conventionnels ». Nous soutenons que ces produits présentent des risques de divulgation différents de ceux qui existent habituellement et qu'il faut désormais en tenir compte. Plus précisément, nous soutenons que les estimateurs de la densité de noyau, s'ils constituent des descriptions puissantes (de grande qualité) d'échantillons représentatifs, présentent cependant des risques de divulgation qui dépendent essentiellement du choix d'une largeur de bande. Nous illustrons ces risques à l'aide d'un ensemble unique de données non confidentielles sur l'univers statistique des mines de charbon et nous proposons des solutions possibles. Enfin, nous décrivons les pratiques en usage au Center for Economic Studies du U.S. Census Bureau pour effectuer l'analyse de divulgation statistique portant sur les estimateurs de la densité de noyau.

    Date de diffusion : 2002-09-12
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (8)

Analyses (8) ((8 résultats))

  • Articles et rapports : 12-001-X202300100006
    Description : Mes commentaires sont répartis en trois volets : 1) bref compte rendu de mon association professionnelle avec Chris Skinner, 2) observations sur les réalisations de Skinner en matière de contrôle de la divulgation statistique et 3) propos sur la production d’inférences à partir de données d’enquête masquées.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 11-522-X20050019483
    Description :

    Tous les pays membres de l'Union européenne font face à des problèmes semblables de contrôle de la divulgation statistique (CDS). Tous doivent trouver un juste équilibre entre la protection des renseignements confidentiels fournis par les répondants et les demandes fort légitimes de la société, des chercheurs et des décideurs qui souhaitent obtenir des données de plus en plus détaillées. Cette demande croissante suscitée par l'avènement de l'ère de l'information et de la société du savoir est un problème commun du système statistique européen (SSE). La communication expose les questions et les stratégies relatives à la confidentialité des données en vigueur à l'heure actuelle à Eurostat et décrit une approche européenne du CDS grâce à l'établissement de centres et de réseaux d'excellence (CENEX pour Centres and Networks of Excellence).

    Date de diffusion : 2007-03-02

  • Articles et rapports : 12-001-X20040027755
    Description :

    Plusieurs organismes statistiques utilisent, ou considèrent utiliser, l'imputation multiple pour limiter le risque de divulguer l'identité des répondants ou certains attributs délicats dans les fichiers de données à grande diffusion. Par exemple, ces organismes peuvent diffuser des ensembles de données partiellement synthétiques comprenant les unités étudiées originellement, où certaines valeurs recueillies, comme les valeurs délicates posant un risque élevé de divulgation ou les valeurs d'identificateurs clés, sont remplacées par des imputations multiples. Le présent article décrit une approche permettant de générer des ensembles de données partiellement synthétiques multi imputés pour traiter simultanément le contrôle de la divulgation et les données manquantes. L'idée fondamentale consiste à imputer d'abord les valeurs manquantes pour produire m ensembles de données complets, puis à remplacer dans chaque ensemble de données complet les valeurs délicates ou permettant l'identification par r valeurs imputées. L'article décrit aussi des méthodes permettant de faire des inférences valides à partir d'ensembles de données multi imputés de ce genre. De nouvelles règles sont nécessaires pour combiner les estimations ponctuelles et de variances multiples, parce que les deux étapes d'imputation multiple introduisent dans les estimations ponctuelles deux sources de variabilité que les méthodes existantes d'obtention d'inférences à partir d'ensembles de données multi imputés ne mesurent pas correctement. Une loi t de référence appropriée pour l'inférence quand les valeurs de m et r sont moyennes est établie au moyen d'approximations par appariement de moments et par développement en série de Taylor.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 11-522-X20030017692
    Description :

    Ce document porte sur les serveurs d'applications de régression, lesquels sont des systèmes de diffusion des données qui ne fournissent que certains résultats des analyses par régression en réponse aux demandes de l'utilisateur. On y présente aussi de façon détaillée les travaux sur le cas spécial où les données contiennent une variable confidentielle pour laquelle les résultats des régressions doivent être protégés.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20010016282
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    La Base de données sur les congés des patients (BDCP) est l'un des dépôts de données importants tenus à jour par l'Institut canadien d'information sur la santé (ICIS). Ce dernier est un organisme national, sans but lucratif, qui joue un rôle essentiel dans l'élaboration du système canadien d'information sur la santé. La BDCP contient des données sur les sorties des patients ayant reçu des soins de courte durée transmises à l'ICIS par la plupart des hôpitaux canadiens. Les données recueillies sont indispensables à la détermination, par exemple, du nombre et du genre d'interventions et de la durée des hospitalisations. L'ICIS est en train de réaliser la première étude nationale de la qualité de certaines données cliniques et administratives contenues dans la BDCP. Cette étude a pour but d'évaluer l'exactitude des données de la BDCP par comparaison des sources de données aux renseignements qui figurent dans la base de données de l'ICIS, afin de repérer toute discordance et d'en établir les causes. Le présent document traite de l'étude de la qualité des données de la BDCP et fournit certains résultats provisoires. Ces résultats sont également comparés brièvement à ceux d'une étude similaire. Pour conclure, on passe en revue les étapes ultérieures de l'étude et la façon dont les résultats des travaux de la première année permettent d'améliorer la qualité de la BDCP.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 11-522-X20010016286
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Il est de règle que les organismes statistiques vérifient les tableaux dont certaines cellules ont été supprimées afin de s'assurer que la protection contre la divulgation accidentelle de renseignements confidentiels est suffisante. Lorsque le tableau contient des valeurs arrondies, il arrive que la méthode de vérification ne tienne pas compte de cette situation. Cette omission peut donner lieu à une surprotection qui réduit l'utilité des données publiées. Dans le présent document, nous proposons une formule de vérification correcte et donnons des exemples de surprotection.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 11-522-X20010016287
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Dans le présent document, nous traitons d'un élément précis d'un programme de recherche axé sur la protection contre la divulgation dans le cas des produits statistiques « non conventionnels ». Nous soutenons que ces produits présentent des risques de divulgation différents de ceux qui existent habituellement et qu'il faut désormais en tenir compte. Plus précisément, nous soutenons que les estimateurs de la densité de noyau, s'ils constituent des descriptions puissantes (de grande qualité) d'échantillons représentatifs, présentent cependant des risques de divulgation qui dépendent essentiellement du choix d'une largeur de bande. Nous illustrons ces risques à l'aide d'un ensemble unique de données non confidentielles sur l'univers statistique des mines de charbon et nous proposons des solutions possibles. Enfin, nous décrivons les pratiques en usage au Center for Economic Studies du U.S. Census Bureau pour effectuer l'analyse de divulgation statistique portant sur les estimateurs de la densité de noyau.

    Date de diffusion : 2002-09-12
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :