Aperçu

Le programme de l'ECDS a pour objet de faciliter la recherche sur les statistiques sociales et économiques partout au Canada. Il s'agit d'un environnement de couplage d'enregistrements qui :

  • accroît la pertinence des enquêtes actuelles de Statistique Canada sans recueillir de nouvelles données (y compris le maintien de la pertinence des enquêtes longitudinales terminées);
  • augmente substantiellement l'utilisation de données administratives;
  • génère de nouveaux renseignements sans collecte de données supplémentaire;
  • maintient les normes les plus élevées en matière de protection de la vie privée et de sécurité de données; et
  • préconise une approche normalisée relativement aux processus et aux méthodes de couplage d'enregistrements.

Avantages et intérêt public

Combler les lacunes statistiques : Les études menées dans le cadre de l'ECDS ont le potentiel de combler d'importantes lacunes en matière d'information concernant les activités et les conditions financières, sociales, économiques et générales des Canadiens et Canadiennes.

Alléger le fardeau de réponse : Grâce au couplage d'enregistrements, il est possible de répondre aux importants besoins en données nécessaires à l'analyse des données sociales sans avoir à engager de coûts ni à imposer le fardeau de réponse associé à la collecte de nouvelles données.

Réduire les coûts du couplage d'enregistrements : Le processus de l'ECDS pour la préparation et la gestion des fichiers aux fins du couplage d'enregistrements est plus efficace et plus rapide grâce à l'utilisation d'un système de traitement et à la conservation des résultats cumulés des couplages.

Fonctionnement

L'ECDS est un environnement hautement sécurisé qui facilite la création de fichiers de données couplées sur la population à des fins d'analyse sociale. L'ECDS n'est pas une grande base de données intégrées.

Au cœur de l'ECDS se trouve un Dépôt d'enregistrements dérivés (DED), qui est essentiellement une base de données relationnelle dynamique nationale renfermant seulement des identificateurs personnels de base. Le DED est créé en couplant différents Définitions :fichiers index sources de Statistique Canada dans le but de produire une liste de particuliers. Ces fichiers sont transférés dans l'environnement, traités et couplés seulement une fois au DED. Un identificateur de l'ECDS est attribué à chacun des particuliers figurant dans le DED. Certains des fichiers index sources utilisés pour construire le DED comprennent les dossiers fiscaux, les enregistrements des statistiques de l'état civil (naissances et décès) et les données sur les immigrants. Les mises à jour de ces fichiers de données sont couplées au DED de façon régulière.

Seuls les identificateurs personnels de base sont stockés dans le DED. À titre d'exemple d'identificateurs personnels conservés dans le DED, mentionnons les noms de famille, les prénoms, la date de naissance, le sexe, les numéros d'assurance, le nom des parents, l'état matrimonial, les adresses (y compris les codes postaux), les numéros de téléphone, la date d'immigration, la date d'émigration et la date de décès.

Les identificateurs de l'ECDS et les identificateurs d'enregistrement des fichiers index sources couplés sont stockés dans un Définitions :Registre de clés. Tous les fichiers index sources sont couplés au DED de façon probabiliste au moyen d'un outil logiciel généralisé (G-Coup) ou de façon déterministe au moyen de scripts SAS.

Le couplage d'enregistrements déterministe suppose des enregistrements couplés en fonction d'identificateurs uniques partagés par les deux fichiers. En revanche, le couplage d'enregistrements probabiliste fonctionne avec des identificateurs non uniques (p. ex. le nom, le sexe, la date de naissance et le code postal) et estime la probabilité que les enregistrements désignent la même entité.

Une fois qu'une étude nécessitant des données couplées a été définie et approuvée, les identificateurs d'enregistrement associés (extraits du Registre de clés) sont utilisés pour trouver chaque enregistrement dans les Définitions :fichiers de données sources. Des variables choisies provenant de ces sources peuvent alors être intégrées à un fichier d'analyse couplé. Cette approche permet de créer un environnement virtuel de couplage qui élimine la nécessité de concevoir une grande base de données intégrées.

Figure 1. Diagramme global de l'Environnement de couplage de données sociales

Figure 1. Diagramme global de l'ECDS
Description de la figure 1 : Diagramme global de l'Environnement de couplage de données sociales

Cette figure est un modèle visuel qui sert de résumé au texte du présent aperçu.

  • Dans l'environnement de données sécurisé de Statistique Canada, les fichiers sources sont séparés en fichiers de données sources (identificateurs d'enregistrement et variables d'analyse sans identificateurs personnels) et en fichiers index sources (identificateurs d'enregistrement et identificateurs personnels sans variables d'analyse).
  • Les fichiers index sources sont accessibles dans l'environnement de production du couplage d'enregistrements et sont couplés avec le Dépôt d'enregistrements dérivés (fichier longitudinal national des identificateurs personnels). Les identificateurs d'enregistrement de l'Environnement de couplage de données sociales (ECDS) et les identificateurs d'enregistrement des fichiers index sources couplés sont stockés dans le Registre de clés (les identificateurs d'enregistrement sont utilisés comme clés pour repérer seulement les enregistrements nécessaires pour une étude).
  • On peut accéder aux fichiers de données sources dans l'environnement de production des fichiers d'analyse couplés qui utilise les clés du Registre de clés pour produire des fichiers d'analyse qui serviront dans le cadre d'études approuvées uniquement, sans identificateurs personnels.
  • Le programme de l'ECDS est géré par la haute gestion de Statistique Canada. Le statisticien en chef examine et approuve chaque proposition de couplage d'enregistrements. Lorsque le statisticien en chef approuve une étude, un fichier d'analyse est créé.
  • Le résultat de ce processus est un produit analytique (données agrégées non confidentielles).

Sources des données

Le ECDS : Définitions : Couplages avec le Dépôt d'enregistrements dérivés (DED)DED contient seulement des ID d'enregistrement et des identificateurs sans données d'analyse. Parmi les principaux Définitions :fichiers index sources qui contribuent à la création (c.-à-d. qui ajoutent des enregistrements d'individus) et à la mise à jour (c.-à-d. qui fournissent des renseignements supplémentaires aux enregistrements existants) du DED, mentionnons les suivants :

  • Fichier maître des particuliers T1 (impôt);
  • Fichiers de la Prestation fiscale canadienne pour enfants (PFCE);
  • Statistique de l'état civil — Base de données sur les naissances;
  • Fichier des immigrants reçus; et
  • Statistique de l'état civil — Base de données sur les décès.

D'autres sources seront utilisées pour créer des fichiers d'analyse couplés dans le cadre de projets approuvés (certains pouvant également être utilisés pour mettre à jour le DED). Voir Situation actuelle du couplage avec le DED.

Dans le futur, d'autres fichiers pourraient être couplés au DED. Il pourrait s'agir de données déjà existantes de Statistique Canada ou provenant d'autres fichiers externes pour certains projets de recherche ayant fait l'objet d'une approbation.

Statistique Canada est responsable de la conservation et du traitement sécuritaires des données. Étant donné que les projets de recherche de l'ECDS reposent sur l'utilisation de microenregistrements couplés, il faut obtenir l'autorisation individuelle selon l'étude auprès du statisticien en chef du Canada, conformément à la Directive sur le couplage de microdonnées. Des sommaires des couplages d'enregistrements approuvés sont publiés sur le site Web de Statistique Canada.

Fichiers d'analyse couplés

Lorsqu'un projet de recherche nécessitant des données couplées de l'ECDS a été approuvé et que ces données ont fait l'objet d'un couplage dans l'environnement de production de l'ECDS, les identificateurs d'enregistrement de la cohorte en question et les identificateurs d'enregistrement associés des fichiers à coupler à la cohorte sont tirés du Définitions :Registre de clés. Ces identificateurs d'enregistrement sont utilisés afin de jumeler certaines variables des différents fichiers de données sources et ainsi créer un fichier d'analyse couplé.

Selon la complexité des fichiers de données sources, des décisions pourraient s'imposer sur la façon de structurer le fichier d'analyse couplé (p. ex. travailler avec plusieurs périodes de référence ou avec des fichiers fondés sur les événements). De plus, la qualité des données couplées doit être évaluée. Les données qui sont couplées dans l'ECDS feront l'objet de deux types de validation :

  • Évaluation du couplage d'enregistrements : Quel est le taux d'appariement (%) avec le ECDS : Définitions : Couplages avec le Dépôt d'enregistrements dérivésDED? Les liens sont-ils valides? (Appariements faussement positifs? Couplages manqués?)
  • Évaluation du fichier d'analyse couplé : Les données couplées semblent-elles logiques du point de vue du domaine spécialisé? Y a-t-il un biais causé par le processus de couplage? Les données représentent-elles adéquatement la population à l'étude?

Ces décisions relatives à l'organisation des fichiers et les mesures de la qualité des données doivent être documentées et prises en considération dans l'analyse finale.

Services

En plus de tenir à jour l'ECDS et d'effectuer de nouveaux couplages d'enregistrements, l'équipe de l'ECDS fournit divers services de soutien aux clients, dont les suivants :

  • l'évaluation de la faisabilité du projet;
  • la prestation de conseils sur les sources de données, les limites analytiques et la validation;
  • la liaison avec des spécialistes du domaine;
  • l'assistance relative aux étapes d'approbation;
  • la création de fichiers d'analyse couplés personnalisés; et
  • la prestation d'activités de formation et de communication.

Statistique Canada offre des services personnalisés, comme l'ECDS, aux organismes canadiens selon un régime de recouvrement des coûts, c'est-à-dire que les clients paient les coûts directs et indirects associés à la réalisation des travaux. Les services personnalisés ne sont pas financés par le budget que le Parlement alloue à Statistique Canada. Les coûts reflètent les besoins de chaque client et varient selon la complexité de la proposition.

Pour obtenir plus de renseignements, veuillez communiquer avec nous par courriel à STATCAN.SDLE-ECDS.STATCAN@canada.ca.

Confidentialité et protection de la vie privée

Les fichiers analytiques couplés sont considérés comme des renseignements statistiques de nature délicate et sont donc assujettis aux dispositions de la Loi sur la statistique en matière de confidentialité. Pour réduire le risque d'intrusion dans la vie privée et de divulgation de renseignements personnels, les fichiers sources utilisés dans l'ECDS sont divisés en fichiers index sources et en fichiers de données sources. De plus, l'environnement de production des couplages d'enregistrements qui utilise les fichiers index sources est séparé de l'environnement d'intégration et d'analyse des données qui utilise les fichiers de données sources. Autrement dit, les employés de Statistique Canada qui exécutent les couplages d'enregistrements dans l'ECDS n'ont accès qu'aux identificateurs personnels de base nécessaires au couplage, et les employés qui constituent les fichiers analytiques aux fins de recherche ont accès uniquement aux données dépourvues d'identificateurs personnels. Des clés anonymes sont utilisées pour intégrer les données des différentes sources dans un fichier de données analytiques couplé. En outre, seuls les employés de Statistique Canada qui ont besoin des données pour leur travail d'analyse sont autorisés à accéder au fichier analytique couplé. Les résultats de l'évaluation des facteurs relatifs à la vie privée menée par Statistique Canada montrent que ces mesures permettent de réduire de façon satisfaisante le risque d'intrusion dans la vie privée et de divulgation de renseignements personnels.

Définitions

  1. Le Dépôt d'enregistrements dérivés (DED) est une base de données longitudinales nationales contenant des renseignements sur des personnes provenant de certains fichiers de données de Statistique Canada et ne renfermant que des identificateurs personnels de base.
  2. Le Registre de clés contient les identificateurs de l'ECDS et les identificateurs d'enregistrement des fichiers index sources associés par le biais d'un couplage d'enregistrements.
  3. Les fichiers index sources renferment des identificateurs personnels, mais aucune variable d'analyse.
  4. Les fichiers de données sources renferment des variables d'analyse, mais aucun identificateur personnel.
Date de modification :