Le Recensement de l'agriculture offre un portrait statistique de l'industrie de l'agriculture canadienne ainsi que des exploitants agricoles et de leur famille.
AVIS IMPORTANT : Trouvez le dernier contenu du Recensement de l'agriculture sur notre nouveau portail ici : Recensement de l'agriculture.
Les enquêtes de Statistique Canada sont menées en personne, par téléphone ou en ligne. Pour la plupart des enquêtes, Statistique Canada envoie d'abord une lettre ou un courriel d'invitation pour vous informer de l'objectif de l'enquête et vous indiquer qu'un commis à la collecte de données communiquera avec vous.
Si vous n'avez pas reçu de lettre ou de courriel de ce genre, vous pouvez vérifier que l'enquête est bien menée par Statistique Canada en :
*Si vous utilisez un service de relais téléphonique, vous pouvez nous appeler pendant les heures normales de bureau. Il n'est pas nécessaire d'autoriser le téléphoniste à communiquer avec nous.
Les répondants reconnaissent qu'en utilisant un service de relais téléphonique et en fournissant leurs renseignements personnels au téléphoniste, qu'ils peuvent être assujettis aux conditions d'utilisation du service de relais. Veuillez noter que le téléphoniste n'est pas assujetti aux règles de confidentialité de Statistique Canada.
Ne vous étonnez pas si un employé de Statistique Canada se présente à votre porte ou communique avec vous par téléphone en soirée ou les fins de semaine. Pour s'adapter aux horaires chargés des répondants, les employés de Statistique Canada travaillent à différentes heures de la journée, sept jours par semaine et parfois les jours fériés. Dans le cas d'une enquête téléphonique, il se peut que l'on vous appelle de différentes régions du Canada.
Les employés de Statistique Canada ne sollicitent pas de numéro d'assurance sociale ni de renseignements bancaires ou de cartes de crédit.
Comment m'a-t-on choisi·e?
Comment m'a-t-on choisi?
Tous les ménages canadiens reçoivent le questionnaire du Recensement de la population.
Toute personne responsable d'une exploitation agricole déclarant des revenus ou des dépenses à l'Agence du revenu du Canada doit remplir un questionnaire du Recensement de l'agriculture.
La majorité des enquêtes de Statistique Canada sont des enquêtes sur échantillon. Les participants à ces enquêtes sont choisis au hasard afin d'éviter tout biais. Lorsque vous êtes sélectionné·e pour faire partie de l'échantillon d'une enquête, Statistique Canada ne peut vous remplacer par quelqu'un d'autre, car il ne s'agirait plus d'un échantillon pris au hasard.
J'ai déjà participé à une enquête de Statistique Canada. Pourquoi m'avez-vous sélectionné·e pour une autre enquête?
Cela peut arriver parce que les participants aux enquêtes sont choisis au hasard. Parfois, les caractéristiques que nous recherchons peuvent être les mêmes d'une enquête à l'autre.
Dans certains cas, on peut communiquer de nouveau avec une partie des participants à une enquête pour mener une enquête connexe. Cette façon de faire permet de réduire le temps et les dépenses qui seraient nécessaires pour mener chaque fois une nouvelle enquête.
Comment choisit-on les entreprises ou les exploitations agricoles en vue d'une enquête?
La majorité des enquêtes que Statistique Canada mène auprès des entreprises ou des exploitations agricoles sont des enquêtes sur échantillon. Cela veut dire que seulement un certain nombre d'entreprises ou d'exploitations agricoles d'un secteur d'activité particulier sont choisies dans chaque province et territoire pour remplir le questionnaire d'enquête. Cet échantillon représente toutes les entreprises ou exploitations agricoles du secteur étudié. Dans un échantillon, la plupart des entreprises ou exploitations agricoles sont choisies de façon aléatoire afin de représenter d'autres entreprises ou exploitations agricoles possédant des caractéristiques semblables ayant trait, par exemple, au revenu ou au nombre d'employés. Certaines entreprises ou exploitations agricoles doivent être retenues dans l'échantillon parce qu'elles contribuent de façon significative à l'activité d'un secteur ou d'une région.
Un nombre limité de nos enquêtes menées auprès des entreprises ou des exploitations agricoles sont de type recensement, c'est-à-dire qu'elles incluent toutes les entreprises ou exploitations agricoles de taille notable au sein d'un secteur d'activité particulier. On utilise un recensement lorsque le secteur étudié ne comprend qu'un nombre limité d'entreprises ou d'exploitations agricoles ou lorsqu'il se compose d'entreprises ou d'exploitations agricoles très dissemblables. Dans de tels cas, un échantillon ne refléterait pas fidèlement la totalité du secteur étudié.
Dois-je participer?
Dois-je participer?
La participation au Recensement de la population et au Recensement de l'agriculture est obligatoire en vertu de la Loi sur la statistique. Tous les ménages canadiens doivent remplir le questionnaire du Recensement de la population. Tous les exploitants agricoles doivent remplir le questionnaire du Recensement de l'agriculture.
Si Statistique Canada communique avec vous pour vous demander de prendre part à l'Enquête sur la population active, votre participation est également obligatoire en vertu de la Loi sur la statistique. En outre, la participation à la plupart des enquêtes entreprises et agricoles est obligatoire.
Les autres enquêtes de Statistique Canada sont à participation volontaire.
Votre participation est importante.
Pour obtenir les résultats les plus complets, il est très important que les personnes, les ménages, les entreprises et les exploitations agricoles sélectionnés répondent aux questions d'enquête. Sans votre collaboration, Statistique Canada ne pourrait pas produire de données fiables et essentielles.
Les renseignements recueillis dans nos enquêtes ont des conséquences directes sur la vie des Canadiens. De plus, toutes vos réponses ont la même importance. Par exemple, pour produire des données exactes et objectives sur l'utilisation d'Internet au Canada, les réponses des gens qui n'utilisent pas d'Internet ont autant d'importance que les réponses des personnes qui s'en servent.
Pourquoi les entreprises et les exploitations agricoles sont-elles légalement tenues de répondre aux enquêtes?
Les Canadiens ont besoin de données exactes et fiables pouvant servir de fondement au processus démocratique de prise de décisions. Par la Loi sur la statistique, le Parlement a chargé Statistique Canada, à titre d'organisme national de la statistique, de recueillir ce genre de données.
Les enquêtes menées auprès des entreprises et des exploitations agricoles permettent de recueillir d'importantes données économiques. Celles-ci sont utilisées par les entreprises, les syndicats, les organismes à but non lucratif et tous les ordres de gouvernement pour leur permettre de prendre des décisions éclairées dans plusieurs domaines.
Puisque les résultats de la plupart des enquêtes-entreprises et enquêtes agricoles sont liés directement ou indirectement à des programmes autorisés par la loi, il est nécessaire de rendre obligatoire la participation à ces enquêtes afin d'assurer un taux de réponse adéquat ainsi que des données fiables.
Comment est-ce que Statistique Canada communiquera avec moi?
Comment est-ce que Statistique Canada communiquera avec moi?
Statistique Canada pourrait communiquer avec vous de diverses façons en utilisant les deux langues officielles. Nos employés travaillent les jours, les soirées, les fins de semaine et même parfois les jours fériés pour s'adapter aux horaires des répondants. Nous communiquons avec les répondants en :
envoyant des lettres;
appelant des numéros de téléphone fixe ou cellulaire;
envoyant des courriels;
envoyant des textos;
Le numéro abrégé de Statistique Canada utilisé pour tous nos messages textes est le 782-782. Si vous recevez un message texte d'un autre numéro prétendant être celui de Statistique Canada, ce message n'est pas authentique. De plus, tous les messages textes de Statistique Canada sont envoyés dans les deux langues officielles.
visitant en personne le lieu de résidence;
Si un employé se rend à votre lieu de résidence et que vous n'êtes pas disponible, il peut également laisser une note ou une lettre pour vous informer de sa visite.
envoyant des notifications à partir des applications mobiles officielles de Statistique Canada.
Ces notifications seront envoyées uniquement aux utilisateurs qui ont téléchargé l'application mobile et activé les notifications.
Comment puis-je confirmer l'identité d'un employé, ou la légitimité d'un appel téléphonique, d'un message texte ou d'un courriel reçu ?
Comment puis-je confirmer l'identité d'un intervieweur ou la légitimité d'un appel, d'un texto ou d'un courriel que j'ai reçu?
Tous les commis à la collecte de données portent une carte d'identité avec photo délivrée par Statistique Canada. Vous pouvez vérifier l'identité d'un employé en recherchant son nom dans GCannuaire. Pour confirmer la légitimité d'un appel, d'un message texte ou d'un courriel, vous pouvez communiquer avec Statistique Canada en composant l'un des numéros ci-après.
Demandes de renseignements généraux
1-877-949-9492
Ligne ATS : 1-800-363-7629
Demandes en lien avec la participation aux enquêtes
1-833-977-8287
Ligne ATS : 1-866-753-7083
Si vous avez été sélectionné·e pour participer à une enquête, Statistique Canada vous appellera généralement à partir du numéro 1-833-977-8287, les messages texte seront envoyés du 782-782, et les courriels proviendront des domaines @statcan.gc.ca ou @canada.ca.
Veuillez noter qu'il est possible que le numéro de téléphone s'affiche sur votre téléphone comme provenant des États-Unis. Cette situation est hors de notre contrôle et est directement liée à un accord nord-américain sur la téléphonie et la répartition des appels. Si vous doutez de la légitimité d'une enquête ou d'un employé, nous vous encourageons à communiquer avec nous pour confirmer.
Comment protège-t-on ma vie privée et mes renseignements personnels?
Comment protège-t-on ma vie privée et mes renseignements personnels?
Statistique Canada prend la confidentialité des renseignements qui vous concernent très au sérieux. Conformément à la Loi sur la statistique, tous les renseignements fournis à Statistique Canada seront tenus confidentiels et utilisés seulement à des fins statistiques.
Statistique Canada se préoccupe aussi du respect de la vie privée des répondants. Si un répondant connaît le commis à la collecte de données et qu'il est mal à l'aise de lui communiquer des renseignements personnels, le répondant peut choisir d'être interviewé par un autre employé de Statistique Canada.
Vos réponses sont confidentielles.
La Loi sur la statistique protège les renseignements des répondants. Statistique Canada ne divulgue pas de renseignements qui pourraient permettre d'identifier des personnes, des ménages, des entreprises, des exploitations agricoles ou autres organisations à moins d'avoir obtenu leur consentement, ou tel que permis par la Loi sur la statistique. Nous examinons minutieusement les résultats finaux avant leur diffusion afin d'éviter que les statistiques publiées ne puissent être utilisées de façon à déduire quelque information que ce soit.
La Loi sur la statistique renferme des dispositions très strictes qui protègent la confidentialité des renseignements recueillis contre tout accès non autorisé. À titre d'exemple, l'Agence du revenu du Canada, la Gendarmerie royale du Canada (GRC) et les tribunaux ne peuvent obtenir les réponses fournies aux enquêtes.
Tous les employés de Statistique Canada ont prêté un serment de discrétion et s'exposent à des peines sévères pour toute violation du secret professionnel.
L'accès est strictement contrôlé.
Tous les employés de Statistique Canada sont tenus de protéger la confidentialité des données recueillies. Seuls les employés qui doivent consulter les dossiers confidentiels pour mener leur tâche à bien sont autorisés à en prendre connaissance. Un ensemble de systèmes et de procédures interdit tout accès non autorisé aux renseignements confidentiels.
Les données confidentielles sont traitées et stockées sur un réseau interne dont les paramètres sont strictement contrôlés afin d'empêcher le piratage informatique.
Je reçois des appels de Statistique Canada qui ne s'affichent pas comme tels. Pourquoi?
Je reçois des appels de Statistique Canada qui ne s'affichent pas comme tel. Pourquoi?
Comme Statistique Canada fait appel à plusieurs fournisseurs de services téléphoniques à l'échelle du pays, l'option d'affichage des appels n'est pas toujours offerte, et les appels provenant des commis à la collecte de données ou des centres d'appels peuvent être désignés comme des appels « inconnus ». Il est également possible que le numéro de téléphone d'un commis à la collecte de données de Statistique Canada s'affiche sur votre téléphone comme provenant des États-Unis. Cette situation est hors de notre contrôle et est directement liée à un accord nord-américain sur la téléphonie et la répartition des appels.
En outre, plus d'un commis à la collecte de données peut tenter de communiquer avec vous à partir d'un téléphone portable, auquel cas votre afficheur peut vous présenter plusieurs noms et numéros de téléphone.
C'est pourquoi nos appels ne peuvent pas tous s'afficher comme étant de Statistique Canada ou du Gouvernement du Canada.
Si vous doutez de la légitimité d'une enquête ou d'un employé, nous vous encourageons à communiquer avec nous pour confirmer.
Comment puis-je avoir accès aux résultats publiés par Statistique Canada?
Comment puis-je avoir accès aux résultats publiés par Statistique Canada?
Vous trouverez des résultats sous le lien « données publiées » sur la page principale de chacune de nos enquêtes en cours.
Le Quotidien : Le Quotidien est le bulletin de diffusion officielle de Statistique Canada. On y trouve chaque jour ouvrable des résultats d'enquêtes de Statistique Canada. L'archivage permet également de consulter les renseignements diffusés antérieurement.
Le Recensement de la population : Ce module dresse le portrait statistique du Canada et de ses habitants. Vous y retrouverez également les plus récentes données sur le Recensement de 2021.
Mon StatCan : Mon StatCan est un portail complet et personnalisable qui vous permet de mettre un signet à vos articles, rapports, tableaux de données, indicateurs et autres favoris pour y avoir accès rapidement; de recevoir par courriel les avis portant sur les données les plus récentes que nous avons diffusées. Pour obtenir plus de renseignements sur les publications et les produits :
Numéro sans frais (Canada et États-Unis) : 1-800-263-1136
Est-ce que Statistique Canada est exempté de la Liste nationale de numéros de télécommunication exclus?
Est-ce que Statistique Canada est exempté de la liste nationale de numéro de télécommunication exclus?
Statistique Canada tient à informer les clients et les répondants à ses enquêtes qu'il fait partie des organisations exclues de la Liste nationale de numéros de télécommunication exclus (LNNTE).
La LNNTE a été lancée par le Conseil de la radiodiffusion et des télécommunications canadiennes (CRTC) afin de limiter le nombre d'appels de télémarketing.
En somme, les personnes sélectionnées pour les enquêtes de Statistique Canada seront contactées par l'organisme, et ce, même si ces dernières ont enregistré leur numéro de téléphone sur la LNNTE.
En vertu de la Loi sur la statistique, Statistique Canada collecte des données pour fournir aux Canadiens de l'information fiable sur notre société, notre économie et notre population.
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Pour obtenir plus de renseignements, communiquez avec nos agents au 1-800-263-1136 ou à infostats@statcan.gc.ca.
Les questionnaires en ligne de Statistique Canada permettent-ils d'utiliser la fonction de traduction des navigateurs Web?
Les questionnaires en ligne de Statistique Canada permettent-ils les traductions par les navigateurs Web?
Toutes nos enquêtes sont disponibles en français et en anglais. Nous encourageons les répondants à utiliser le bouton de langue intégré à nos questionnaires pour passer de l'anglais au français, plutôt que d'utiliser la fonction de traduction de leur navigateur. Malheureusement, lorsqu'un navigateur traduit nos questionnaires, il peut produire des traductions incorrectes.
Pourquoi les numéros des questions dans les questionnaires d'enquête n'apparaissent-ils pas toujours dans l'ordre numérique?
Pourquoi les numéros des questions dans les questionnaires d'enquête n'apparaissent-ils pas toujours dans l'ordre numérique?
Les questionnaires d'enquête peuvent utiliser deux formats différents de numérotation des questions. Ils peuvent être numérotés par ordre numérique, de la première à la dernière question, ou chaque section du questionnaire peut recommencer la numérotation à la question 1. Le second format peut générer plusieurs occurrences du même numéro de question dans le questionnaire.
En fonction des réponses fournies tout au long du questionnaire, certaines questions et leurs numéros correspondants pourraient être passés..
Que fait Statistique Canada pour faciliter la tâche des répondants?
Que fait Statistique Canada pour faciliter la tâche des répondants?
Statistique Canada cherche à trouver un équilibre entre le fardeau de réponse imposé aux entreprises et le besoin d'obtenir des statistiques sur les industries et des indicateurs économiques de qualité.
Recours à d'autres sources que les enquêtes pour l'obtention des données
Statistique Canada a beaucoup réduit le fardeau de réponse lié aux enquêtes en ayant recours à des données administratives que les entreprises et les exploitations agricoles fournissent déjà au gouvernement, telles que les déclarations de revenus et les documents relatifs à la paie des employés.
Enquêtes mensuelles moins nombreuses et plus rapides
Les enquêtes mensuelles fournissent des données actuelles permettant de suivre l'évolution des prix, du commerce, de la fabrication et de l'emploi. Statistique Canada s'efforce de rendre les questionnaires faciles à remplir et de les garder aussi courts que possible. Au cours des dernières années, Statistique Canada a réduit considérablement la taille des échantillons des enquêtes mensuelles en utilisant des données administratives.
Déclaration électronique
Pour plusieurs enquêtes-entreprises, Statistique Canada offre aux répondants la possibilité de déclarer leurs données par Internet. La déclaration électronique permet aux entreprises d'extraire directement l'information de leurs systèmes de données ou de remplir un questionnaire en ligne et de le transmettre à Statistique Canada. Des mesures de protection rigoureuses sont alors fournies afin d'assurer la confidentialité des données.
Modalités de participation personnalisées
Les grandes entreprises actives dans diverses industries et provinces peuvent choisir des modalités de participation personnalisées au Programme intégré de la statistique des entreprises. Par exemple, une telle entreprise peut recevoir à son siège social tous les questionnaires concernant ses succursales. Elle peut également décider de recevoir, pour chaque province et pour chaque industrie où elle exerce ses activités, un questionnaire combiné visant toutes ses succursales œuvrant dans cette province ou cette industrie.
Qu'est-ce que le Programme intégré de la statistique des entreprises?
Qu'est-ce que le Programme intégré de la statistique des entreprises?
Le Programme intégré de la statistique des entreprises (PISE) est une initiative menée par Statistique Canada pour garantir la cohérence et la qualité des données à l'échelle de son programme de statistiques économiques et produire une image cohérente de l'économie canadienne. Cette initiative intègre des enquêtes-entreprises en un seul cadre de travail en utilisant des questionnaires et des guides de déclaration semblables en ce qui a trait à la présentation, à la structure et au contenu.
Les questionnaires types du PISE permettent de recueillir des données homogènes auprès d'entreprises de différentes industries. Le regroupement des résultats permet d'obtenir des statistiques plus cohérentes et plus précises sur l'économie, plus particulièrement à l'échelle provinciale et territoriale ainsi qu'au niveau des industries.
L'approche intégrée rend la déclaration plus facile pour les entreprises ayant des activités dans différentes industries, puisqu'elles fournissent des renseignements similaires pour chacune de leurs succursales. Cette approche leur évite d'avoir à répondre, pour chaque industrie, à des questionnaires qui diffèrent en ce qui a trait au format, à la formulation des questions et même aux concepts.
Pourquoi Statistique Canada n'obtient-il pas l'ensemble des renseignements financiers des entreprises de l'Agence du revenu du Canada?
Pourquoi Statistique Canada n'obtient-il pas l'ensemble des renseignements financiers des entreprises de l'Agence du revenu du Canada?
Dans la mesure du possible, Statistique Canada utilise les données administratives qui sont déjà entre les mains du gouvernement, telles que les déclarations de revenus.
Toutefois, ces dossiers ne contiennent pas toutes les données nécessaires pour produire un profil adéquat d'une industrie. On observe plus particulièrement cette situation dans le cas de grandes entreprises dont les activités se déroulent dans différentes industries et dans plus d'une province.
Statistique Canada ne partage aucune donnée individuelle d'enquête avec l'Agence du revenu du Canada.
Les renseignements fournis par les entreprises seront-ils partagés?
Les renseignements fournis par les entreprises seront-ils partagés?
La Loi sur la statistique interdit à Statistique Canada de diffuser tout renseignement permettant d'identifier une personne, un ménage, une entreprise ou une exploitation agricole. Toutefois, la collecte conjointe et le partage des données d'enquête avec de tierces parties sont permis dans certaines circonstances prévues par la Loi sur la statistique.
Ententes de partage de données
Pour éviter la redondance des enquêtes, Statistique Canada conclut parfois des ententes de collecte conjointe et de partage des données avec des ministères fédéraux ou provinciaux ainsi qu'avec d'autres organismes. Cela réduit le fardeau administratif imposé aux entreprises.
Dans de tels cas, Statistique Canada doit, au moment de la collecte, indiquer aux répondants si une entente de partage de données s'applique aux renseignements qu'ils fournissent, et avec quel organisme leurs renseignements seront partagés. Statistique Canada doit également informer les répondants de tout droit qu'ils pourraient avoir, en vertu de la Loi sur la statistique, de refuser de partager les renseignements fournis.
Couplage de microdonnées
Pour améliorer les données et réduire au minimum le fardeau de réponse, Statistique Canada pourrait combiner les renseignements recueillis au moyen d'une enquête avec ceux provenant d'autres enquêtes ou de sources des données administratives.
Renonciations à la confidentialité
Statistique Canada peut divulguer les renseignements permettant d'identifier un répondant si celui-ci y a consenti par écrit. La Loi sur la statistique permet également au statisticien en chef d'autoriser la divulgation de certaines données relatives aux entreprises et aux organismes — sans le consentement du répondant — dans des situations précises et limitées.
Renseignements recueillis en vertu de la Loi sur les déclarations des personnes morales
Outre le mandat principal qui lui est confié en vertu de la Loi sur la statistique, Statistique Canada est également responsable de l'application de la Loi sur les déclarations des personnes morales. L'objectif de cette loi est de surveiller l'ampleur de la propriété étrangère des sociétés canadiennes.
Les enquêtes menées en vertu de la Loi sur les déclarations des personnes morales constituent les seuls cas où Statistique Canada est autorisé à diffuser certains renseignements non financiers concernant des sociétés précises. Il s'agit de renseignements relatifs à la propriété, à la province d'établissement, à la nationalité des capitaux majoritaires et à la classification industrielle.
L'Agence du revenu du Canada n'a pas accès aux données individuelles d'enquête
La Loi sur la statistique permet à Statistique Canada d'obtenir des dossiers de l'Agence du revenu du Canada pour réduire le fardeau administratif imposé par le gouvernement. Toutefois, le contraire ne s'applique pas : l'Agence du revenu du Canada n'a pas accès aux dossiers individuels de Statistique Canada et ne fait partie d'aucune entente de partage de données avec Statistique Canada.
Qui utilise les résultats des enquêtes-entreprises?
Qui utilise les résultats des enquêtes-entreprises?
Les entreprises bénéficient directement des renseignements qu'elles fournissent à Statistique Canada. Les données d'enquête servent à compiler des statistiques complètes et exactes sur de nombreux produits et industries.
Les entreprises utilisent les données pour :
comparer leur rendement aux moyennes de l'industrie;
préparer des plans d'activités pour les investisseurs;
rajuster les contrats indexés en fonction de l'inflation;
préparer des stratégies de marketing et évaluer les occasions d'expansion.
Les associations industrielles, les analystes commerciaux et les investisseurs utilisent les données pour :
établir des points de repère afin d'analyser le rendement économique de diverses industries;
comprendre les environnements commerciaux qui évoluent rapidement, tels que les réseaux de communication mondiaux, le libre-échange et les nouvelles technologies.
Les gouvernements utilisent les données pour prendre des décisions sur :
les investissements dans les infrastructures afin de favoriser la compétitivité sur la scène nationale et internationale;
les politiques budgétaires, monétaires et de change;
les programmes et les politiques qui viennent en aide aux entreprises;
les transferts fiscaux et les paiements de péréquation fédéraux-provinciaux.
Ombudsman pour les répondants aux enquêtes-entreprises
Ombudsman pour les répondants aux enquêtes-entreprises
Statistique Canada travaille sans relâche à réduire le fardeau de réponse et offre les services d'un ombudsman pour les entreprises afin de soutenir les participants aux enquêtes-entreprises.
L'ombudsman étudie les plaintes des participants aux enquêtes-entreprises qui croient avoir un fardeau de réponse trop élevé ou qui croient que Statistique Canada a agi de façon peu professionnelle envers eux. Les services de l'ombudsman sont impartiaux et gratuits.
Efforts de réduction du fardeau de réponse
Efforts de réduction du fardeau de réponse
Statistique Canada travaille depuis longtemps à gérer et à réduire le fardeau pour ses répondants, car leur contribution est essentielle et fort appréciée. Grâce à la coopération assidue des répondants, l'organisme parvient à traiter les données d'enquête et à produire des renseignements fiables. Ces renseignements permettent aux décideurs de faire leur travail de façon plus éclairée et ainsi de mieux servir l'ensemble des Canadiens.
Statistique Canada prend des mesures pour alléger le fardeau de réponse des entreprises
Statistique Canada vise à réduire le temps que les entreprises consacrent à répondre aux enquêtes, que ce soit en :
diminuant le nombre d'enquêtes ou le nombre de questions;
limitant la période pendant laquelle l'entreprise fait partie de l'échantillon;
utilisant des méthodes plus conviviales de collecte de données.
Réduction de la redondance des demandes de données gouvernementales
Statistique Canada vise à réduire la redondance des demandes de renseignements des ministères et organismes fédéraux par les moyens suivants :
continuer de collaborer avec l'Agence du revenu du Canada afin de remplacer des données d'enquêtes par des données fiscales que les entreprises ont déjà fournies;
évaluer s'il est possible de remplacer les données d'enquêtes par des données provenant d'autres sources;
travailler avec d'autres organismes gouvernementaux afin d'étudier les possibilités de remplacer les enquêtes par des données administratives ou autres comme la télédétection ou la traçabilité;
collaborer avec d'autres ministères fédéraux afin d'harmoniser et de coordonner les besoins en information.
Répit d'enquêtes pour les petites entreprises
Le 1er janvier 2015, Statistique Canada a mis en œuvre l'Initiative sur le fardeau de réponse cumulatif (IFRC) afin d'alléger le fardeau de réponse des petites entreprises ayant un bon dossier de déclaration.
Ce programme offre un an de répit de toute participation lorsque des seuils préétablis de fardeau de réponse ont été franchis. Le programme s'inscrit dans la stratégie d'ensemble de Statistique Canada qui, sans altérer grandement la qualité de ses produits statistiques, vise à :
réduire le nombre de questionnaires envoyés aux petites entreprises;
limiter les périodes durant lesquelles une petite entreprise doit faire partie d'un échantillon.
Communications avec les répondants
Communications avec les répondants
Afin de réduire la frustration des entreprises et de procurer aux intervenants des renseignements pertinents, Statistique Canada examine et met à jour ses outils de communication pour :
expliquer l'importance et l'utilité des enquêtes-entreprises aux répondants;
améliorer la compréhension des répondants quant au lien entre les renseignements recueillis et les bienfaits et utilisations des statistiques;
améliorer son site Web et y augmenter la visibilité et le contenu destiné aux participants aux enquêtes;
sensibiliser davantage le public quant aux initiatives en cours pour réduire le fardeau de réponse.
Questions propres aux enquêtes-ménages
Information sur les enquêtes menées auprès des ménages
Les renseignements fournis par les répondants seront-ils partagés?
Les renseignements fournis par les répondants seront-ils partagés?
Statistique Canada s'engage à respecter les renseignements personnels de tous. La Loi sur la statistique interdit à Statistique Canada de diffuser tout renseignement identifiant ou permettant d'identifier une personne. Toutefois, la collecte conjointe et le partage des données d'enquête avec des tierces parties sont permis dans certaines circonstances prévues par la Loi sur la statistique.
Ententes de partage de données
Pour éviter les chevauchements d'enquêtes, Statistique Canada conclut parfois des ententes de collecte conjointe et de partage des données avec des ministères fédéraux ou provinciaux ainsi qu'avec d'autres organismes. Les réponses d'une personne à une enquête ne seront partagées qu'avec son consentement.
Couplages de microdonnées
Le couplage de données d'enquête et de données administratives est un élément clé permettant de réduire le fardeau de réponse et d'améliorer la qualité et l'uniformité des données des enquêtes-ménages. Statistique Canada informe les répondants du couplage de leurs réponses aux renseignements d'autres enquêtes ou aux données administratives. Les répondants sont également avisés de la possibilité de couplage éventuel de leurs réponses avec d'autres données. De plus, Statistique Canada applique un processus d'examen et d'approbation bien défini à l'égard de tous les couplages.
Consentement à la divulgation
Conformément à la Loi sur la statistique, Statistique Canada est autorisé à divulguer les renseignements permettant d'identifier un répondant si celui-ci y a consenti par écrit.
Qui utilise les résultats des enquêtes-ménages?
Qui utilise les résultats des enquêtes-ménages?
Les données recueillies par Statistique Canada sont utilisées par un certain nombre de personnes ou d'organismes, notamment :
les divers échelons de gouvernement (fédéral, provincial, territorial et municipal);
les organismes communautaires, les éducateurs et les chercheurs;
les urbanistes et les décideurs.
Concepts pour les enquêtes-ménages
Quelle est la différence entre un logement, une famille et un ménage?
Quelle est la différence entre un logement, une famille et un ménage?
Un logement est un ensemble de pièces d'habitation structurellement distinctes qui a une entrée privée à l'extérieur de l'immeuble, ou à partir d'un couloir commun ou d'un escalier à l'intérieur de l'immeuble.
Une famille est un groupe de deux personnes ou plus qui habitent le même logement et qui ont des liens de parenté par le sang, le mariage (y compris l'union libre) ou l'adoption. Une personne qui habite seule ou qui n'a de lien avec personne d'autre dans le logement où elle habite est classée comme personne hors famille.
Un ménage est une personne ou un groupe de personnes habitant un logement. Un ménage peut être une personne qui habite seule, une ou plusieurs familles qui vivent ensemble, ou encore un groupe de personnes sans lien de parenté, mais qui habite le même logement.
Pourquoi Statistique Canada recueille-t-il des renseignements sur le genre et le sexe?
Pourquoi Statistique Canada recueille-t-il des renseignements sur le genre et le sexe?
Méthodologie/DEM
En 2019, Statistique Canada a commencé à recueillir par défaut des renseignements sur le genre, parfois en combinaison avec la question sur le sexe à la naissance, lorsqu'il est nécessaire de mesurer la population transgenre ou de dériver des indicateurs sur la santé ou des indicateurs démographiques. La question sur le genre comprend une réponse écrite « Ou veuillez préciser » pour permettre aux personnes de s'auto-identifier d'une manière inclusive et respectueuse.
Le Recensement de la population de 2021 comprenait pour la première fois une question sur le genre et la précision « à la naissance » à la question sur le sexe. En 2022, on a ajouté à l'Enquête sur la population active une question sur le genre en plus de la question sur le sexe à la naissance.
Ces modifications sont le reflet d'une plus grande reconnaissance sociale et législative des personnes transgenres et non binaires. En 2017, le gouvernement du Canada a modifié la Loi canadienne sur les droits de la personne et le Code criminel du Canada afin de protéger les personnes contre la discrimination et les crimes haineux fondés sur l'identité et l'expression de genre. Ces modifications sont conformes aux orientations stratégiques de 2018 du Secrétariat du Conseil du Trésor du Canada visant à moderniser les pratiques du gouvernement du Canada en matière d'information relative au sexe et au genre.
Bien qu'ils renvoient à deux concepts différents, le sexe à la naissance et le genre sont étroitement liés. Le sexe à la naissance est principalement considéré sous l'angle physique et biologique, alors que le genre est un concept multidimensionnel qui est influencé par plusieurs autres facteurs, dont les normes culturelles et comportementales ainsi que l'identité personnelle.
Le genre d'une personne peut différer de son sexe à la naissance et de la mention qui figure sur ses pièces d'identité ou documents juridiques actuels, tels que son certificat de naissance, son passeport ou son permis de conduire. Il peut changer au fil du temps. Certaines personnes peuvent ne pas s'identifier à un genre en particulier.
Numéros de téléphone et adresses électroniques utilisés par Statistique Canada
Comment Statistique Canada obtient-il les numéros de téléphone et les adresses électroniques?
Comment Statistique Canada obtient-il les numéros de téléphone et les adresses électroniques?
Afin de s'assurer que les échantillons d'enquête sont représentatifs de la population canadienne, Statistique Canada accède à l'information depuis une variété de dossiers administratifs qui incluent :
des listes de numéros de téléphone et de numéros de téléphone cellulaire;
des listes d'adresses et des renseignements sur les courriels provenant des dossiers du recensement;
des renseignements qui proviennent d'autres ministères, de bureaux municipaux, d'associations professionnelles, d'entreprises ou d'organisations avec lesquels nous avons des ententes et un pouvoir juridique en ce qui concerne l'accès à des dossiers administratifs.
Les listes utilisées contiennent uniquement des numéros de ligne terrestre, des numéros de téléphone cellulaire, des adresses ou des renseignements sur le courriel.
À partir de ces listes, Statistique Canada sélectionne au hasard des échantillons d'enquête représentatifs de la population canadienne.
Pourquoi Statistique Canada pose-t-il des questions sur les numéros de téléphone et les adresses électroniques utilisés à la maison?
Pourquoi Statistique Canada pose-t-il des questions sur les numéros de téléphone et les adresses électroniques utilisés à la maison?
Nous posons ces questions afin de bien associer l'ensemble des numéros de téléphone et des adresses électroniques aux bons ménages et ainsi éviter de sélectionner un ménage plus d'une fois pour la même enquête. Comme chaque ménage sélectionné représente un certain nombre de ménages ayant des caractéristiques semblables, en nous assurant d'avoir associé les bons numéros de téléphone et adresses électroniques aux bons ménages, nous pouvons attribuer le poids de chaque ménage, c'est-à-dire combien d'autres ménages il représente, de façon plus précise. Cette étape est essentielle pour obtenir des statistiques de qualité pour l'ensemble de la population.
Pourquoi Statistique Canada utilise-t-il les numéros de téléphone cellulaire et les adresses électroniques?
Pourquoi Statistique Canada utilise-t-il les numéros de téléphone cellulaire et les adresses électroniques?
L'utilisation des téléphones cellulaires augmente et celle des lignes téléphoniques conventionnelles diminue. On considère que les adresses électroniques sont une autre façon moderne de communiquer avec les répondants en cette ère numérique.
En vertu de la Loi sur la statistique, Statistique Canada acquiert et utilise des numéros de téléphone cellulaire et des adresses électroniques, afin de réduire les coûts de la collecte et d'assurer une bonne représentativité de tous les ménages canadiens, incluant ceux qui utilisent uniquement le téléphone cellulaire ou d'autres services de communication.
Les numéros de téléphone cellulaire et les adresses électroniques ne sont-ils pas considérés comme des renseignements personnels?
Les numéros de téléphone cellulaire et les adresses électroniques ne sont-ils pas considérés comme des renseignements personnels?
Statistique Canada comprend parfaitement que certains Canadiens peuvent s'inquiéter de recevoir des appels sur leur téléphone ou des courriels provenant de personnes qu'ils ne connaissent pas personnellement.
Statistique Canada traite tous les renseignements relatifs aux numéros de téléphone et aux adresses électroniques obtenus en vertu de la Loi sur la statistique de manière confidentielle.
Les renseignements recueillis en vertu de cette loi sont utilisés uniquement pour appuyer les programmes autorisés de Statistique Canada. Les renseignements ne sont pas utilisés à d'autres fins et ne sont pas transmis à des tiers, même au sein du gouvernement du Canada.
Que se passe-t-il si j'ai inscrit mon numéro de téléphone sur la Liste nationale de numéros de télécommunication exclus?
Que se passe-t-il si j'ai inscrit mon numéro de téléphone sur la liste nationale de numéros de téléphone exclus?
Cette liste a été créée pour limiter le nombre d'appels de télémarketing. Cela ne s'applique pas à Statistique Canada.
Statistique Canada n'est pas une agence de télémarketing. Loi sur la statistique donne à l'organisme le mandat de mener des enquêtes dans le but de fournir aux Canadiens de l'information exacte sur notre société, notre économie et notre population.
Ainsi, les personnes qui inscrivent leur numéro de téléphone sur la Liste nationale de numéros de télécommunication exclus continueront de recevoir des appels ou des textos de Statistique Canada dans le cadre de ses enquêtes.
Comment mon numéro de téléphone ou mon adresse électronique sont-ils utilisés?
Comment mon numéro de téléphone ou mon adresse électronique sont-ils utilisés?
Les listes utilisées ne renferment que des numéros de ligne terrestre, des numéros de téléphone cellulaire, des adresses ou des renseignements sur le courriel.
Les renseignements sont utilisés afin de mener des enquêtes.
Les renseignements relatifs aux numéros de téléphone, aux adresses ou aux courriels obtenus par Statistique Canada ne sont jamais transmis à un autre organisme ou à une personne, même au sein du gouvernement du Canada.
Pendant combien de temps mon numéro de téléphone ou mon adresse électronique sont-ils conservés?
Pendant combien de temps mon numéro de téléphone ou mon adresse électronique sont-ils conservés?
Statistique Canada obtient continuellement des renseignements sur les numéros de téléphone et les adresses électroniques, et met à jour ses bases de données afin d'accroître l'efficacité de ses programmes d'enquêtes.
Il n'est pas utile de conserver un numéro de téléphone ou une adresse électronique qui n'existe plus ou qui n'est plus lié à une adresse résidentielle précise.
Quelle est la probabilité que Statistique Canada communique avec moi par téléphone, par texto ou par courriel?
Quelle est la probabilité que Statistique Canada communique avec moi par téléphone, par texto ou par courriel?
Chaque année, seul un petit pourcentage de logements est sélectionné pour participer aux enquêtes-ménages menées par Statistique Canada.
La plupart du temps, Statistique Canada contacte les personnes (ou les ménages) par la poste, par courriel, par téléphone ou en personne.
Quelles sont les heures d'appel de Statistique Canada?
Quelles sont les heures d'appel de Statistique Canada?
Les bureaux régionaux gèrent les jours et les heures d'appel selon le type d'enquête. Cela diffère pour chaque bureau régional. En général, les heures d'appel sont de 8 h à 21 heures, du lundi au vendredi; ces heures sont réduites le samedi et le dimanche.
Statistique Canada a été fondé pour veiller à ce que les Canadiens aient accès à une source fiable de statistiques sur le Canada afin de répondre à leurs besoins les plus prioritaires. L'accès à une information statistique fiable est un fondement essentiel de toute société démocratique, à la fois pour appuyer la prise de décisions en fonction de données probantes dans les secteurs public et privé ainsi que pour éclairer le débat sur les questions de politique publique.
Nos activités
En tant que ministère, Statistique Canada est responsable des éléments présentés ci-dessous.
Pour de plus amples renseignements concernant les consultations actuelles ou à venir sur les projets de règlement fédéraux, veuillez consulter la Gazette du Canada ou le site Web Consultations auprès des Canadiens.
Q1. Qu’est-ce que la Biobanque de Statistique Canada?
La Biobanque de Statistique Canada a pour but d’accélérer les futurs projets de recherche et de créer des possibilités de suivi de la santé sur un échantillon de Canadiens représentatif à l’échelle nationale. La biobanque reçoit des échantillons d’enquêtes telles que l’Enquête canadienne sur les mesures de la santé ou l’Enquête canadienne sur la santé et les anticorps contre la COVID-19, qui permettent de recueillir des échantillons de gouttes de sang séché, de sang, d’urine et de salive de plus de 22 000 Canadiens consentants. Ces échantillons sont entreposés en lieu sûr aux fins d’études futures sur la santé. Pour obtenir l’autorisation d’utiliser ces échantillons dans le cadre de projets de recherche, il est nécessaire de suivre un processus d’examen scientifique, éthique et relatif à la sécurité approfondi.
Voici les avantages qu’offrent les échantillons de la biobanque :
Ils offrent aux chercheurs un meilleur accès aux échantillons de Canadiens consentants;
Ils offrent un processus accéléré de recherche puisque les échantillons sont déjà accessibles aux fins d’analyse;
Ils aident les Canadiens à tirer parti des progrès réalisés dans les domaines de la science et de la médecine.
Q2. Où puis-je obtenir de plus amples renseignements sur la Biobanque de Statistique Canada?
Vous trouverez de plus amples renseignements, tels que les descriptions des études autorisées de la Biobanque de Statistique Canada, sur la page Web de la biobanque : Biobanque du Statistique Canada
Q3. Où les échantillons sont-ils entreposés?
Tous les échantillons de sang, de gouttes de sang séché, d’urine et de salive sont entreposés sans aucun renseignement personnel au Laboratoire national de microbiologie de l’Agence de la santé publique du Canada à Winnipeg, au Manitoba. Ces installations hautement sécurisées respectent les normes internationales de sécurité s’appliquant aux laboratoires. Les échantillons y sont entreposés conformément aux exigences strictes de Statistique Canada en matière de confidentialité.
Q4. Pendant combien de temps conserverez-vous mes échantillons?
Les échantillons sont entreposés dans la Biobanque de Statistique Canada jusqu’à ce qu’ils ne soient plus scientifiquement viables. Ils sont retirés de la biobanque lors de leur utilisation pour un projet de recherche approuvé ou sur demande d’un répondant à l’enquête pour qu’ils soient retirés et détruits.
Q5. Qu’arrive-t-il à mon échantillon lorsqu’il n’a plus de valeur scientifique?
Tous les échantillons qui n’ont plus aucune valeur scientifique sont détruits au moyen de protocoles normalisés de destruction de déchets biologiques. Des directives canadiennes sont en place pour gérer certains types de déchet, par exemple, les directives pour la gestion des déchets biomédicaux au Canada du Conseil canadien des ministres de l’environnement, qui sont suivies par la plupart des provinces et des municipalités.
Q6. Mes échantillons se dégraderont-ils avec le temps? Oui, les échantillons se dégradent avec le temps. Certaines mesures d’échantillon se dégradent plus vite que d’autres. Les échantillons seront conservés uniquement s’ils ont un mérite scientifique. Les chercheurs qui présentent une demande pour utiliser ces échantillons tiendront compte de l’âge de l’échantillon et des mesures pour les analyser dans leurs laboratoires avant de choisir les bons échantillons pour leur analyse.Q7. Dans quelles circonstances les chercheurs auront-ils accès à mes échantillons?
Les échantillons sont à la disposition des chercheurs canadiens qui satisfont aux exigences d’admissibilité, telles qu’elles sont décrites dans la politique d’accès à la Biobanque de Statistique Canada, qui se trouve sur la page Web de la Biobanque de Statistique Canada. Aux fins de respect de la vie privée et de la confidentialité, les chercheurs accèdent aux données produites par l’intermédiaire des centres de données de recherche de Statistique Canada répartis au Canada.
Statistique Canada donnera aux chercheurs un accès restreint aux échantillons (exempts de tout renseignement personnel) pour réaliser des tests et des études uniquement dans les circonstances suivantes :
Les chercheurs doivent utiliser les échantillons pour effectuer des analyses scientifiques d’intérêt national.
Les chercheurs doivent respecter des directives strictes en matière de confidentialité.
Le projet de recherche doit recevoir une aide financière par l’entremise d’un processus d’examen scientifique établi tel que celui de trois organismes (en anglais seulement) (Conseil de recherches en sciences naturelles et en génie du Canada, Instituts de recherche en santé du Canada ou Conseil de recherches en sciences humaines du Canada) ou d’organismes fédéraux.
Le projet doit être approuvé par un comité d’éthique de la recherche.
Le sommaire du projet doit être affiché sur le site Web de Statistique Canada Projets Biobanque.
Q8. Les participants peuvent-ils retirer leur consentement concernant l’entreposage de leurs échantillons biologiques dans la Biobanque de Statistique Canada?
Le consentement peut être retiré à n’importe quel moment. Les participants peuvent demander que leurs échantillons soient retirés de l’entreposage et détruits en composant le 1-888-253-1087, ou en envoyant un courriel à statcan.biobankinfo-infobiobanque.statcan@statcan.gc.ca.
Q9. Si j’ai participé lorsque j’étais enfant, mes échantillons seront-ils toujours entreposés lorsque j’atteindrai l’âge adulte?
Oui, car le consentement a été donné lorsque les échantillons ont été recueillis. Cependant, les participants peuvent demander — en tout temps — que leurs échantillons biologiques soient retirés et détruits de l’entreposage en faisant parvenir une demande écrite à Statistique Canada ou en envoyant un courriel à statcan.biobankinfo-infobiobanque.statcan@statcan.gc.ca. Lorsque l’enfant aura 16 ans, Statistique Canada enverra un nouvel avis de consentement aux coordonnées fournies.
Q10. Quels types d’analyses sont effectuées sur les échantillons entreposés dans la Biobanque de Statistique Canada?
Les échantillons entreposés dans la Biobanque de Statistique Canada sont utilisés dans les études sur la santé. Les études sur la santé comprennent ce qui suit :
recherches se penchant sur les expositions antérieures à de nouveaux contaminants environnementaux;
nouvelles façons de surveiller la nutrition humaine;
prévalence antérieure de maladies infectieuses et découverte et validation de nouveaux biomarqueurs pour diagnostiquer les maladies;
recherche génétique pour évaluer l’état de santé et la susceptibilité des Canadiens aux maladies, aux infections ou aux expositions à des contaminants environnementaux.
Vous trouverez des renseignements sur les projets antérieurs et actuels de la biobanque sur le page Web de la Biobanque de Statistique Canada Projets Biobanque.
Q11. Mes échantillons seront-ils utilisés pour effectuer des tests génétiques?
Oui, il est possible que votre échantillon soit utilisé pour effectuer des tests génétiques. Les tests génétiques pourraient comprendre des études d’association de génomes, ou génotypage.
Deux projets de la biobanque ont utilisé de l’information génétique des échantillons de la biobanque pour coupler des données génétiques à des résultats sur l’état de santé. Le premier projet, réalisé par l’Agence de la santé publique du Canada, s’est penché sur la mesure dans laquelle les différences dans le code génétique entre les Canadiens pouvaient influencer la manière dont ces Canadiens absorbaient les nutriments. Le second projet, en cours à l’Université McGill, étudie comment les différences dans le code génétique influencent les résultats en matière de santé après une exposition à des contaminants environnementaux et des métaux.
Statistique Canada ne divulguera jamais votre génome au public. Statistique Canada, comme tout autre ministère fédéral agissant conformément à la Loi sur la protection des renseignements personnels du Canada, ne permettrait jamais que votre ADN soit utilisé de cette façon.
Il est possible de retirer un consentement pour certains tests génétiques, tout en conservant vos échantillons dans la Biobanque de Statistique Canada pour d’autres projets. Un participant peut retirer son consentement à tout moment en utilisant les coordonnées suivantes :Participants de la biobanque
Q12. Y a-t-il des fins auxquelles mon ADN ne sera PAS utilisé?
Oui. L’utilisation des échantillons d’ADN est strictement limitée aux projets et aux demandes qui obtiennent l’approbation du Comité d’éthique de la recherche, ainsi que l’examen de faisabilité de Statistique Canada et l’approbation du Comité consultatif de la biobanque. Votre ADN ne sera pas utilisé ou partagé aux fins suivantes :
clonage
action en justice ou toute autre poursuite;
à des fins d’appartenance ancestrale ou de généalogie;
compagnies d’assurance ou employeurs.
Q13. Les participants reçoivent-ils les résultats des études menées? Statistique Canada n’a aucune responsabilité de produire une déclaration obligatoire des résultats, comme de déclarer des maladies génétiques. Cependant, les participants peuvent obtenir une copie de leurs résultats sur demande. Les demandes peuvent être faites en composant le 1-888-253-1087 ou en envoyant un courriel à statcan.biobankinfo-infobiobanque.statcan@statcan.gc.ca.Q14. Comment protégez-vous les renseignements personnels et la confidentialité des participants?
Tous les renseignements dans la Biobanque de Statistique Canada sont protégés par la Loi sur la statistique. Les échantillons de gouttes de sang séché, de sang, d’urine, de salive et d’ADN sont traités comme toutes les autres données recueillies par Statistique Canada. Lorsque les échantillons sont recueillis, les tubes d’entreposage passent à travers un processus complet et rigide d’étiquetage. Seuls les employés autorisés de Statistique Canada peuvent avoir accès à ces échantillons et aux renseignements des participants. En vertu de la Loi sur la statistique, les échantillons et les données de la Biobanque de Statistique Canada demeureront toujours protégés et confidentiels. Par exemple, jamais Statistique Canada :
ne procédera à l’entreposage ou à l’analyse d’échantillons de participants si ceux-ci n’y ont pas consenti dans le formulaire de consentement;
ne transmettra de renseignements sur les échantillons des répondants à un organisme d’exécution de la loi;
ne transmettra de renseignements ou de résultats de tests des répondants à des compagnies d’assurance ou des employeurs;
ne permettra que des renseignements ou des données relatives à des participants soient utilisés dans le cadre d’une action en justice ou de toute autre poursuite judiciaire.
Note de la rédaction : Le contenu de cet article représente la position de l’auteur, mais pas nécessairement celle de Statistique Canada.
Introduction
À l'ère numérique, les organisations recueillent et stockent de grandes quantités de données sur leurs clients, leurs employés et leurs partenaires. Ces données contiennent souvent des renseignements identificatoires personnels (RIP). Avec la multiplication des violations de données et des cyberattaques, la protection des RIP est devenue une préoccupation majeure pour les entreprises et les organismes gouvernementaux. Par exemple, Statistique Canada mène chaque année des centaines d'enquêtes sur un large éventail de sujets et est tenu de protéger les renseignements fournis par les répondants.
Le Canada dispose de deux lois fédérales sur la protection des renseignements personnels qui sont appliquées par le Commissariat à la protection de la vie privée du Canada :
Loi sur la protection des renseignements personnels : elle régit la manière dont le gouvernement fédéral traite les renseignements personnels. Cette loi protège les renseignements personnels, définit comme des renseignements enregistrés qui concernent une « personne identifiable ».
Loi sur la protection des renseignements personnels et les documents électroniques: elle est la loi fédérale sur la protection des renseignements personnels qui s'applique aux organisations recueillant, utilisant ou divulguant des données personnelles dans le cadre d'activités commerciales. Cette loi exige des organisations qu'elles obtiennent le consentement des personnes concernées par la collecte, l'utilisation ou la divulgation de données personnelles et qu'elles protègent les données personnelles contre l'accès, l'utilisation ou la divulgation non autorisés.
Outre les lois susmentionnées, l'ensemble des organisations doivent également respecter le Règlement général sur la protection des données (RGPD). Ce règlement est le plus strict au monde en matière de protection de la vie privée et de sécurité. Bien qu'il ait été rédigé et adopté par l'Union européenne (UE), il impose des obligations aux organisations, peu importe leur emplacement, lorsqu'elles ciblent ou recueillent des données relatives à des personnes dans l'UE. Le RGPR prévoit de lourdes amendes pour les organisations qui ne respectent pas ses normes en matière de protection des renseignements personnels et de sécurité, les sanctions pouvant atteindre des dizaines de millions d'euros.
Dans le présent article, nous présentons en détail Microsoft Presidio et la façon dont cet outil aide les organisations au Canada à se conformer aux lois en matière de protection de la vie privée. Nous abordons d'abord les principales fonctionnalités et capacités de Microsoft Presidio, puis la façon dont il peut aider les organisations à respecter leurs obligations en vertu de ces lois.
Définitions
Avant d’aborder le reste de l’article, il est important de comprendre la différence entre les termes « anonymisation », « dépersonnalisation » et « pseudoanonymisation » qui ont été utilisés.
Anonymisation : L’anonymisation s’entend du processus consistant à retirer ou à masquer de façon irréversible les renseignements identificatoires contenus dans les données de manière à ce que les données initiales ne puissent être réidentifiées. L’objectif est de rendre impossible ou extrêmement difficile le lien entre les données et la personne qu’elles représentent. Les données anonymisées ne devraient pas contenir d’identificateurs directs ou indirects qui pourraient être utilisés pour identifier des personnes.
Dépersonnalisation : La dépersonnalisation consiste à retirer ou à modifier les RIP d’un ensemble de données afin d’empêcher l’identification des personnes. Contrairement à l’anonymisation, la dépersonnalisation n’exige pas nécessairement que les données deviennent complètement non identifiables. Elle vise plutôt à supprimer ou à modifier des identificateurs précis, comme les noms, les adresses, les numéros de sécurité sociale ou toute autre information qui pourraient être utilisés seuls ou en combinaison avec d’autres données pour identifier des personnes.
Pseudoanonymisation : La pseudoanonymisation est une technique qui consiste à remplacer les identificateurs directs par des pseudonymes ou des identificateurs uniques, dissociant ainsi les données des personnes qu’elles représentent. Contrairement à l’anonymisation, où les données originales sont modifiées pour empêcher la réidentification, la pseudoanonymisation conserve la capacité de réidentifier des personnes à l’aide de renseignements supplémentaires stockés séparément, comme une clé ou un tableau de recherche. La pseudoanonymisation est couramment utilisée dans les situations où les données doivent être couplées entre différents systèmes ou bases de données tout en protégeant la vie privée des personnes.
Qu'est-ce que les RIPs?
Les renseignements identificatoires personnels (RIP) désignent les données qui peuvent être utilisées pour identifier une personne. Il s'agit notamment de noms, d'adresses, de numéros de téléphone, de numéros d'assurance sociale, de renseignements financiers, de dossiers médicaux, entre autres. Les RIP sont des renseignements de nature très délicate qui doivent être protégés contre tout accès non autorisé, car ils pourraient être utilisés dans le cas de vol d'identité ou d'autres activités frauduleuses.
Selon l'utilisation directe ou indirecte d'un renseignement pour réidentifier une personne, voici deux catégories dans lesquelles les renseignements susmentionnés peuvent être classés4 :
Identificateurs directs : ensemble de variables propres à une personne (nom, adresse, numéro de téléphone, compte bancaire) qui pourraient être utilisées pour identifier directement cette personne.
Quasi-identificateurs : renseignements tels que le genre, la nationalité ou la ville de résidence qui, pris isolément, ne permettent pas la réidentification d'une personne, sauf s'ils sont combinés à d'autres quasi-identificateurs et à des connaissances sur ses antécédents.
Pourquoi la protection des RIP est-elle importante?
La protection des RIP est importante parce que toute personne a droit au respect de sa vie privée et doit avoir un contrôle sur la façon dont ses renseignements personnels sont recueillis, utilisés et divulgués. Les violations de données et le vol d'identité peuvent avoir des répercussions importantes pour les particuliers, y compris des pertes financières, une atteinte à leur réputation et une détresse émotionnelle. Par conséquent, il est primordial pour les organisations de prendre des mesures rigoureuses pour protéger les RIP.
Contexte
a) Anonymisation des données structurées
Il existe des modèles mathématiques établis de protection de la vie privée permettant d'anonymiser les données structurées. Il s'agit notamment des modèles suivants :
K-anonymat : un ensemble de données masquées est considéré comme k-anonyme si, dans l'ensemble de données, chaque renseignement contenu pour une personne se confond totalement à au moins k-1 autres personnes. Deux méthodes peuvent être utilisées pour parvenir au k-anonymat : la première est la suppression, qui consiste à supprimer complètement la valeur d'un attribut d'un ensemble de données. La seconde est la généralisation, qui consiste à remplacer une valeur précise d'un attribut par une valeur plus générale.
I-diversité : il s'agit d'une extension du k-anonymat. Si nous assemblons des séries de rangées dans un ensemble de données qui ont des quasi-identificateurs identiques, il y a au moins « l » valeurs distinctes pour chaque attribut de nature délicate. Nous pouvons alors dire que cet ensemble de données présente une l-diversité.
Confidentialité différentielle : ce modèle vise à garantir que le résultat d'un processus ou d'un algorithme reste à peu près le même, que les données d'une personne soient incluses ou non. Cela signifie qu'il est impossible de déterminer avec certitude si une personne en particulier est présente dans l'ensemble de données simplement en examinant le résultat d'une analyse différentielle de la confidentialité.
Il existe plusieurs autres techniques d'anonymisation qui peuvent être appliquées aux données structurées et non structurées. En voici quelques-unes :
Mélange des données : consiste à réorganiser de manière aléatoire les rangées ou les colonnes d'un ensemble de données afin de perturber les éventuelles corrélations entre les variables.
Perturbation des données : consiste à ajouter du bruit ou des erreurs aléatoires aux données afin de réduire le risque de réidentification. Parmi les techniques pouvant être utilisées, mentionnons l'ajout de bruit gaussien ou l'arrondissement des valeurs au multiple le plus proche d'un certain nombre.
Agrégation des données : consiste à agréger les données à un niveau plus élevé, par exemple au niveau de la ville ou de l'État, afin de protéger les données individuelles.
Suppression des données : consiste à supprimer complètement les renseignements de nature délicate de l'ensemble de données, par exemple en supprimant des colonnes ou des rangées précises, ou en remplaçant les valeurs de nature délicate par une valeur de paramètre fictif (p. ex. « ****** »).
Généralisation des données : consiste à remplacer des valeurs précises par des valeurs plus générales, comme remplacer une adresse municipale précise par la ville ou l'État seulement.
Brouillage des données : consiste à remplacer des renseignements de nature délicate par des données fausses ou trompeuses, par exemple en générant des noms aléatoires ou de fausses adresses.
Il est essentiel de comprendre qu'aucune technique d'anonymisation n'est totalement infaillible. Par conséquent, il est généralement nécessaire d'utiliser une combinaison de techniques pour protéger efficacement les données de nature délicate. Il est également fondamental d'évaluer et de mettre à jour de façon continue les techniques d'anonymisation dès l'apparition de nouveaux risques et de nouvelles techniques de réidentification.
b) Anonymisation des données non structurées
Le processus d'anonymisation des données non structurées, comme le texte ou les images, est une tâche plus difficile. Il consiste à détecter l'endroit où se trouvent les renseignements de nature délicate dans les données non structurées, puis de leur appliquer des techniques d'anonymisation. En raison de la nature des données non structurées, l'utilisation directe de modèles simples fondés sur des règles pourrait ne pas donner de très bons résultats.
C'est pourquoi le traitement du langage naturel (TLN) a été appliqué à l'anonymisation du texte. Plus précisément, la reconnaissance d'entités nommées (REN), qui est un type de tâche d'étiquetage de séquences, est utilisée pour indiquer si un jeton (comme un mot) correspond à une entité nommée, comme PERSONNE (PER), EMPLACEMENT, DATE/HEURE ou une ORGANISATION (ORG), comme l'indique l'image ci-dessous. O indique qu'aucune entité n'a été reconnue.
Cette image décrit le résultat obtenu après le passage d’une séquence de chaînes de caractères dans un outil de reconnaissance d’entités nommées (REN). La chaîne de caractères « John a acheté 30 actions d’Amazon en 2022 » représente les données d’entrée. Après avoir passé la séquence dans un modèle de REN, chaque mot est classé selon son entité correspondante. John est désigné comme la personne (PER), Amazon comme l’organisation (ORG), 2022 comme la date (DATE/HEURE) et le reste des données comme les autres renseignements.
Plusieurs modèles neuronaux ont permis d'atteindre des résultats ultra-performants dans les tâches de REN sur des ensembles de données contenant des entités nommées générales. Des résultats aussi performants sont également obtenus lorsque ces modèles sont entraînés sur des données du domaine médical contenant divers types de renseignements personnels. Ces architectures de modèles comprennent des réseaux neuronaux récurrents (RNR) avec intégration de caractères (en anglais seulement) ou des transformateurs bidirectionnels (BERT) (en anglais seulement).
SpaCy (en anglais seulement) utilise également un modèle de langage qui repose sur RoBERTa, mis au point sur l'ensemble de données Ontonotes comprenant 18 catégories d'entités nommées, comme PERSONNE, EGP (entité géopolitique), CARDINAL, EMPLACEMENT, etc.
Microsoft Presidio utilise une combinaison de méthodes de TLN fondées sur des règles pour rendre anonyme le contenu de nature délicate dont nous parlerons plus loin.
Microsoft Presidio
Pourquoi avons-nous besoin de Microsoft Presidio?
Lorsque nous appliquons l'anonymisation des RIP à des applications réelles, il peut y avoir différentes exigences opérationnelles qui rendent difficile l'utilisation directe de modèles préentraînés. Par exemple, le gouvernement du Canada reçoit plusieurs demandes au cours d'un processus annoncé, des demandes qui sont ensuite examinées. Avant le processus d'examen, les RIP doivent être épurés afin d'éviter toute fuite de renseignements personnels et toute partialité. Outre les entités de RIP courants, le gouvernement utilise également un code d'identification de dossier personnel (CIDP) pour chaque employé, modulus-11 check digit (en anglais seulement) [Source : SCT - Dictionnaire d'éléments d'information des titulaires]
Un modèle de REN préentraîné ne peut pas détecter ces entités spéciales. Pour obtenir de bons résultats, il est nécessaire de mettre au point le modèle à l'aide de données auxquelles des étiquettes sont ajoutées. C'est pourquoi il est nécessaire de disposer d'un outil qui puisse utiliser un modèle de REN préentraîné et qui soit facilement personnalisable et extensible.
Presidio (du latin praesidium qui signifie « ce qui protège, défend ») permet de s'assurer que les données de nature délicate sont correctement gérées et administrées. Il fournit des modules d'identification et d'anonymisation rapides pour les entités privées dans le texte et les images telles que les numéros de cartes de crédit, les noms, les emplacements, les numéros de sécurité sociale, les portefeuilles de bitcoins, les numéros de téléphone américains, les données financières et bien plus encore.
L'un des principaux avantages du cadre Presidio est sa capacité à évoluer. Il peut traiter de grands ensembles de données, ce qui le rend apte à être utilisé par des organisations disposant de grandes quantités de données. Il est également conçu pour être flexible et adaptable, ce qui permet aux organisations de personnaliser son utilisation pour répondre à leurs besoins précis.
Description - Image 2 : Flux de travail pour la détection des RIP dans Microsoft Presidio
L’animation montre le flux de détection de Presidio qui est utilisé pour détecter les RIP. Une entrée passe par Regex qui effectue une reconnaissance des formes, suivie d’un algorithme de REN pour détecter les entités, d’une somme de contrôle pour valider les formes, de mots contextuels pour augmenter la confiance dans la détection et de plusieurs techniques d’anonymisation. L’image montre la séquence d’entrée : « Salut, je m’appelle David et mon numéro est 212 555 1234 ». Après avoir traversé le flux de détection Presidio, le prénom David et le numéro 212 555 1234 sont perçus comme des RIP.
Objectifs
Présenter les technologies de dépersonnalisation aux organisations d'une manière conviviale afin de promouvoir le respect de la vie privée et la transparence dans la prise de décisions.
Rendre la technologie flexible et personnalisable pour répondre à des besoins opérationnels précis.
Soutenir la dépersonnalisation entièrement automatisée et semi-automatisée des RIP sur plusieurs plateformes.
Principales caractéristiques
Permet de reconnaître les RIP à l'aide de diverses méthodes comme la reconnaissance d'entités nommées, les expressions normales, la logique fondée sur des règles et la somme de contrôle ainsi que le contexte pertinent, dans plusieurs langues.
Permet de se connecter à des modèles externes de détection des RIP.
Offre différentes options d'utilisation, notamment les charges de travail Python ou PySpark, Docker et Kubernetes.
Permet la personnalisation de l'identification et de l'anonymisation des RIP.
Comprend un module pour épurer les RIP sous forme de texte dans les images.
Modules principaux de Presidio
a) Presidio Analyzer :
(i) Vue d'ensemble
Presidio Analyzer est un service qui repose sur Python pour détecter les entités des RIP dans le texte. Au cours de l'analyse, il exécute un ensemble de différents reconnaisseurs des RIP, chacun étant chargé de détecter une ou plusieurs entités de RIP à l'aide de mécanismes différents. Presidio Analyzer est livré avec un ensemble de reconnaisseurs prédéfinis, mais il peut facilement étendre sa portée à d'autres types de reconnaisseurs personnalisés. Les reconnaisseurs prédéfinis et personnalisés tirent avantage de la reconnaissance d'entités nommées, des expressions normales, de la logique fondée sur des règles et de la somme de contrôle ainsi que du contexte pertinent dans plusieurs langues pour détecter les RIP dans un texte non structuré, comme présenté dans le flux de travail pour la détection ci-dessous.
Image 3 : Presidio Analyzer pour la détection des RIP [Source : Presidio Analyzer (en anglais seulement)]
Description - Image 3 : Presidio Analyzer pour la détection des RIP
L’image montre comment Presidio Analyzer est utilisé pour détecter les RIP. Le texte d’entrée passe par plusieurs reconnaisseurs de RIP, dont le reconnaisseur intégré, le reconnaisseur personnalisé et les modèles personnalisés. Le reconnaisseur intégré comprend les expressions normales (Regex), la somme de contrôle, la REN et les mots contextuels. Une fois que l’entrée de texte est passée par tous les reconnaisseurs, les RIP sont détectés.
Presidio Analyzer peut être installé (en anglais seulement) au moyen de pip, d'une image de menu fixe ou peut être construit à partir de la source.
(iii) Exécution d'un analyseur de base
Une fois l'installation terminée, un analyseur de base peut être exécuté avec quelques lignes de code, comme présenté ci-dessous :
from presidio_analyzer import AnalyzerEngine
# Set up the engine, loads the NLP module (spaCy model by default) and other PII recognizers
analyzer = AnalyzerEngine()
# Call analyzer to get results
results = analyzer.analyze(text="Mr. John lives in Vancouver. His email id is john@sfu.ca", language='en')
print(results)
Par défaut, Presidio utilise le modèle en_core_web_lg de spaCy et peut détecter les entités suivantes : Entités prises en charge – Microsoft Presidio (en anglais seulement). Comme le montre le code ci-dessus, les entités PERSONNE, COURRIEL, EMPLACEMENT et URL ont été détectées. La portée de l'analyseur peut être étendue pour permettre la détection de nouvelles entités, comme nous le verrons plus loin.
(iv) Capacités de Presidio Analyzer
Permet la détection de nouvelles entités de RIP
Pour élargir les fonctions de détection de Presidio à de nouveaux types d'entités de RIP, des objets EntityRecognizer devraient être ajoutés à la liste actuelle des reconnaisseurs. Ces objets reposent sur Python et peuvent détecter une ou plusieurs entités dans un langage précis.
Le diagramme à catégories suivant montre les différents types de familles de reconnaisseurs compris dans Presidio :
Description - Image 4 : Diagramme à catégories pour les différents types de reconnaisseurs dans Presidio
L’image montre le diagramme à catégories pour les différents types de reconnaisseurs dans Presidio. EntityRecognizer est une catégorie abstraite pour tous les reconnaisseurs. RemoteRecognizer est une catégorie abstraite permettant de mobiliser des détecteurs de RIP externes. La catégorie abstraite LocalRecognizer est mise en œuvre par tous les reconnaisseurs fonctionnant au sein du processus de Presidio Analyzer. PatternRecognizer est une catégorie permettant de prendre en charge la logique de reconnaissance fondée sur les expressions normales (Regex) et les listes de rejet, y compris la validation (p. ex. avec la somme de contrôle) et la prise en charge contextuelle.
Dans le diagramme présenté ci-dessus :
EntityRecognizer est une catégorie abstraite pour tous les reconnaisseurs.
RemoteRecognizer est une catégorie abstraite permettant de mobiliser des détecteurs de RIP externes.
La catégorie abstraite LocalRecognizer est mise en œuvre par tous les reconnaisseurs fonctionnant au sein du processus de Presidio Analyzer.
La catégorie PatternRecognizer permet de prendre en charge la logique de reconnaissance fondée sur les expressions normales (Regex) et les listes de rejet, y compris la validation (p. ex. avec la somme de contrôle) et la prise en charge contextuelle.
Une façon simple d'étendre la portée de l'analyseur afin de détecter des entités de RIP supplémentaires peut se faire en deux étapes :
Créer une nouvelle catégorie selon EntityRecognizer.
Ajouter le nouveau reconnaisseur au registre correspondant pour qu'AnalyzerEngine puisse l'utiliser pendant l'analyse.
Exemple :
Pour les reconnaisseurs simples fondés sur des expressions normales ou des listes de rejet, nous pouvons tirer avantage de la catégorie PatternRecognizer fournie et mobiliser l'outil de reconnaissance comme le montre l'écran suivant :
from presidio_analyzer import PatternRecognizer
titles_recognizer = PatternRecognizer(supported_entity="TITLE", deny_list=["Mr.","Mrs.","Miss"])
titles_recognizer.analyze(text="Mr. John lives in Vancouver. His email id is john@sfu.ca", entities="TITLE")
[type: TITLE, start: 0, end: 3, score: 1.0]
Ensuite, nous pouvons l'ajouter à la liste des reconnaisseurs pour la détection d'autres entités de RIP :
from presidio_analyzer import AnalyzerEngine, RecognizerRegistry
registry = RecognizerRegistry()
registry.load_predefined_recognizers()
# Add the recognizer to the existing list of recognizers
registry.add_recognizer(titles_recognizer)
# Set up analyzer with our updated recognizer registry
analyzer = AnalyzerEngine(registry=registry)
# Run with input text
text="Mr. John lives in Vancouver. His email id is john@sfu.ca"
results = analyzer.analyze(text=text, language="en")
results
Pour des catégories EntityRecognizer plus complexes, comme la détection de CIDP pour le gouvernement du Canada, le reconnaisseur peut être créé dans le code en suivant les étapes suivantes :
Créer une nouvelle catégorie Python qui met en œuvre la catégorie LocalRecognizer (en anglais seulement) (LocalRecognizer met en œuvre la catégorie de base EntityRecognizer (en anglais seulement)). Cette catégorie comprend les fonctions suivantes :
charger : charger un modèle ou une ressource à utiliser lors de la reconnaissance
analyser : fonction principale à lancer pour extraire des entités du nouveau reconnaisseur.
L'ajouter au registre de reconnaisseur en utilisant registry.add_recognizer(my_recognizer). Pour obtenir plus d'exemples, consultez la section concernant la personnalisation de Presidio Analyzer (en anglais seulement) dans le bloc-notes Jupyter.
Il existe plusieurs autres façons de créer un reconnaisseur personnalisé dans Presidio, notamment :
Création d'un reconnaisseur à distance : Utilisation d'un reconnaisseur à distance, qui interagit avec un service externe pour la détection des RIP. Il peut s'agir d'un service tiers ou d'un service personnalisé fonctionnant parallèlement à Presidio.
Création de reconnaisseurs ponctuels : Création de reconnaisseurs ponctuels à l'aide de l'interface de programmation d'applications (API) de Presidio Analyzer. Ces reconnaisseurs, au format JSON, peuvent être ajoutés à la requête /analyse et ne sont utilisés que pour cette requête précise.
Lecture de reconnaisseurs de formes à partir de fichiers YAML : Lecture de reconnaisseurs de formes à partir de fichiers YAML, ce qui permet aux utilisateurs d'ajouter une logique de reconnaissance sans écrire de code. Vous trouverez un exemple de fichier YAML ici: Example Recognizers (en anglais seulement). Une fois le fichier YAML créé, il peut être chargé dans RecognizerRegistry.
2. Prise en charge multilingue
Presidio peut détecter les RIP dans plusieurs langues à l'aide de ses reconnaisseurs et modèles intégrés. Par défaut, il comprend des reconnaisseurs et des modèles en anglais. Toutefois, ces reconnaisseurs dépendent de la langue, soit par leur logique, soit par les mots contextuels utilisés pour rechercher des entités.
Pour améliorer les résultats pour des langues précises, il est possible de mettre à jour les mots contextuels des reconnaisseurs existants ou d'ajouter de nouveaux reconnaisseurs qui prennent en charge des langues supplémentaires. Chaque reconnaisseur ne peut prendre en charge qu'une seule langue. Il est donc nécessaire d'ajouter de nouveaux reconnaisseurs pour des langues supplémentaires.
3. Personnalisation des modèles de TLN
Comme indiqué précédemment, Presidio Analyzer utilise par défaut le modèle fr_core_web_lg de spaCy (en anglais seulement), mais il peut facilement être personnalisé en tirant avantage d'autres modèles de TLN, qu'ils soient publics ou exclusifs. Presidio utilise des moteurs de TLN pour deux tâches principales : la détection des RIP fondée sur la REN et l'extraction de fonctionnalités pour une logique selon des règles personnalisées (comme tirer parti des mots contextuels pour améliorer la détection). Ces modèles peuvent être entraînés ou téléchargés à partir de structures de TLN existantes comme spaCy (en anglais seulement), Stanza (en anglais seulement) et Transformers (en anglais seulement).
La configuration du nouveau modèle peut se faire de deux manières :
par code : en créant un NlpEngine à l'aide de la catégorie NlpEnginerProvider et en le transmettant à AnalyzerEngine en tant qu'entrée.
par configuration : en établissant les modèles à utiliser dans le fichier conf par défaut (en anglais seulement). Ce dernier est lu lors de l'initialisation par défaut d'AnalyzerEngine. Le chemin d'accès à un fichier de configuration personnalisé peut également être transmis à NlpEngineProvider.
Outre les capacités intégrées de spaCy, Stanza ou Transformers, il est possible de créer de nouveaux reconnaisseurs qui servent d'interfaces avec d'autres modèles (p. ex. flair).
b) Presidio Anonymizer :
Presidio Anonymizer est également un service en Python. Il anonymise les entités de RIP détectées avec les valeurs souhaitées en appliquant certains opérateurs comme « remplacer », « masquer » et « épurer ». Par défaut, il remplace les RIP détectés par leur type d'entité, comme <COURRIEL> ou <NUMÉRO_TÉLÉPHONE>, directement dans le texte. Mais il est possible de le personnaliser, en prévoyant une logique d'anonymisation différente pour les différents types d'entités.
L'ensemble Presidio Anonymizer contient à la fois des anonymiseurs et des désanonymiseurs.
Les anonymiseurs sont utilisés pour remplacer le texte d'une entité de RIP par une autre valeur en appliquant un opérateur donné. Les différents opérateurs intégrés sont les suivants :
remplacer : remplace les RIP par la valeur souhaitée
épurer : supprime complètement les RIP du texte
sectionner : sectionne le texte des RIP (peut être sha256, sha512 ou md5).
masquer : remplace les RIP par un caractère donné
crypter : chiffre les RIP à l'aide d'une clé cryptographique donnée
personnaliser :remplace les RIP par le résultat de la fonction exécutée sur les RIP
Image 5 : Flux de travail de l'anonymiseur des RIP [Source : Presidio Anonymizer (en anglais seulement)]
Description - Image 5 : Flux de travail de l’anonymiseur des RIP
L'image présente la fonction de Presidio Anonymizer. La partie gauche montre le texte et les RIP détectés qui sont transmis à l'anonymiseur intégré et à l'anonymiseur personnalisé. L'anonymiseur intégré se compose d'opérateurs comme « épurer », « sectionner » et « remplacer ». Après avoir fait passer le texte et les RIP détectés dans l'anonymiseur de RIP, le texte anonymisé est rendu.
Exemple :
frompresidio_anonymizer import AnonymizerEngine
from presidio_anonymizer.entities import RecognizerResult, OperatorConfig
# Initialize the engine:
engine = AnonymizerEngine()
# Invoke the anonymize function with the text,
# analyzer results (potentially coming from presidio-analyzer) and
# Operators to get the anonymization output:
result = engine.anonymize(
text="Mr. John lives in Vancouver. His email id is john@sfu.ca",
analyzer_results= results
)
results
Presidio permet également à l'extension de Presidio Anonymizer de prendre en charge des opérateurs supplémentaires.
Les désanonymiseurs sont utilisés pour annuler l'opération d'anonymisation (p. ex. pour déchiffrer un texte chiffré).
Comme le texte d'entrée peut potentiellement contenir des entités de RIP qui se chevauchent, différents scénarios d'anonymisation sont possibles :
Pas de chevauchement (RIP uniques) : Lorsqu'il n'y a pas de chevauchement dans l'étendue des entités, Presidio Anonymizer utilise un opérateur d'anonymisation donné ou par défaut pour anonymiser et remplacer l'entité textuelle des RIP.
Chevauchement total de l'étendue des entités des RIP: Lorsque les sous-chaînes des entités se chevauchent, ce sont les RIP dont la note est la plus élevée qui sont retenues. Entre les RIP qui ont des notes semblables, la sélection est arbitraire.
Un RIP est contenu dans un autre : Presidio Anonymizer utilisera le RIP dont le texte est le plus grand, même si sa note est inférieure.
Intersection partielle : Presidio Anonymizer rendra anonyme chaque texte individuellement et remettra une concaténation du texte anonymisé. Pour commencer, installez Presidio comme l'indiquent les instructions présentées ici : Installing Presidio (en anglais seulement)
Conclusion
En conclusion, Microsoft Presidio est un outil précieux pour détecter les renseignements identificatoires personnels (RIP) dans les données textuelles. Sa conception flexible permet aux utilisateurs de créer des reconnaisseurs et des modèles personnalisés pour répondre à des cas d'utilisation précis, et sa prise en charge multilingue assure une détection efficace des RIP dans un large éventail de scénarios. En outre, la possibilité d'utiliser des services externes, des reconnaisseurs ponctuels et des reconnaisseurs de formes à partir de fichiers YAML permet aux utilisateurs d'intégrer facilement de nouvelles capacités de détection. Dans l'ensemble, les capacités de détection complètes des RIP de Presidio, ainsi que ses options de personnalisation, en font un atout pour les organisations qui cherchent à protéger des données de nature délicate.
Rencontre avec le scientifique des données
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Pierre Lison, Ildikó Pilán, David Sánchez, Montserrat Batet et Lilja Øvrelid. 2021. « Anonymisation Models for Text Data : State of the Art, Challenges and Future Directions (en anglais seulement) », Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.