Archivé – Une capsule statistique de Statistique Canada – Immigration et diversité
Numéro de catalogue : Numéro de catalogue : 11-629-x
Numéro d'exemplaire : 2015032
Juin 2015
- Date de modification :
Numéro de catalogue : Numéro de catalogue : 11-629-x
Numéro d'exemplaire : 2015032
Juin 2015
Numéro de catalogue : Numéro de catalogue : 11-629-x
Numéro d'exemplaire : 2015031
Juin 2015
Numéro de catalogue : Numéro de catalogue : 11-629-x
Numéro d'exemplaire : 2015001
Les Principes fondamentaux de la statistique officielle ont été adoptés par la Commission de statistique des Nations Unies à sa session extraordinaire, tenue du 11 au 15 avril 1994.
Principe 1 - La statistique officielle constitue un élément indispensable du système d'information d'une société démocratique, fournissant aux administrations publiques, au secteur économique et au public des données concernant la situation économique, démographique et sociale et la situation de l'environnement. À cette fin, des organismes responsables de la statistique officielle doivent établir les statistiques officielles selon un critère d'utilisation pratique et les rendre disponibles, en toute impartialité, en vue de rendre effectif le droit d'accès des citoyens à l'information publique.
Principe 2 - Pour que se maintienne la confiance dans l'information statistique officielle, les organismes responsables de la statistique doivent déterminer, en fonction de considérations purement professionnelles, notamment de principes scientifiques et de règles déontologiques, les méthodes et les procédures de collecte, de traitement, de stockage et de présentation des données statistiques.
Principe 3 - Pour faciliter une interprétation correcte des données, les organismes responsables de la statistique doivent fournir, en fonction de normes scientifiques, des informations sur les sources, les méthodes et les procédures qu'ils utilisent.
Principe 4 - Les organismes responsables de la statistique ont le droit de faire des observations sur les interprétations erronées et les usages abusifs des statistiques.
Principe 5 - Les données utilisées à des fins statistiques peuvent être tirées de toutes sortes de sources, qu'il s'agisse d'enquêtes statistiques ou de fichiers administratifs. Les organismes responsables de la statistique doivent choisir leur source en tenant compte de la qualité des données qu'elle peut fournir, de leur actualité, des coûts et de la charge qui pèse sur les répondants.
Principe 6 - Les données individuelles collectées pour l'établissement des statistiques par les organismes qui en ont la responsabilité, qu'elles concernent des personnes physiques ou des personnes morales, doivent être strictement confidentielles et ne doivent être utilisées qu'à des fins statistiques.
Principe 7 - Les textes législatifs et réglementaires et toutes dispositions régissant le fonctionnement des systèmes statistiques doivent être portés à la connaissance du public.
Principe 8 - À l'intérieur de chaque pays, il est essentiel que les activités des différents organismes responsables de la statistique soient coordonnées pour assurer la cohérence et l'efficacité du système statistique.
Principe 9 - L'utilisation par les organismes responsables de la statistique de chaque pays des concepts, classifications et méthodes définis à l'échelon international favorise la cohérence et l'efficacité des systèmes statistiques à tous les niveaux officiels.
Principe 10 - La coopération bilatérale et multilatérale dans le domaine de la statistique contribue à l'amélioration des systèmes d'élaboration des statistiques officielles dans tous les pays.
Numéro de catalogue : 21260002
Numéro d'exemplaire : 2021001
La Base de données ouvertes sur les installations récréatives et sportives (BDOIRS) est une collection de données ouvertes comprenant le nom, le type et l'emplacement des installations récréatives et sportives à travers le Canada. Elle est publiée en vertu de la Licence du gouvernement ouvert – Canada.
La BDOIRS compile des données ouvertes, des données accessibles au public et des données fournies directement sur les installations récréatives et sportives au Canada. Les sources de données comprennent les gouvernements provinciaux, territoriaux et municipaux.
Cette base de données vise à fournir un meilleur accès à une liste harmonisée des installations récréatives et sportives à travers le Canada, en les rendant disponibles en tant que données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).
Les données d'entrée de la BDOIRS sont des ensembles de données dont les sources incluent les gouvernements provinciaux, territoriaux et municipaux. Ces ensembles de données étaient disponibles soit en vertu de l'un des divers types de licences de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Les détails des sources utilisées sont disponibles dans un tableau « Sources de données » situé dans le dossier compressé téléchargeable de la BDOIRS.
Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOIRS harmonise le type d'installation en attribuant dix-huit types à chaque installation. Ce processus a été mis en œuvre sur la base du type d'installation fourni par la source de données, ainsi qu'en utilisant d'autres recherches menées à cette fin.
La BDOIRS utilise les dix-huit types d'installations suivants :
La BDOIRS ne prétend pas avoir une couverture exhaustive et peut ne pas contenir toutes les installations dans le champs d’application de la version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'installation et de géolocalisation des installations sont également possibles. Bien que toutes les données soient publiées à la même date, les dates à partir desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.
Un sous-ensemble de coordonnées géographiques disponibles des sources a été validé en utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, un géocodage a été effectué pour certaines sources en utilisant les données de l’adresse de la source.
Une déduplication a été effectuée pour supprimer les doublons dans les cas où les sources se chevauchaient.
La version actuelle de la base de données (version 1.0) contient environ 182 000 enregistrements. Les données ont été recueillies à partir des sources entre 2020 et 2021.
Les variables incluses dans la BDOIRS sont les suivantes :
Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOIRS.
Pour faciliter son téléchargement, la BDOIRS est fourni sous forme de fichier CSV compressé.
Le contenu de la BDOIRS peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.
Combinaison sécurisée de données provenant de plusieurs sources tout en préservant la confidentialité
par Betty Ann Bryanton, Agence du revenu du Canada
La prédominance croissante de technologies comme le nuage, l'informatique mobile, l'apprentissage automatique et l'Internet des objets crée des possibilités d'innovation et d'échange de renseignements, mais également des défis pour la sécurité et la confidentialité des données. Ces défis ont été amplifiés pendant la pandémie mondiale; le télétravail a accéléré l'adoption des services hybrides et infonuagiques. Cette situation a mis à rude épreuve les capacités de sécurité existantes et a révélé des lacunes dans la sécurité des données (Lowans, 2020). Pendant ce temps, les lois sur la protection des données à l'échelle mondiale ont évolué, et chaque organisation qui traite des données personnelles est exposée à des niveaux de risque en matière de confidentialité et d'inobservation plus élevés que jamais auparavant (Wonham, Fritsch, Xu, de Boer, & Krikken, 2020).
Par conséquent, les techniques de calcul améliorées sur le plan de la confidentialité, qui protègent les données pendant leur utilisationNotes de bas de page1, ont gagné en popularité.
Le calcul multiparties sécurisé est une technique qui permet de combiner des renseignements provenant de différentes zones de confidentialité pour obtenir des renseignements sur les données combinées sans avoir à révéler les données brutes aux parties concernées. Il a évolué d'une curiosité théorique établie par le problème des millionnairesNotes de bas de page2 d'Andrew Yao dans les années 1980 à un outil important pour la création d'applications de préservation de la confidentialité à grande échelleNotes de bas de page3.
Pour illustrer le concept, Bob et Alice veulent savoir s'ils touchent la même paye, mais ne veulent pas poser cette question délicate. Ils achètent quatre boîtes à suggestions verrouillables, chacune portant une étiquette sur laquelle figure un taux horaire : 10 $, 20 $, 30 $ et 40 $. Bob gagne 20 $ l'heure, alors il n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 20 ». Alice gagne 30 $ l'heure, alors elle n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 30 ». Bob et Alice mettent tous les deux un bout de papier indiquant « oui » ou « non » dans chaque boîte sans que l'autre le voie. Par exemple, Alice met un bout de papier indiquant « non » dans les boîtes portant les étiquettes « 10 », « 20 » et « 40 », et un bout de papier indiquant « oui » dans la boîte portant l'étiquette « 30 » parce qu'elle gagne 30 $ l'heure. Bob déverrouille la boîte portant l'étiquette « 20 » et apprend qu'Alice ne gagne pas 20 $ l'heure, mais il ne sait toujours pas si son taux horaire est de 10 $, de 30 $ ou de 40 $. Alice déverrouille la boîte portant l'étiquette « 30 » et apprend que Bob ne gagne pas 30 $ l'heure, mais elle ne sait toujours pas si son taux horaire est de 10 $, de 20 $ ou de 40 $. - C'est ce que l'on appelle un « transfert inconscient ». La capacité d'effectuer des transferts inconscients est la base de l'exécution du calcul multiparties sécuriséNotes de bas de page4.
Le calcul multiparties sécurisé est une méthode d'informatique distribuée et de cryptographieNotes de bas de page5 qui combine la transformation des données (chiffrement) avec un logiciel spécialisé. Il permet à plusieurs parties qui ne se font pas confiance, ou à un tiers commun, de travailler conjointement avec des données qui dépendent de tous leurs intrants privés tout en gardant ces données chiffrées. Les participants ne connaissent que les résultats de la collaboration et non les données précises fournies par les autres. Cela permet une collaboration entre des partenaires de confiance ou même entre des concurrents.
On présume souvent que le calcul multiparties sécurisé exige la participation de plusieurs organisations; toutefois, l'exigence précise concerne plusieurs zones de confidentialité, c'est-à-dire deux domaines ou plus ayant des ensembles de restrictions de confidentialité différents. Plusieurs zones de confidentialité existent entre plusieurs organisations ayant des propriétaires de données indépendants, mais elles peuvent aussi exister au sein d'une seule organisation entre des équipes, des services ou des administrations.
On se fie à ce que les parties respectent le protocole. Si une partie n'est pas digne de confiance, des mesures supplémentaires, qui ne s'inscrivent pas dans la portée du présent document, doivent être prises pour prévenir les tentatives d'atteinte malveillantes ou cachées.
Selon le directeur du renseignement national des États-Unis, la cybersécurité dans les secteurs public et privé des États-Unis est continuellement à risque, et on doit s'attendre à une augmentation des attaques. Les organisations qui possèdent beaucoup de données et d'actifs de propriété intellectuelle sont des cibles de choix. Les attaquants ciblent souvent ces données « joyaux de la couronne »Notes de bas de page6 en raison de leur valeur et de leur potentiel de perturbation (Enveil).
Les organisations sont de plus en plus préoccupées par la sécurité des données dans plusieurs scénarios, notamment :
Le calcul multiparties sécurisé permet de répondre à ces préoccupations et de les atténuer en permettant aux organisations de fournir des renseignements sur les données réparties de façon conforme, sécurisée et confidentielle sans jamais les exposer ou les déplacer.
Cela est important parce que la nature de plus en plus distribuée des données sur les clients signifie que de nombreuses organisations ne génèrent pas par elles-mêmes les niveaux de données nécessaires pour obtenir les renseignements impartiaux requis pour fournir de nouvelles expériences, ouvrir de nouvelles sources de revenus et appliquer de nouveaux modèles opérationnels. Le calcul multiparties sécurisé permet une collaboration sécurisée qui offre des avantages mutuels à toutes les parties, tout en préservant la vie privée et la confidentialité.
Bien qu'il soit encore nouveau et qu'il présente des défis, le calcul multiparties sécurisé est sur le point de perturber considérablement le domaine de l'échange de données d'entreprise et d'offrir des solutions efficaces d'échange de données entre des propriétaires de données méfiants. Vous trouverez ci-dessous des déploiements réussis notablesNotes de bas de page7.
Le calcul multiparties sécurisé est très populaire pour les cas d'utilisation où des organisations doivent échanger des données avec plusieurs parties ou analyser des données provenant de plusieurs parties sans divulguer leurs données ou leur modèle d'analyse aux autres parties.
Cette liste illustre la portée et l'ampleur des applications du calcul multiparties sécurisé.
La conscience que les données personnelles peuvent être compromises dans une atteinte à la protection des données ou peuvent être utilisées de façon malveillante par des entreprises dont les intérêts ne cadrent pas avec ceux de leurs utilisateurs augmente. De nouveaux règlements font de la détention de données personnelles un risque de responsabilité pour les entreprises. Le calcul multiparties sécurisé est devenu une technique puissante et polyvalente pour obtenir des renseignements sur l'échange de données sans jamais les exposer directement.
Bien qu'il n'y ait pas de produit ou de technique unique qui puisse satisfaire à toutes les exigences relatives à la sécurité des données, le calcul multiparties sécurisé peut être utilisé comme une défense avec d'autres mesures de protection des données, comme le masquage des données, et d'autres techniques de préservation de la confidentialité, comme la confidentialité différentielle et le chiffrement homomorphique.
Gartner s'attend à ce que le calcul multiparties sécurisé soit transformationnel au cours des cinq à dix prochaines années (Lowans, 2020). Pour être prête, compte tenu de la quantité de données privées qu'elle détient et de la pression exercée pour que ces données soient protégées, une organisation devrait continuer de faire des recherches sur le calcul multiparties sécurisé et d'autres techniques de protection des données et de préservation de la confidentialité.
Sujets connexes : Anonymisation des données, confidentialité différentielle, chiffrement homomorphique, environnements d'exécution fiables/informatique confidentielle, apprentissage fédéré
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!
MS Teams – le lien sera fourni aux participants par courriel
Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.
Protection fondée sur le matériel informatique relativement aux données en cours d'utilisation qui peuvent être appliquées n'importe où
par Betty Ann Bryanton, Agence du revenu du Canada
La popularité croissante des appareils connectés et la prévalence des technologies, comme l'infonuagique, l'informatique mobile et l'Internet des objets (IdO), ont mis à rude épreuve les capacités de sécurité existantes et exposé des « lacunes dans la sécurité des données » (Lowans, 2020). Les organisations qui traitent des renseignements identificatoires personnels (RIP) doivent « atténuer les menaces qui ciblent la confidentialité et l'intégrité de l'application ou des données dans la mémoire système » (Confidential Computing Consortium, 2021).
Par conséquent, Gartner prédit que « d'ici 2025, 50 % des grandes organisations adopteront l'informatique d'amélioration de la confidentialité pour le traitement des données dans des environnements non fiables et des cas d'utilisation de l'analyse multipartite de données »Notes de bas de page1Notes de bas de page2 (Gartner, 2020). Parmi les nombreuses techniques d'informatique d'amélioration de la confidentialité, l'environnement d'exécution de confiance est la seule technique qui s'appuie sur le matériel informatique pour atteindre son objectif d'amélioration de la confidentialité.
Un environnement d'exécution de confiance (EEC), également appelé enclave sécurisée, est un environnement construit avec des modules matériels spéciaux qui permet d'avoir une zone sécurisée à l'intérieur de l'appareil. Cet environnement isolé fonctionne en parallèle avec le système d'exploitation (OS). L'information est transmise dans l'EEC et le calcul est effectué à même l'EEC (« monde sécurisé ») et demeurent ainsi protégées du reste du système non fiable (« monde normal »). Ces environnements sécurisés et isolés protègent la confidentialité et l'intégrité du contenu, empêchant ainsiNotes de bas de page3 l'accès non autorisé ou la modification des applications et des données lors de leur utilisation.
Le terme « informatique confidentielle » est souvent utilisé comme synonyme d'EEC; les termes sont liés, mais distincts. Conformément au Confidential Computing Consortium, l'informatique confidentielle estNotes de bas de page4activée par l'EEC. De plus, l'informatique confidentielle fournie par l'EEC fondé sur le matériel informatique est indépendante de l'emplacement topographique (aucune mention de nuage informatique, de l'appareil d'un utilisateur, etc.), des processeurs (un processeur normal ou un processeur séparé) ou des techniques d'isolation (p. ex. si le chiffrement est utilisé).
« La sécurité n'est aussi forte que les couches inférieures, car la sécurité de toute couche de la pile informatique pourrait potentiellement être contournée par une atteinte à la sécurité d'une couche sous-jacente » (Confidential Computing Consortium, 2021). En déplaçant la sécurité au plus bas niveau de silicium, cela réduit la possibilité de compromission, car elle minimise les dépendances qui sont plus hautes dans la pile informatique (p. ex. le système d'exploitation, les périphériques et les administrateurs et fournisseurs).
L'utilisation d'un EEC permet de fournir une immense gamme de fonctionnalités à l'utilisateur, tout en répondant aux exigences en matière de protection des renseignements personnels et de confidentialité, sans exposer les données à des risques lorsqu'elles sont déchiffrées durant le traitement. Cela permet aux utilisateurs de protéger la propriété intellectuelle et de s'assurer que les RIP sont inaccessibles. Cela assure une protection contre les menaces internes, les attaquants qui exécutent du code malveillant ou les fournisseurs de services infonuagiques inconnus. Ainsi, les EEC représentent une couche cruciale dans une approche de sécurité en couches (c'est-à-dire une défense en profondeur) et ils « ont le potentiel de renforcer considérablement la sécurité des systèmes » (Lindell, 2020).
Un EEC « peut être appliqué n'importe où, y compris sur les serveurs infonuagiques publics, les serveurs hébergés sur place, les passerelles, les appareils de l'IdO, les déploiements informatiques de pointeNotes de bas de page5, les appareils d'utilisateurs, etc. » (Confidential Computing Consortium, 2021).
Les EEC sont fournis par des solutions numériques comme la solution Intel® Software Guard eXtensions (SGX) ou Arm TrustZone; par l'entremise de trousses de développement logiciel de fournisseurs de matériel informatique; ou au moyen de couches d'abstraction (p. ex. Google Asylo) qui éliminent la nécessité de coder explicitement pour un EEC.
De nombreux fournisseurs de services infonuagiques (p. ex. Alibaba, Microsoft, IBM et Oracle) fournissent désormais des capacités d'EEC comme service spécialisé de bas niveau conforme à leurs offres d'informatique. Cependant, en raison de l'absence d'uniformisation, les particularités proposées par les fournisseurs de services infonuagiques devraient être examinées attentivement pour assurer qu'elles respectent les exigences souhaitées de l'organisation en matière de confidentialité et de sécurité (Fritsch, Bartley et Ni, 2020).
Bien que la protection des données de nature délicate présente d'importants défis en matière d'architecture, de gouvernance et de technologie, l'utilisation d'un EEC peut offrir un point de départ pour d'autres moyens afin d'améliorer la sécurité à partir du niveau le plus bas.
Cependant, un EEC n'est pas une solution prête à l'emploi, il s'agit d'un mécanisme qui comprend des difficultés techniques qui « devrait être réservé aux cas d'utilisation les plus à risque » (Lowans, 2020). Néanmoins, « il est certainement plus difficile de voler des secrets depuis l'intérieur [d'un EEC sécurisé que dans le « monde normal » non sécurisé]. Cela complique le travail de l'attaquant, ce qui est toujours une bonne chose » (Lindell, 2020).
Chiffrement homomorphe, Informatique multipartite sécurisée, confidentialité différentielle, anonymisation des données, module de plate-forme de confiance.
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!
MS Teams – le lien sera fourni aux participants par courriel
Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.
Par : Bridget Duquette, Statistique Canada
Cet été, le 64e Congrès mondial de la statistique (CMS) (en anglais seulement) de l’Institut international de statistique (IIS) (en anglais seulement) aura lieu à Ottawa du 16 au 20 juillet, au Centre Shaw. Le CMS proposera une variété de discussions d’experts, de présentations et d’activités sociales, ainsi que des possibilités de réseautage et de recrutement. Il s’agit d’une occasion unique de collaboration et de partage des connaissances entre des scientifiques des données, des statisticiens et des méthodologistes de partout dans le monde.
Organisé tous les deux ans depuis 1887, le CMS réunit des statisticiens, des représentants du milieu universitaire et des chefs d’entreprise, en plus de contribuer à façonner le paysage de la statistique et de la science des données à l’échelle mondiale. Le Canada n’a accueilli ce prestigieux événement qu’une seule fois auparavant, en 1963, aussi à Ottawa.
La tradition veut que le pays hôte du CMS organise des activités sociales pour les participants. Cette année, on proposera aux invités internationaux une visite de certains lieux situés au cœur du centre-ville d’Ottawa, guidée par Eric Rancourt, statisticien en chef adjoint, et Claude Girard, méthodologiste principal à Statistique Canada.
Il est possible de jeter un coup d’œil au programme du congrès (en anglais seulement) . Celui-ci fournit des renseignements sur les présentations, lesquelles porteront sur un grand éventail de sujets d’intérêt pour les scientifiques des données. Cette année, le conférencier principal sera l’ancien directeur du Census Bureau des États-Unis, l’illustre professeur Robert M. Groves.
Photo 1 : Le Centre Shaw d’Ottawa.
Kenza Sallier, méthodologiste principale à Statistique Canada et coauteure du récent article intitulé Tirer le maximum de la synthèse de données grâce au guide d’utilisation des données synthétiques pour les statistiques officielles est heureuse de participer une fois de plus au congrès — et pour la première fois en présentiel.
« J’ai assisté au CMS en 2021, au beau milieu de la pandémie (et de la collecte des données du recensement), confie-t-elle. J’ai eu la chance incroyable de présenter les réalisations de Statistique Canada dans le domaine de la synthèse des données et d’être invitée à participer à une réunion d’experts pour partager mon expérience en tant que jeune femme statisticienne dans le monde de la statistique officielle. Même si l’événement était virtuel, il m’a permis de rencontrer un grand nombre de personnes intéressantes et de tisser des liens avec elles. J’ai hâte de participer au CMS de 2023, qui aura lieu en personne. Je présenterai, aux côtés de mon collègue Craig Hilborn, les travaux que nous avons réalisés ensemble et j’espère recevoir les commentaires de nos pairs. »
Shirin Roshanafshar, chef de l’analyse des textes et de la numérisation à Statistique Canada, participera également au congrès et prendra la parole durant la séance sur les défis liés aux techniques de traitement du langage naturel en matière de statistiques officielles.
Pour tous les participants, qu’ils y assistent pour la première fois ou pour la cinquième, le CMS de 2023 promet d’être une expérience inoubliable. « Le congrès encourage la collaboration, la croissance, la découverte et l’avancement dans le domaine de la science des données, dit Stephen Penneck, président de l’IIS. Je suis ravi que le 64e Congrès mondial de la statistique ait lieu au Canada et il me tarde de constater l’incidence qu’il aura sur l’industrie ».
Restez à l’affût pour un compte-rendu de cet événement mondial et des avancées qui en découleront.
Preuve à divulgation nulle de connaissance – Prouver quelque chose sans divulguer de renseignements
Par : Betty Ann Bryanton, Agence du revenu du Canada
D'énormes quantités de données sont recueillies par les organismes gouvernementaux, les moteurs de recherche, les systèmes de réseautage social, les hôpitaux, les institutions financières et d'autres organisations. Ces données, stockées de façon centralisée, entraînent un risque d'atteinte à la sécurité. De plus, les personnes naviguent sur Internet, acceptent les témoins de connexion et partagent des renseignements identificatoires personnels (RIP) en échange de services, d'avantages, de recommandations, etc. Pour faciliter le commerce électronique et les services d'accès, les personnes doivent s'authentifier, ce qui signifie de fournir des « preuves » pour indiquer qu'elles sont bien la personne qu'elles disent être. Cela peut signifier de fournir un mot de passe, un numéro de permis de conduire, un numéro de passeport ou un autre identificateur personnel. Ces données pourraient être volées, et leur partage pourrait compromettre les RIP connexes, comme l'âge et l'adresse du domicile. Des preuves à divulgation nulle de connaissance peuvent aider dans ces scénarios.
La preuve à divulgation nulle de connaissance (PDNC) fait partie des différentes techniques cryptographiques d'amélioration de la confidentialité et elle peut être utilisée pour appliquer, à des niveaux détaillés, des contrôles de protection de la vie privée nécessitant un accès minimal et fondés sur des principes de protection de la vie privée dès la conceptionNotes de bas de page1.
Habituellement, une preuve que l'affirmation X est vraie révèle aussi des renseignements sur la raison pour laquelle X est vraie. Les PDNC, cependant, prouvent qu'une déclaration est vraie sans révéler de connaissance supplémentaire. Il est important de noter que les PDNC ne garantissent pas une preuve à 100 %, mais qu'ils offrent un très haut degré de probabilité.
Les PDNC utilisent des algorithmes qui prennent les données en tant qu'entrées et qui renvoient soit « vrai » soit « faux » en tant que sorties. Cela permet à deux parties de vérifier la vérité de l'information sans révéler l'information ou la façon dont la vérité a été déterminée. Par exemple, une personne peut prouver la déclaration « Je suis un adulte âgé d'au moins 21 ans » sans fournir de données aux fins de vérification à un serveur central.
La PDNC a été introduite par des chercheurs du MIT en 1985Notes de bas de page2 et elle est maintenant utilisée pour de nombreuses applications dans le monde réel.
La PDNC se distingue des concepts suivants :
De plus, la PDNC ne doit pas être confondue avec la norme de chiffrement avancé, dans le cadre de laquelle les parties partagent un numéro secret. Dans le cas de la PDNC, le démonstrateur montre qu'il possède un numéro secret sans divulguer ce numéro. Dans les deux cas, les parties ont un secret partagé, mais avec la PDNC, l'objectif est de faire des affirmations sans révéler de renseignements superflus.
Pour comprendre le fonctionnement de la PDNC, prenons le scénario d'une démonstratrice (Peggy) et d'un vérificateur (Victor). L'objectif de la PDNC est de prouver une déclaration avec une probabilité très élevée sans révéler de renseignements supplémentaires.
Peggy (la démonstratrice) veut prouver à Victor (le vérificateur, qui est daltonien et ne lui fait pas confiance) que deux balles sont de couleurs différentes (p. ex. une balle verte et une balle rouge). Peggy demande à Victor de révéler une des balles, puis de mettre les deux balles derrière son dos. Puis, Peggy demande à Victor de les échanger ou non, puis de lui en montrer une. Elle répond si c'est la même couleur ou si elle est différente de la précédente. Bien sûr, elle pourrait deviner, mentir, ou être elle-même daltonienne. Ainsi, afin de le convaincre qu'elle dit la vérité, ce processus doit être répété à maintes reprises. En faisant cela, Peggy finira par convaincre Victor qu'elle a la capacité d'identifier correctement les différentes couleurs.
Ce scénario satisfait aux trois critères d'une PDNC :
Ce qui est expliqué ci-dessus, c'est la démonstration interactive, qui exige une communication dans les deux sens entre deux parties. Les PDNC d'aujourd'hui utilisent une démonstration non interactive, selon laquelle deux parties ont une clé commune pour transmettre et recevoir de l'information. Par exemple, une clé délivrée par le gouvernement dans le cadre d'un passeport pourrait être utilisée pour démontrer la citoyenneté sans révéler le numéro de passeport ou le nom du citoyen.
Les PDNC assurent un flux de données sécurisé et invisible, protégeant les renseignements des utilisateurs contre les fuites potentielles et le vol d'identité. Cela améliore le commerce électronique en permettant des transactions plus privées et sécurisées.
L'utilisation de la PDNC aide non seulement à lutter contre les risques liés à la sécurité des données, mais cette technique de vérification minimale viable aide aussi à empêcher la divulgation d'un plus grand nombre de RIP que nécessaire. Cela profite à la fois aux particuliers et aux organisations. Les personnes n'ont pas à partager leurs RIP et les organisations qui sont confrontées à une augmentation des atteintes à la sécurité, et donc à des coûts importants, à une atteinte à la réputation et à une perte de confiance, ne reçoivent pas les RIP qui pourraient être divulgués.
Un autre avantage pour les particuliers et les organisations est une vérification plus efficace, réduisant les processus à goulot d'étranglement qui reposent sur un fardeau de preuve manuel ou inefficace.
Une vérification positive et efficace entre les parties (même les parties non fiables) ouvre de nombreuses pistes de collaboration et de demandes de renseignements.
Les PDNC peuvent protéger la confidentialité des données dans un ensemble diversifié d'applications et de cas d'utilisation, dont les suivants :
Alors que la PDNC présente de nombreux avantages, elle pose aussi certains défis que doivent prendre en considération les organisations qui souhaitent l'utiliser.
Au cours des dernières années, il y a eu une forte pression en faveur de l'adoption de connaissances nulles dans les applications logicielles. Plusieurs organisations ont construit des applications utilisant des capacités nulles de connaissance (NC), et les PDNC sont largement utilisées pour protéger les chaînes de blocs. Par exemple, la ville de Zoug en Suisse a enregistré tous ses numéros d'identification de citoyens sur une chaîne de blocs (Anwar, 2018).
Bien qu'il doive y avoir des améliorations en matière d'éducation, de normalisation et de certifications de confidentialité relatives à la méthode NC pour améliorer la confiance dans les produits et services NC, les PDNC ont un grand potentiel pour économiser les coûts organisationnels relatifs aux atteintes à la sécurité, ainsi que pour préserver la vie privée des utilisateurs et réduire l'utilisation de RIP comme produit à vendre. Les PDNC aident une organisation à passer de la réaction aux atteintes à la sécurité à leur prévention.
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel
Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!
Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.
Authentification, chaîne de blocs, Web 3.0, techniques d'amélioration de la confidentialité : confidentialité différentielle, chiffrement homomorphe, calcul sécurisé multipartite, environnement d'exécution de confiance
Par : Oladayo Ogunnoiki, Statistique Canada
En mai 2016, Microsoft a présenté Tay à la twittosphère. Tay était un robot conversationnel expérimental à intelligence artificielle (IA) en matière de « compréhension de la conversation ». Plus on discutait avec Tay, plus son intelligence pouvait augmenter. Cependant, il n'a pas fallu longtemps pour que l'expérience tourne mal. Tay était censé avoir des discussions ludiques avec les gens, mais ce badinage ludique s'est rapidement transformé en commentaire misogyne et raciste.
Certes, le public était resté perplexe devant la tournure qu'avaient prise ces événements. Si ce robot était intrinsèquement grossier, pourquoi les autres modèles d'IA ne perdraient-ils pas aussi le cap? La plupart des utilisateurs de Twitter ont eu l'impression que ce fâcheux événement n'était qu'un soupçon de ce qui allait advenir si notre avenir allait effectivement se trouver empreint d'une profusion de modèles d'IA. Cependant, la plupart des scientifiques des données comprenaient la véritable raison qui avait poussé Tay à faire ce commentaire disgracieux — le robot ne faisait que répéter ce qu'il avait appris des utilisateurs eux-mêmes (Vincent, 2016).
Le monde de l'IA continue de croître de façon exponentielle et, avec des histoires comme celle-ci qui se produisent tout le temps, il est grandement nécessaire d'accroître la confiance du public à l'égard des produits de l'IA. Pour gagner cette confiance, la transparence et la capacité d'expliquer sont de la plus haute importance.
L'une des principales questions que poserait quiconque interagit avec un modèle d'IA comme Tay est : « Pourquoi le modèle a-t-il pris cette décision? » Plusieurs outils ont été conçus pour expliquer le raisonnement qu'adoptent ces modèles et répondre à cette question. Il n'est peut-être pas étonnant que les représentations visuelles soient une façon efficace d'expliquer cela. Dans leur travail, Ramprasaath et coll. (2017) décrivent les exigences d'une bonne représentation visuelle; celle-ci doit être exempte de discrimination classiste et avoir une haute résolution. Ces critères servent de lignes directrices pour déterminer le défi à relever, soit trouver une solution qui fournit une représentation visuelle à haute résolution et permet la discrimination des classes pour les décisions d'un réseau neuronal.
Certaines des techniques qui fournissent des représentations visuelles comprennent la déconvolution, la rétropropagation guidée, la carte d'activation de classe (CAM), la CAM pondérée par gradient (Grad-CAM), la Grad-CAM++, la Hi-Res-CAM, la Score-CAM, l'Ablation-CAM, la X-Grad-CAM, l'Eigen-CAM, le Full-Grad et la factorisation profonde des caractéristiques. Aux fins du présent article, nous allons nous concentrer sur la Grad-CAM.
La Grad-CAM est un outil à source ouverte qui produit des représentations visuelles pour les décisions d'une grande classe de réseaux de neurones convolutifs. Elle fonctionne en mettant en évidence les zones de l'image qui ont la plus grande influence sur la prédiction finale du réseau neuronal profond, ce qui donne un aperçu du processus décisionnel du modèle.
La Grad-CAM est fondée sur la CAM qui utilise l'activation de la carte des caractéristiques par rapport à la classe cible. Elle est propre à certains types de réseaux neuronaux, comme le réseau du Visual Geometry Group et le réseau résiduel (ResNet). Il utilise le gradient de la classe cible par rapport aux cartes des caractéristiques de la couche finale. La Grad-CAM est une méthode générique qui peut être appliquée à différents types de réseaux neuronaux. La combinaison des caractéristiques fait de la Grad-CAM un outil fiable et précis pour comprendre le processus décisionnel des réseaux neuronaux profonds. La Grad-CAM guidée est améliorée en intégrant les gradients du processus de rétropropagation guidée afin de produire une carte thermique plus raffinée. L'une des limites est qu'elle est seulement capable de visualiser les zones de l'image qui sont les plus importantes pour la prédiction finale, par opposition à l'ensemble du processus décisionnel du réseau neuronal profond. Cela signifie qu'elle ne peut fournir une compréhension complète de la façon dont le modèle fait ses prédictions.
Les avantages de la Grad-CAM comprennent les suivants :
La Grad-CAM peut être utilisée dans plusieurs projets de vision par ordinateur comme la classification d'images, la segmentation sémantique, la détection d'objets, le sous-titrage d'images, la réponse aux questions visuelles, etc. Elle peut être appliquée aux RNC et a récemment été rendue disponible sur les architectures de type transformeur.
Voici comment la Grad-CAM fonctionne dans la classification des images, où l'objectif est de faire la distinction entre différentes classes :
Dans le cas d'une tâche de classification d'image, pour obtenir la carte de localisation discriminative de classe Grad-CAM,
La figure 2 est une image illustrant deux chats égyptiens et deux télécommandes. L'image a été dérivée de l'ensemble de données d'images de chat de Hugging Face, au moyen de leur bibliothèque Python. L'objectif est de déterminer les éléments de l'image au moyen de différents modèles d'apprentissage profond préentraînés. On utilise une trousse PyTorch appelée PyTorch-GradCAM. La fonction Grad-CAM détermine les aspects de l'image qui activent la carte des caractéristiques de la classe chat égyptien et de la classe télécommande. Après avoir suivi le tutoriel de PyTorch-GradCAM, les résultats de la Grad-CAM sont répliqués pour différents réseaux neuronaux profonds.
La figure 2 est analysée par un réseau neuronal résiduel préentraîné (Resnet-50), conformément au tutoriel de PyTorch-Grad-CAM. La figure 3 est l'image générée au moyen de la Grad-CAM. Pour la classe chat égyptien, les pattes, les rayures et le visage des chats ont activé la carte des caractéristiques. Pour les télécommandes, ce sont les boutons et le profil qui ont activé la carte des caractéristiques. Les principales classes 5k prédites par modèle de réponse logit sont la télécommande, le chat tigré, le chat égyptien, le chat domestique marbré et l'oreiller. Ce modèle semble être plus sûr que l'image contient des télécommandes et des chats. La catégorie Oreiller s'est classée parmi les cinq premières catégories de la liste, bien que le modèle soit moins sûr. Cela pourrait être causé par le fait que le modèle a été formé avec des oreillers à imprimé de chat.
Comme l'architecture Resnet-50, la même image est analysée par un transformeur de fenêtre décalé préentraîné. La figure 4 montre que la fourrure, les rayures, le visage et les pattes des chats sont des zones activées sur la carte des caractéristiques en ce qui concerne la catégorie chat égyptien. Il en va de même pour la carte des caractéristiques en ce qui concerne les télécommandes. Les principales classes 5k prédites, par modèle de réponse logit, sont le chat domestique marbré, le chat tigré, le chat domestique et le chat égyptien. Ce modèle est plus sûr que l'image montre des chats que des télécommandes.
Comme nous l'avons vu ci-dessus, plus de zones de la carte des fonctions sont activées, y compris des sections de l'image qui ne comportaient pas de caractéristiques du chat. Il en va de même pour les régions de la carte des caractéristiques par rapport à la classe Télécommande. Les principales classes 5k prédites, par modèle de réponse logit, sont le chat égyptien, le chat tigré, le chat domestique marbré, la télécommande et le lynx.
Les résultats de la Grad-CAM avec les principales classes 5k pour différentes architectures peuvent être utilisés pour favoriser une sélection de l'architecture de transformeur de vision (VIT) pour les tâches liées à l'identification des chats égyptiens et des télécommandes.
Certains des défis dans le domaine de l'IA comprennent l'accroissement de la confiance des gens dans les modèles développés et la compréhension du raisonnement qui sous-tend la prise de décision propre à ces modèles pendant le développement. Les outils de visualisation comme la Grad-CAM fournissent un aperçu de ces justifications et aident à mettre en évidence les différents modes d'échec des modèles d'IA pour des tâches particulières. Ces outils peuvent être utilisés pour repérer les erreurs dans les modèles et améliorer leur performance. En plus de la Grad-CAM, d'autres outils de visualisation ont été développés comme la Score-CAM, qui fonctionne encore mieux dans l'interprétation du processus décisionnel des réseaux neuronaux profonds. Cependant, la Grad-CAM sera préférée à la Score-CAM en raison de sa simplicité et de son agnosticisme aux architectures modèles. L'utilisation d'outils comme la Grad-CAM devrait être favorisée pour la représentation visuelle du raisonnement sous-jacent aux décisions prises par les modèles d'IA.
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel
Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!
Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.