Archivé – Une capsule statistique de Statistique Canada – Immigration et diversité

Informations archivées

Les informations archivées sont fournies aux fins de référence, de recherche ou de tenue de documents. Elles ne sont pas assujetties aux normes Web du gouvernement du Canada et n'ont pas été modifiées ou mises à jour depuis leur archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Numéro de catalogue : Numéro de catalogue : 11-629-x

Numéro d'exemplaire : 2015032

Juin 2015

Une capsule statistique de Statistique Canada – Immigration et diversité - Transcription

Description des éléments visuels

(Le titre du clip vidéo « Une capsule statistique de Statistique Canada – Immigration et diversité », l'identifiant de Statistique Canada et le mot-symbole « Canada » sont affichés à l'écran.)

Une capsule statistique de Statistique Canada – Immigration et diversité

(Scènes de foules sur des rues achalandées en accéléré.)

Le visage de la population canadienne est en train de changer. Environ 34 millions de personnes vivaient au Canada en 2011.

(L'image des foules se défocalise. Les mots « 34 millions » et « population en 2011 » sont affichés à l'écran.)

7,5 millions sont nées hors du pays. C'est plus d'une personne sur cinq.

(Les mots « 7,5 millions » sont superposés sur une carte du Canada, avec une icône graphique représentant un bébé. Le texte et l'icône se déplacent jusqu'à une section vierge à la droite de la carte. L'ensemble de l'image fait un zoom arrière et se défocalise. Cinq bonhommes-allumettes apparaissent à l'avant-plan et un bonhomme et demi devient rouge.)

Selon les projections - et si les taux d'immigration actuels se maintiennent - plus de 25 % ou un Canadien sur quatre en 2031 pourraient être nés à l'étranger.

(Très gros plan d'un stylo sur un formulaire de Citoyenneté et Immigration Canada. On affiche ensuite l'image d'une carte de l'Amérique du Nord comportant quatre bonhommes-allumettes sur le Canada, trois en noir et trois en rouge. L'image fait un zoom arrière pour afficher une carte du monde, et l'année « 2031 » est affichée à l'écran, avec trois flèches prenant naissance dans différents continents et convergeant vers le Canada.)

Si nous prenons en considération les enfants d'immigrants nés au Canada, ces nombres prennent encore plus d'importance.

(Images floues en accéléré de foules de personnes marchant, avec deux bonhommes-allumettes – une femme et un homme – et trois bébés, avec de petits drapeaux canadiens superposés.)

Et toujours selon les projections, cette proportion pourrait atteindre 47 % d'ici 2031. C'est presque un Canadien sur deux.

(Autres scènes de foules floues en arrière-plan; à l'avant-plan, nous voyons cinq bonhommes-allumettes, l'un étant presque à moitié coloré en rouge, tandis que les autres sont en noir. Les nombres « 47 % » et « 2031 » sont affichés à l'écran. La scène se dissout en un arrière-plan blanc comportant deux bonhommes-allumettes de grande taille, un rouge et l'autre noir, et les mots « près de 1 Canadien sur 2 ».)

La diversité ethnoculturelle croissante aura plusieurs répercussions pour le Canada

(Scène d'une route et de trafic routier en accéléré. L'image se transforme en deux drapeaux flottant au vent : un drapeau canadien et un drapeau portant le mot « Ottawa ».)

À l'avenir, plus de personnes vivant au Canada auront des membres de leur famille et d'autres proches à l'étranger, ce qui donnera lieu à davantage d'échanges et de relations internationaux.

(Piste cyclable pavée et roues de trois vélos passant à travers l'écran. Nous voyons ensuite une scène en accéléré montant des personnes marchant dans une place publique.)

(Nous voyons un groupe de personnes d'origines ethniques diversifiées qui sont reflétées dans une porte en verre portant le mot-symbole « Canada ».)

Et il est probable qu'il y aura davantage de débats publics sur des enjeux tels que l'inclusion, le multiculturalisme, la cohésion et les accommodements.

(La caméra fait un panoramique du Canal Rideau et présente une vue panoramique du complexe du Parlement à Ottawa.)

Pour en apprendre davantage sur le Canada, venez nous rendre visite à statcan.gc.ca.

(Un écran blanc affiche l'identifiant de Statistique Canada dans le coin supérieur gauche, et une main tenant un marqueur et une coche rouge dans le coin opposé. L'adresse du site Web de Statistique Canada « www.statcan.gc.ca » est affichée au centre de l'écran.)

Cette capsule statistique de Statistique Canada est possible grâce :

  • au Recensement du Canada,
  • à l'Enquête nationale auprès des ménages,
  • et au Programme des estimations de la population

(Devant le même arrière-plan, le texte suivant est maintenant affiché : « Cette capsule statistique de Statistique Canada est possible grâce au Recensement du Canada, à l'Enquête nationale auprès des ménages et au Programme des estimations de la population ».)

Statistique Canada. Au service du Canada avec des renseignements statistiques de grande qualité qui comptent.

(Devant le même arrière-plan, le texte suivant est ensuite affiché : « Au service du Canada avec des renseignements statistiques de grande qualité qui comptent. »)

(L'image se transforme pour afficher le mot-symbole « Canada » devant un arrière-plan noir.)

Date de modification :

Archivé – Une capsule statistique de Statistique Canada – Démographie régionale

Informations archivées

Les informations archivées sont fournies aux fins de référence, de recherche ou de tenue de documents. Elles ne sont pas assujetties aux normes Web du gouvernement du Canada et n'ont pas été modifiées ou mises à jour depuis leur archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Numéro de catalogue : Numéro de catalogue : 11-629-x

Numéro d'exemplaire : 2015031

Juin 2015

Une capsule statistique de Statistique Canada – Démographie régionale - Transcription

Description des éléments visuels

(Le titre du clip vidéo « Une capsule statistique de Statistique Canada – Démographie régionale », l'identifiant de Statistique Canada et le mot-symbole « Canada » sont affichés à l'écran.)

Une capsule de Statistique Canada. Démographie régionale

(Scènes cinématiques de Canadiens en mouvement)

Les tendances démographiques nationales peuvent souvent cacher des différences régionales importantes. Par exemple, le taux de croissance démographique est resté assez stable au Canada au cours des 20 dernières années, s'établissant en moyenne à 1 % par année.

(Une carte bleue du Canada apparaît, puis le pourcentage « + 1 % » y est superposé.)

Mais les tendances observées à l'échelle nationale cachent des différences régionales étonnantes.

(Sur la carte du Canada apparaissent les noms des provinces et des territoires ainsi que la variation en pourcentage de la population pour chacune des provinces et territoires. Les variations affichées sont : Colombie-Britannique +1,1 %, Alberta +2,9 %, Saskatchewan +1,7 %, Manitoba +1,3 %, Ontario +0,9 %, Québec +0,7 %, Nouveau-Brunswick -0,2 %, Nouvelle-Écosse -0,03 %, Île-du-Prince-Édouard +0,5 %, Terre-Neuve-et-Labrador -0,2 %, Yukon +0,4 %, Territoires du Nord-Ouest -0,5 %, Nunavut +3,2 %.)

Parmi les provinces, le taux de croissance s'est élevé à près de 3 % en Alberta. En revanche, la population a diminué dans trois provinces de l'Atlantique : le Nouveau-Brunswick, la Nouvelle-Écosse et Terre-Neuve-et-Labrador.

(La caméra fait un zoom avant sur l'Alberta puis sur les provinces de l'Atlantique.)

Au cours des deux dernières années, le taux de croissance enregistré en Alberta s'est classé parmi les plus élevés depuis plus de 30 ans. Si ce rythme de croissance devait se maintenir, la population de la province doublerait en environ 25 ans.

(La carte de l'Alberta est affichée à la gauche de l'écran. À la droite de l'écran, des animations représentent des personnes des deux sexes et de différents groupes d'âge sous les années « 2011 » et « 2036 ».)

Il est probable que la faible croissance se poursuivra dans les provinces de l'Atlantique.

(La caméra fait un zoom avant sur les provinces de l'Atlantique, puis sont affichés à l'écran les variations décroissantes en pourcentage de la population de Terre-Neuve-et-Labrador, du Nouveau-Brunswick et de la Nouvelle-Écosse.)

Récemment, pour la première fois, certaines de ces provinces ont enregistré un accroissement naturel négatif, c'est-à-dire que le nombre de décès a surpassé le nombre de naissances dans ces provinces.

(L'écran affiche des scènes cinématiques de personnes en mouvement. Le texte « accroissement naturel négatif » est ensuite affiché. Les scènes cinématiques de personnes en mouvement disparaissent graduellement et sont remplacées par l'image d'un cimetière et l'image d'un nouveau-né.)

Compte tenu du vieillissement de la population, l'écart entre les décès et les naissances est susceptible de se creuser.

(L'écran présente des images de personnes âgées lisant des livres.)

Par conséquent, s'il devait y avoir une croissance démographique dans l'avenir, celle-ci viendrait très vraisemblablement soit de l'immigration, soit de la migration interprovinciale.

(L'écran affiche en arrière-plan des scènes cinématiques de personnes en mouvement. À l'avant-plan, les mots « Croissance de la population dans les provinces de l'Atlantique? Immigration, migration interprovinciale » apparaissent.)

Au Québec, en Ontario et en Colombie-Britannique, l'accroissement migratoire international est le facteur le plus important de la croissance démographique depuis un certain temps.

(L'écran affiche une carte du Canada et les mots « Accroissement migratoire international ». Les images animées d'un avion, d'un autobus et d'un navire entre à l'écran à partir de la droite, de la gauche et du bas de l'écran respectivement. Des personnes animées apparaissent au-dessus du Québec, de l'Ontario et de la Colombie-Britannique, puis elles sont remplacées par des signes « + » en noir.)

Au cours des dernières années, la migration internationale est devenue le facteur clé de la croissance au Manitoba et en Saskatchewan également.

(Des personnes animées apparaissent au-dessus du Manitoba et de la Saskatchewan, puis elles sont remplacées par des signes « + » en rouge.)

En Alberta, la croissance démographique s'est appuyée en parts égales sur la migration interprovinciale, l'accroissement naturel et l'accroissement migratoire international.

(L'écran affiche une carte du Canada et les mots « Migration interprovinciale ». Les images animées d'un bébé, d'un navire, d'un autobus et d'un avion apparaissent à la gauche de l'écran, tandis que plusieurs personnes animées marchent vers l'Alberta à partir d'autres régions du Canada. Un signe « + » en noir apparaît au-dessus de l'Alberta.)

Cependant, dans toutes les provinces à l'est de la Saskatchewan, la migration interprovinciale a eu un effet négatif sur la croissance démographique.

(Des signes « - » en rouge sont affichés au-dessus du Manitoba, de l'Ontario, du Québec, du Nouveau-Brunswick, de la Nouvelle-Écosse, de l'Île-du-Prince-Édouard et de Terre-Neuve-et-Labrador sur la carte.)

Enfin, l'accroissement naturel est resté le principal facteur de la croissance démographique au Nunavut, qui affiche le taux de fécondité le plus élevé au Canada, soit près de 3 enfants par femme.

(L'écran présente une scène cinématique d'un nouveau-né, suivi de jeunes enfants et d'une femme adulte jouant avec des aliments-jouets.)

Dans l'avenir, les différences régionales au chapitre des facteurs de la croissance démographique pourraient exacerber les différences d'une région à l'autre et changer le visage du Canada.

(L'écran présente une carte du Canada où les provinces et les territoires sont affichées en différentes couleurs.)

Certaines régions se caractériseront vraisemblablement par une plus grande diversité ethnoculturelle, alors que d'autres pourraient compter une plus grande proportion de personnes âgées.

(Une carte du Canada est affichée à la gauche de l'écran. La Colombie-Britannique, l'Ontario et le Québec sont affichés en rouge, et les mots « diversité ethnoculturelle » sont affichés à la droite de la carte. Lorsque les mots « plus grande proportion de personnes âgées » sont affichés, les quatre provinces de l'Atlantique sont affichées en vert.)

Les contrastes qui caractérisent la croissance démographique et les facteurs de croissance peuvent entraîner de nombreuses conséquences pour les Canadiens :

(La carte du Canada s'élargie.)

transformation de l'influence et des intérêts politiques;

(Dans la carte du Canada, des scènes cinématiques illustrent des personnes votant dans un bureau de vote.)

transformation des besoins en matière de programmes sociaux et d'infrastructure;

(Dans la carte du Canada, des scènes cinématiques illustrent des autobus et des voitures en mouvement ainsi que de jeunes personnes marchant sur les trottoirs.)

transformation de la main-d'œuvre et de la dépendance économique.

(Dans la carte du Canada, des scènes cinématiques illustrent des travailleurs de la construction.)

Pour plus de renseignements sur la démographie canadienne, visitez statcan.gc.ca.

(Un écran blanc affiche l'identifiant de Statistique Canada dans le coin supérieur gauche, et une main tenant un marqueur et une coche rouge dans le coin opposé. L'adresse du site Web de Statistique Canada, www.statcan.gc.ca, est affichée au centre de l'écran.)

Cette capsule statistique de Statistique Canada est possible grâce :

  • au Recensement du Canada,
  • à l'Enquête nationale auprès des ménages
  • et au Programme des estimations de la population

(Devant le même arrière-plan, le texte suivant est maintenant affiché : « Cette capsule statistique de Statistique Canada est possible grâce au Recensement du Canada, à l'Enquête nationale auprès des ménages de 2011 et au Programme des estimations de la population ».)

Statistique Canada. Au service du Canada avec des renseignements statistiques de grande qualité qui comptent.

(Devant le même arrière-plan, le texte suivant est ensuite affiché : « Au service du Canada avec des renseignements statistiques de grande qualité qui comptent. ».)

(L'image se transforme pour afficher le mot-symbole « Canada » devant un arrière-plan noir.)

Date de modification :

Principes fondamentaux de la statistique officielle

Au service des Canadiens

Numéro de catalogue : Numéro de catalogue : 11-629-x

Numéro d'exemplaire : 2015001

Date de diffusion : 15 janvier 2014
Principes fondamentaux de la statistique officielle - Transcription

Au service des Canadiens : Description des éléments visuels

Statistique Canada soutient la vitalité de la démocratie au pays.

Nous fournissons aux Canadiens des renseignements pertinents et objectifs qui servent à la prise de décisions éclairées.

Nous avons adopté les Principes fondamentaux de la statistique officielle de l'Organisation des Nations Unies pour nous aider à réaliser notre mandat.

(Dix points noirs apparaissent sur un fond blanc.)

Voici comment nous sommes en mesure de bien servir les Canadiens. Les principes qui suivent sont intégrés à toutes nos activités.

(L'écran est mi-noir, mi-blanc.)

1. Nous sommes impartiaux.

Nous publions les données sans crainte ni favoritisme.

(Écran blanc, cravate noire va et vient dans le vent.)

2. Nous sommes professionnels.

(Écran blanc, pile de papier en petites boules, un morceau de papier est jeté sur la pile et tombe par terre.)

Nous appliquons des méthodes rigoureuses en matière d'assurance de la qualité.

(Illustration schématique)

3. Nous sommes scientifiques.

Nous publions des études de pointe et appliquons une méthodologie sophistiquée au processus de production des données.

(Cercles concentriques, ondes sonores)

4. Nous nous exprimons.

Nous offrons des renseignements sur l'utilisation et l'interprétation de nos statistiques.

(Une ligne horizontale bondit vers le haut et ensuite vers le bas)

5. Nous sommes souples.

(Les lignes se croisent et deviennent un triangle)

Nous tirons nos renseignements de plusieurs sources.

(Des points dans un carré se transforment en x)

6. Nous protégeons la confidentialité.

(Les x se transforment en point noirs.)

Nos activités se déroulent dans des locaux

(Un code machine apparaît.)

et des environnements numériques sécurisés.

(Des lignes défilent sur l'écran et ensuite les lignes sont effacées.)

7. Nous sommes transparents.

Nous divulguons nos méthodes et nos normes.

(Une inforoute apparaît.)

8. Nous collaborons.

(Une feuille d'érable rouge apparaît au centre d'une inforoute.)

Nous recueillons et partageons des renseignements avec nos partenaires canadiens.

(Une échelle bouge vers la droite de l'écran)

9. Nous favorisons l'efficience.

Nous examinons et mettons à jour nos méthodes, nos processus et nos systèmes.

(Le mot « méthodes » devient « processus » et ensuite il se transforme en «  systèmes »)

(La carte du monde apparaît et des lignes bougent d'un bout à l'autre de l'écran pour démontrer le mouvement)

10. Nous avons une vision mondiale.

Nous collaborons avec des partenaires internationaux.

Les statistiques orientent notre pays.

Ces principes orientent notre organisme.

Statistique Canada..

(L'image se transforme pour afficher le mot-symbole « Canada » devant un arrière-plan noir.)

 

Les Principes fondamentaux de la statistique officielle ont été adoptés par la Commission de statistique des Nations Unies à sa session extraordinaire, tenue du 11 au 15 avril 1994.

Principe 1 - La statistique officielle constitue un élément indispensable du système d'information d'une société démocratique, fournissant aux administrations publiques, au secteur économique et au public des données concernant la situation économique, démographique et sociale et la situation de l'environnement. À cette fin, des organismes responsables de la statistique officielle doivent établir les statistiques officielles selon un critère d'utilisation pratique et les rendre disponibles, en toute impartialité, en vue de rendre effectif le droit d'accès des citoyens à l'information publique.

Principe 2 - Pour que se maintienne la confiance dans l'information statistique officielle, les organismes responsables de la statistique doivent déterminer, en fonction de considérations purement professionnelles, notamment de principes scientifiques et de règles déontologiques, les méthodes et les procédures de collecte, de traitement, de stockage et de présentation des données statistiques.

Principe 3 - Pour faciliter une interprétation correcte des données, les organismes responsables de la statistique doivent fournir, en fonction de normes scientifiques, des informations sur les sources, les méthodes et les procédures qu'ils utilisent.

Principe 4 - Les organismes responsables de la statistique ont le droit de faire des observations sur les interprétations erronées et les usages abusifs des statistiques.

Principe 5 - Les données utilisées à des fins statistiques peuvent être tirées de toutes sortes de sources, qu'il s'agisse d'enquêtes statistiques ou de fichiers administratifs. Les organismes responsables de la statistique doivent choisir leur source en tenant compte de la qualité des données qu'elle peut fournir, de leur actualité, des coûts et de la charge qui pèse sur les répondants.

Principe 6 - Les données individuelles collectées pour l'établissement des statistiques par les organismes qui en ont la responsabilité, qu'elles concernent des personnes physiques ou des personnes morales, doivent être strictement confidentielles et ne doivent être utilisées qu'à des fins statistiques.

Principe 7 - Les textes législatifs et réglementaires et toutes dispositions régissant le fonctionnement des systèmes statistiques doivent être portés à la connaissance du public.

Principe 8 - À l'intérieur de chaque pays, il est essentiel que les activités des différents organismes responsables de la statistique soient coordonnées pour assurer la cohérence et l'efficacité du système statistique.

Principe 9 - L'utilisation par les organismes responsables de la statistique de chaque pays des concepts, classifications et méthodes définis à l'échelon international favorise la cohérence et l'efficacité des systèmes statistiques à tous les niveaux officiels.

Principe 10 - La coopération bilatérale et multilatérale dans le domaine de la statistique contribue à l'amélioration des systèmes d'élaboration des statistiques officielles dans tous les pays.

Date de modification :

La Base de données ouvertes sur les installations récréatives et sportives

Numéro de catalogue : 21260002
Numéro d'exemplaire : 2021001

La Base de données ouvertes sur les installations récréatives et sportives (BDOIRS) est une collection de données ouvertes comprenant le nom, le type et l'emplacement des installations récréatives et sportives à travers le Canada. Elle est publiée en vertu de la Licence du gouvernement ouvert – Canada.

La BDOIRS compile des données ouvertes, des données accessibles au public et des données fournies directement sur les installations récréatives et sportives au Canada. Les sources de données comprennent les gouvernements provinciaux, territoriaux et municipaux.

Cette base de données vise à fournir un meilleur accès à une liste harmonisée des installations récréatives et sportives à travers le Canada, en les rendant disponibles en tant que données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les données d'entrée de la BDOIRS sont des ensembles de données dont les sources incluent les gouvernements provinciaux, territoriaux et municipaux. Ces ensembles de données étaient disponibles soit en vertu de l'un des divers types de licences de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Les détails des sources utilisées sont disponibles dans un tableau « Sources de données » situé dans le dossier compressé téléchargeable de la BDOIRS.

Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOIRS harmonise le type d'installation en attribuant dix-huit types à chaque installation. Ce processus a été mis en œuvre sur la base du type d'installation fourni par la source de données, ainsi qu'en utilisant d'autres recherches menées à cette fin.

La BDOIRS utilise les dix-huit types d'installations suivants :

  • sentiers : sentiers urbains et ruraux ou voies pour la marche, la randonnée pédestre ou le vélo.
  • terrains de sport : terrains sur lesquels on peut pratiquer des sports.
  • arénas : installations où des activités sportives et/ou récréatives ont lieu.
  • parcs sportifs : aires de loisirs axées sur l’activité sportive.
  • plages : plages au bord de l'eau.
  • casinos : casinos ou installations de jeux de hasard.
  • centres communautaires : centres communautaires et installations de loisirs.
  • gymnases : salles de conditionnement physique publiques et privées.
  • marinas : ports de plaisances.
  • parcs : parcs et espaces verts, y compris les parcs municipaux et nationaux.
  • terrains de jeux : espaces de jeux qui sont distincts des parcs en ce sens qu’ils ont été spécifiquement classés comme tels par l’éditeur des données. Ils comprennent souvent de l’équipement de terrain de jeux.
  • piscines : piscines intérieures et extérieures.
  • pistes de course : pistes réservées à la course.
  • patinoires : le plus souvent des patinoires à glace.
  • planchodromes : parcs utilisés pour la planche à roulettes.
  • aires de jeux d'eau : espaces urbains réservés aux jeux d'eau.
  • stades : installations où des activités sportives et/ou récréatives ont lieu.
  • divers : installations qui ne correspondent à aucune des catégories qui précèdent.

La BDOIRS ne prétend pas avoir une couverture exhaustive et peut ne pas contenir toutes les installations dans le champs d’application de la version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'installation et de géolocalisation des installations sont également possibles. Bien que toutes les données soient publiées à la même date, les dates à partir desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.

Un sous-ensemble de coordonnées géographiques disponibles des sources a été validé en utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, un géocodage a été effectué pour certaines sources en utilisant les données de l’adresse de la source.

Une déduplication a été effectuée pour supprimer les doublons dans les cas où les sources se chevauchaient.

La version actuelle de la base de données (version 1.0) contient environ 182 000 enregistrements. Les données ont été recueillies à partir des sources entre 2020 et 2021.

Les variables incluses dans la BDOIRS sont les suivantes :

  • Nom de l'installation
  • Type d'installation de source
  • Type d'installation de la BDOIRS
  • Fournisseur
  • Numéro d'unité
  • Numéro de rue
  • Nom de la rue
  • Genre de la rue
  • Direction de la rue
  • Code postal
  • Ville
  • Province ou territoire
  • Identificateur unique de la province
  • Nom de la subdivision de recensement
  • Identificateur unique de la subdivision de recensement
  • Longitude
  • Latitude
  • Index

Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOIRS.

Téléchargement de la BDOIRS

Pour faciliter son téléchargement, la BDOIRS est fourni sous forme de fichier CSV compressé.

Visualisant la BDOIRS

Le contenu de la BDOIRS peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Date de modification :

Introduction aux techniques cryptographiques : Calcul multiparties sécurisé

Combinaison sécurisée de données provenant de plusieurs sources tout en préservant la confidentialité

par Betty Ann Bryanton, Agence du revenu du Canada

Introduction

La prédominance croissante de technologies comme le nuage, l'informatique mobile, l'apprentissage automatique et l'Internet des objets crée des possibilités d'innovation et d'échange de renseignements, mais également des défis pour la sécurité et la confidentialité des données. Ces défis ont été amplifiés pendant la pandémie mondiale; le télétravail a accéléré l'adoption des services hybrides et infonuagiques. Cette situation a mis à rude épreuve les capacités de sécurité existantes et a révélé des lacunes dans la sécurité des données (Lowans, 2020). Pendant ce temps, les lois sur la protection des données à l'échelle mondiale ont évolué, et chaque organisation qui traite des données personnelles est exposée à des niveaux de risque en matière de confidentialité et d'inobservation plus élevés que jamais auparavant (Wonham, Fritsch, Xu, de Boer, & Krikken, 2020).

Par conséquent, les techniques de calcul améliorées sur le plan de la confidentialité, qui protègent les données pendant leur utilisationNotes de bas de page1, ont gagné en popularité.

Qu'est-ce que le calcul multiparties sécurisé?

Le calcul multiparties sécurisé est une technique qui permet de combiner des renseignements provenant de différentes zones de confidentialité pour obtenir des renseignements sur les données combinées sans avoir à révéler les données brutes aux parties concernées. Il a évolué d'une curiosité théorique établie par le problème des millionnairesNotes de bas de page2 d'Andrew Yao dans les années 1980 à un outil important pour la création d'applications de préservation de la confidentialité à grande échelleNotes de bas de page3.

Pour illustrer le concept, Bob et Alice veulent savoir s'ils touchent la même paye, mais ne veulent pas poser cette question délicate. Ils achètent quatre boîtes à suggestions verrouillables, chacune portant une étiquette sur laquelle figure un taux horaire : 10 $, 20 $, 30 $ et 40 $. Bob gagne 20 $ l'heure, alors il n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 20 ». Alice gagne 30 $ l'heure, alors elle n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 30 ». Bob et Alice mettent tous les deux un bout de papier indiquant « oui » ou « non » dans chaque boîte sans que l'autre le voie. Par exemple, Alice met un bout de papier indiquant « non » dans les boîtes portant les étiquettes « 10 », « 20 » et « 40 », et un bout de papier indiquant « oui » dans la boîte portant l'étiquette « 30 » parce qu'elle gagne 30 $ l'heure. Bob déverrouille la boîte portant l'étiquette « 20 » et apprend qu'Alice ne gagne pas 20 $ l'heure, mais il ne sait toujours pas si son taux horaire est de 10 $, de 30 $ ou de 40 $. Alice déverrouille la boîte portant l'étiquette « 30 » et apprend que Bob ne gagne pas 30 $ l'heure, mais elle ne sait toujours pas si son taux horaire est de 10 $, de 20 $ ou de 40 $. - C'est ce que l'on appelle un « transfert inconscient ». La capacité d'effectuer des transferts inconscients est la base de l'exécution du calcul multiparties sécuriséNotes de bas de page4.

Le calcul multiparties sécurisé est une méthode d'informatique distribuée et de cryptographieNotes de bas de page5 qui combine la transformation des données (chiffrement) avec un logiciel spécialisé. Il permet à plusieurs parties qui ne se font pas confiance, ou à un tiers commun, de travailler conjointement avec des données qui dépendent de tous leurs intrants privés tout en gardant ces données chiffrées. Les participants ne connaissent que les résultats de la collaboration et non les données précises fournies par les autres. Cela permet une collaboration entre des partenaires de confiance ou même entre des concurrents.

On présume souvent que le calcul multiparties sécurisé exige la participation de plusieurs organisations; toutefois, l'exigence précise concerne plusieurs zones de confidentialité, c'est-à-dire deux domaines ou plus ayant des ensembles de restrictions de confidentialité différents. Plusieurs zones de confidentialité existent entre plusieurs organisations ayant des propriétaires de données indépendants, mais elles peuvent aussi exister au sein d'une seule organisation entre des équipes, des services ou des administrations.

On se fie à ce que les parties respectent le protocole. Si une partie n'est pas digne de confiance, des mesures supplémentaires, qui ne s'inscrivent pas dans la portée du présent document, doivent être prises pour prévenir les tentatives d'atteinte malveillantes ou cachées.

Forces

  • Permet d'atteindre simultanément la confidentialité, l'inconscience et l'authenticité.
    • Élimine le besoin de faire confiance à un courtier de données tiers pour accéder aux données et les traiter.
    • Permet de déduire les données chiffrées : le propriétaire du modèle ne voit jamais les données privées du client et ne peut donc pas les divulguer ou les utiliser de façon malveillante.
  • Élimine les compromis entre la convivialité et la confidentialité des données; autrement dit, étant donné que les données brutes sont chiffrées, il n'est pas nécessaire de masquer ou de supprimer des fonctions pour les échanger et les traiter.
  • Offre de nouvelles possibilités de collaboration entre des entreprises qui n'étaient pas possibles auparavant en raison de la réglementation ou du risque.
  • Niveaux de confidentialité semblables à ceux du chiffrement entièrement homomorphique, mais moins coûteux et complexe sur le plan informatique.

Défis

  • Les techniques de calcul multiparties sécurisé sont extrêmement complexes et nécessitent une cryptographie exhaustive et souvent compliquée. Par conséquent, il est difficile pour les profanes de les comprendre ou de les mettre en œuvre.
  • L'incapacité à voir les données d'entrée peut éveiller des soupçons.
  • Si les fonctions ne sont pas soigneusement conçues et mises à l'essai, la sécurité peut être cassée.
  • Frais généraux importants en ce qui concerne les aspects informatiques en raison de la complexité et de la nature distribuée. Le coût varie grandement en fonction de la collaboration requise (p. ex., nombre de parties, utilisation de différents fournisseurs de services infonuagiques) et du besoin de protection contre les parties malveillantes.
  • Sensible à la latence entre les nœuds (Krikken, 2019)
  • Nécessite une infrastructure supplémentaire, ce qui ajoutera à la planification des projets et au calcul du coût total de possession (Byun, 2019)

Pourquoi est-ce important?

Selon le directeur du renseignement national des États-Unis, la cybersécurité dans les secteurs public et privé des États-Unis est continuellement à risque, et on doit s'attendre à une augmentation des attaques. Les organisations qui possèdent beaucoup de données et d'actifs de propriété intellectuelle sont des cibles de choix. Les attaquants ciblent souvent ces données « joyaux de la couronne »Notes de bas de page6 en raison de leur valeur et de leur potentiel de perturbation (Enveil).

Les organisations sont de plus en plus préoccupées par la sécurité des données dans plusieurs scénarios, notamment :

  • la collecte et la conservation de renseignements personnels de nature délicate;
  • le traitement de renseignements personnels dans des environnements externes, comme le nuage;
  • l'échange de renseignements, comme l'échange et le traitement de données de nature délicate dans des environnements distribués, des soins de santé aux finances (Krikken, 2019)

Le calcul multiparties sécurisé permet de répondre à ces préoccupations et de les atténuer en permettant aux organisations de fournir des renseignements sur les données réparties de façon conforme, sécurisée et confidentielle sans jamais les exposer ou les déplacer.

Cela est important parce que la nature de plus en plus distribuée des données sur les clients signifie que de nombreuses organisations ne génèrent pas par elles-mêmes les niveaux de données nécessaires pour obtenir les renseignements impartiaux requis pour fournir de nouvelles expériences, ouvrir de nouvelles sources de revenus et appliquer de nouveaux modèles opérationnels. Le calcul multiparties sécurisé permet une collaboration sécurisée qui offre des avantages mutuels à toutes les parties, tout en préservant la vie privée et la confidentialité.

Applications concrètes

Bien qu'il soit encore nouveau et qu'il présente des défis, le calcul multiparties sécurisé est sur le point de perturber considérablement le domaine de l'échange de données d'entreprise et d'offrir des solutions efficaces d'échange de données entre des propriétaires de données méfiants. Vous trouverez ci-dessous des déploiements réussis notablesNotes de bas de page7.

  • Vente aux enchères de betteraves sucrières danoises, le premier exemple réussi de déploiement du calcul multiparties sécurisé, en 2008, où la confidentialité des soumissions des agriculteurs pour des contrats a été assurée.
  • Études sur la disparité de salaire entre les hommes et les femmes du Boston Women's Workforce CouncilNotes de bas de page8, qui ont été menées pour la première fois en 2016 et qui visaient à analyser les données sur la paye de plusieurs employeurs pour établir une feuille de route du changement pour la ville et ses employeurs.
  • Étude du gouvernement estonien qui a été menée en 2015 et qui visait à analyser les dossiers fiscaux et scolaires pour déterminer si le fait de travailler à temps partiel pendant les études faisait augmenter le taux d'échecNotes de bas de page9.

Cas d'utilisation

Le calcul multiparties sécurisé est très populaire pour les cas d'utilisation où des organisations doivent échanger des données avec plusieurs parties ou analyser des données provenant de plusieurs parties sans divulguer leurs données ou leur modèle d'analyse aux autres parties.

Cette liste illustre la portée et l'ampleur des applications du calcul multiparties sécurisé.

  • Collaboration avec des parties disparates, par exemple, échange de données sur les citoyens entre des ministères et des institutions financières ou échange de dossiers médicaux électroniques entre des hôpitaux, des pharmacies et des assureurs.
  • Exploration de données réparties : Collecte de données privées à partir de sources de données indépendantes pour apprendre quelque chose qui n'est pas possible à partir d'une source unique, par exemple, trouver des contribuables frauduleux au moyen de données d'entreprise privées ou d'autres données sur les contribuables.
  • Gestion des clés : Protection des clés d'authentification pendant leur utilisation.
  • Infonuagique : Échange de données, analyse des données et apprentissage automatique entre plusieurs fournisseurs de services infonuagiques inconnus.
  • Surveillance de la sécurité de plusieurs réseaux entre des entités pour regrouper des données privées.
  • Filtrage des pourriels dans les courriels chiffrés.
  • Découverte médicale, par exemple, applications de recherche des contacts avec des personnes ayant une maladie ou un virus combinant les données de nombreux hôpitaux pour la recherche en génomique.
  • Évitement de la collision de satellites sans divulguer leur emplacement.

Conclusion

La conscience que les données personnelles peuvent être compromises dans une atteinte à la protection des données ou peuvent être utilisées de façon malveillante par des entreprises dont les intérêts ne cadrent pas avec ceux de leurs utilisateurs augmente. De nouveaux règlements font de la détention de données personnelles un risque de responsabilité pour les entreprises. Le calcul multiparties sécurisé est devenu une technique puissante et polyvalente pour obtenir des renseignements sur l'échange de données sans jamais les exposer directement.

Bien qu'il n'y ait pas de produit ou de technique unique qui puisse satisfaire à toutes les exigences relatives à la sécurité des données, le calcul multiparties sécurisé peut être utilisé comme une défense avec d'autres mesures de protection des données, comme le masquage des données, et d'autres techniques de préservation de la confidentialité, comme la confidentialité différentielle et le chiffrement homomorphique.

Prochaines étapes

Gartner s'attend à ce que le calcul multiparties sécurisé soit transformationnel au cours des cinq à dix prochaines années (Lowans, 2020). Pour être prête, compte tenu de la quantité de données privées qu'elle détient et de la pression exercée pour que ces données soient protégées, une organisation devrait continuer de faire des recherches sur le calcul multiparties sécurisé et d'autres techniques de protection des données et de préservation de la confidentialité.

Sujets connexes : Anonymisation des données, confidentialité différentielle, chiffrement homomorphique, environnements d'exécution fiables/informatique confidentielle, apprentissage fédéré

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

MS Teams – le lien sera fourni aux participants par courriel

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Références

Introduction aux techniques cryptographiques — Environnement d'exécution fiable

Protection fondée sur le matériel informatique relativement aux données en cours d'utilisation qui peuvent être appliquées n'importe où

par Betty Ann Bryanton, Agence du revenu du Canada

Introduction

La popularité croissante des appareils connectés et la prévalence des technologies, comme l'infonuagique, l'informatique mobile et l'Internet des objets (IdO), ont mis à rude épreuve les capacités de sécurité existantes et exposé des « lacunes dans la sécurité des données » (Lowans, 2020). Les organisations qui traitent des renseignements identificatoires personnels (RIP) doivent « atténuer les menaces qui ciblent la confidentialité et l'intégrité de l'application ou des données dans la mémoire système » (Confidential Computing Consortium, 2021).

Par conséquent, Gartner prédit que « d'ici 2025, 50 % des grandes organisations adopteront l'informatique d'amélioration de la confidentialité pour le traitement des données dans des environnements non fiables et des cas d'utilisation de l'analyse multipartite de données »Notes de bas de page1Notes de bas de page2 (Gartner, 2020). Parmi les nombreuses techniques d'informatique d'amélioration de la confidentialité, l'environnement d'exécution de confiance est la seule technique qui s'appuie sur le matériel informatique pour atteindre son objectif d'amélioration de la confidentialité.

Qu'est-ce qu'un environnement d'exécution de confiance?

Un environnement d'exécution de confiance (EEC), également appelé enclave sécurisée, est un environnement construit avec des modules matériels spéciaux qui permet d'avoir une zone sécurisée à l'intérieur de l'appareil. Cet environnement isolé fonctionne en parallèle avec le système d'exploitation (OS). L'information est transmise dans l'EEC et le calcul est effectué à même l'EEC (« monde sécurisé ») et demeurent ainsi protégées du reste du système non fiable (« monde normal »). Ces environnements sécurisés et isolés protègent la confidentialité et l'intégrité du contenu, empêchant ainsiNotes de bas de page3 l'accès non autorisé ou la modification des applications et des données lors de leur utilisation.

Le terme « informatique confidentielle » est souvent utilisé comme synonyme d'EEC; les termes sont liés, mais distincts. Conformément au Confidential Computing Consortium, l'informatique confidentielle estNotes de bas de page4activée par l'EEC. De plus, l'informatique confidentielle fournie par l'EEC fondé sur le matériel informatique est indépendante de l'emplacement topographique (aucune mention de nuage informatique, de l'appareil d'un utilisateur, etc.), des processeurs (un processeur normal ou un processeur séparé) ou des techniques d'isolation (p. ex. si le chiffrement est utilisé).

Pourquoi le matériel informatique est-il nécessaire?

« La sécurité n'est aussi forte que les couches inférieures, car la sécurité de toute couche de la pile informatique pourrait potentiellement être contournée par une atteinte à la sécurité d'une couche sous-jacente » (Confidential Computing Consortium, 2021). En déplaçant la sécurité au plus bas niveau de silicium, cela réduit la possibilité de compromission, car elle minimise les dépendances qui sont plus hautes dans la pile informatique (p. ex. le système d'exploitation, les périphériques et les administrateurs et fournisseurs).

Pourquoi est-ce important?

L'utilisation d'un EEC permet de fournir une immense gamme de fonctionnalités à l'utilisateur, tout en répondant aux exigences en matière de protection des renseignements personnels et de confidentialité, sans exposer les données à des risques lorsqu'elles sont déchiffrées durant le traitement. Cela permet aux utilisateurs de protéger la propriété intellectuelle et de s'assurer que les RIP sont inaccessibles. Cela assure une protection contre les menaces internes, les attaquants qui exécutent du code malveillant ou les fournisseurs de services infonuagiques inconnus. Ainsi, les EEC représentent une couche cruciale dans une approche de sécurité en couches (c'est-à-dire une défense en profondeur) et ils « ont le potentiel de renforcer considérablement la sécurité des systèmes » (Lindell, 2020).

Utilisations

Un EEC « peut être appliqué n'importe où, y compris sur les serveurs infonuagiques publics, les serveurs hébergés sur place, les passerelles, les appareils de l'IdO, les déploiements informatiques de pointeNotes de bas de page5, les appareils d'utilisateurs, etc. » (Confidential Computing Consortium, 2021).

  • Vous trouverez ci-dessous un résumé des cas d'utilisation possibles pour un EEC tiré du document : Confidential Computing: Hardware-Based Trusted Execution for Applications and Data (en anglais seulement). Clés, secrets, informations d'identification, jetons : Ces ressources de grande valeur sont les « clés du royaume ». Dans le passé, le stockage et le traitement de ces ressources nécessitaient un module de sécurité matériel (MSM) sur place, mais dans les EEC, les applications pour gérer ces ressources peuvent fournir une sécurité comparable à celle d'un MSM traditionnel.
  • Informatique multipartite : Les EEC permettent aux organisations, comme celles qui offrent des services financiers ou des soins de santé, de tirer parti des données partagées (p. ex. l'analyse fédérée), sans compromettre les sources de données.
  • Informatique mobile, informatique personnelle et appareils de l'IdO : Les fabricants d'appareils ou les développeurs d'applications comportent des EEC pour assurer que les données personnelles ne sont pas perceptibles durant le partage ou le traitement.
  • Appareils de point de vente / traitement des paiements : Pour protéger les renseignements saisis par l'utilisateur, comme un numéro d'identification personnel, l'information figurant sur le pavé numérique est lisible uniquement par code dans l'EEC fondé sur le matériel informatique de l'appareil, ce qui fait en sorte que l'information ne peut pas être lue ou attaquée par un logiciel malveillant qui peut se trouver dans l'appareil.

Avantages

  • Environnement contrôlé : Étant donné que l'EEC fonctionne au moyen de matériel informatique spécialisé, il est contrôlé et cela empêche l'écoute clandestine pendant que les données chiffrées sont déchiffrées.
  • Confidentialité : Il est possible de chiffrer les RIP dans une base de données; toutefois, pour traiter les données, elles doivent être déchiffrées et à ce moment-là, elles sont vulnérables aux attaquants et aux menaces internes. Si les données ne sont déchiffrées et traitées qu'à l'intérieur de l'EEC, elles sont isolées des utilisateurs non autorisés, protégeant ainsi la confidentialité des données.
  • Vitesse : Étant donné que l'EEC est déjà une enclave sécurisée, le code ou les données peuvent exister sous forme non chiffrée dans l'EEC. Si c'est le cas, « cela permet à l'exécution dans l'EEC d'être beaucoup plus rapide que l'exécution liée à la cryptographie complexe » (Choi et Butler, 2019).
  • Confiance : Étant donné que les données dans l'EEC ne sont pas obscurcies (comme dans certaines autres techniques d'informatique d'amélioration de la confidentialité), cela fournit une certaine satisfaction que le calcul et ses résultats sont corrects, c'est-à-dire qu'il n'y a pas d'erreurs introduites par les techniques d'obscurcissement.
  • Séparation des préoccupations : Étant donné qu'il y a deux environnements distincts, il y a une séparation entre la charge de travail et les données administrées et détenues par le « monde normal » par rapport à la charge de travail et aux données isolées dans le « monde sécurisé ». Cela offre une protection contre les menaces internes et les charges de travail potentiellement corrompues qui sont effectuées sur le même appareil.
  • Déchiffrement : Si les données sont chiffrées dans l'EEC, elles doivent être déchiffrées pour être traitées; cependant, ce déchiffrement a avantage à être effectué dans un espace étroitement contrôlé.

Défis à relever

  • Mise en œuvre : La mise en œuvre est difficile et nécessite des connaissances et une expertise personnalisées, qu'il s'agisse de créer l'ensemble du système d'exploitation sécurisé de toutes pièces, d'utiliser un système d'exploitation de confiance d'un fournisseur commercial, ou de mettre en œuvre des composantes émergentes comme des trousses de développement logiciel, des bibliothèques ou des utilitaires.
  • Absence d'uniformisation : Les EEC n'offrent pas tous les mêmes garanties de sécurité ou les mêmes exigences concernant l'intégration du code existant et du nouveau code.
  • Spécification de conception: C'est la responsabilité du développeur de L'EEC d'assurer une conception d'EEC sécurisée. La simple existence d'un EEC ne suffit pas.
  • Verrouillage : Il existe un potentiel d'immobilisation et de dépendances avec les fournisseurs de matériel informatique, les développeurs d'EEC ou le traitement propriétaire (en raison de l'absence d'uniformisation).
  • Pas invincible : Il est possible qu'il y ait des attaques par canal auxiliaireNotes de bas de page6, des codes d'application vulnérables ou des vulnérabilités en matière de sécurité fondée sur le matériel informatique (p. ex. dans la puce matérielle), ce qui peut entraîner l'effondrement de tout le modèle de sécurité.
  • Rendement et coût : Par rapport à la configuration et au traitement dans un « monde normal », l'utilisation d'un EEC (« monde sécurisé ») a des répercussions négatives sur le rendement et coûtera plus cher.

Qu'est-ce qui est possible maintenant?

Les EEC sont fournis par des solutions numériques comme la solution Intel® Software Guard eXtensions (SGX) ou Arm TrustZone; par l'entremise de trousses de développement logiciel de fournisseurs de matériel informatique; ou au moyen de couches d'abstraction (p. ex. Google Asylo) qui éliminent la nécessité de coder explicitement pour un EEC.

De nombreux fournisseurs de services infonuagiques (p. ex. Alibaba, Microsoft, IBM et Oracle) fournissent désormais des capacités d'EEC comme service spécialisé de bas niveau conforme à leurs offres d'informatique. Cependant, en raison de l'absence d'uniformisation, les particularités proposées par les fournisseurs de services infonuagiques devraient être examinées attentivement pour assurer qu'elles respectent les exigences souhaitées de l'organisation en matière de confidentialité et de sécurité (Fritsch, Bartley et Ni, 2020).

Quelle est la prochaine étape?

Bien que la protection des données de nature délicate présente d'importants défis en matière d'architecture, de gouvernance et de technologie, l'utilisation d'un EEC peut offrir un point de départ pour d'autres moyens afin d'améliorer la sécurité à partir du niveau le plus bas.

Cependant, un EEC n'est pas une solution prête à l'emploi, il s'agit d'un mécanisme qui comprend des difficultés techniques qui « devrait être réservé aux cas d'utilisation les plus à risque » (Lowans, 2020). Néanmoins, « il est certainement plus difficile de voler des secrets depuis l'intérieur [d'un EEC sécurisé que dans le « monde normal » non sécurisé]. Cela complique le travail de l'attaquant, ce qui est toujours une bonne chose » (Lindell, 2020).

Sujets connexes 

Chiffrement homomorphe, Informatique multipartite sécurisée, confidentialité différentielle, anonymisation des données, module de plate-forme de confiance.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

MS Teams – le lien sera fourni aux participants par courriel

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Références

Ottawa accueille le Congrès mondial de la statistique en juillet 2023

Par : Bridget Duquette, Statistique Canada

Cet été, le 64e Congrès mondial de la statistique (CMS) (en anglais seulement)  de l’Institut international de statistique (IIS) (en anglais seulement) aura lieu à Ottawa du 16 au 20 juillet, au Centre Shaw. Le CMS proposera une variété de discussions d’experts, de présentations et d’activités sociales, ainsi que des possibilités de réseautage et de recrutement. Il s’agit d’une occasion unique de collaboration et de partage des connaissances entre des scientifiques des données, des statisticiens et des méthodologistes de partout dans le monde.

Organisé tous les deux ans depuis 1887, le CMS réunit des statisticiens, des représentants du milieu universitaire et des chefs d’entreprise, en plus de contribuer à façonner le paysage de la statistique et de la science des données à l’échelle mondiale. Le Canada n’a accueilli ce prestigieux événement qu’une seule fois auparavant, en 1963, aussi à Ottawa.  

La tradition veut que le pays hôte du CMS organise des activités sociales pour les participants. Cette année, on proposera aux invités internationaux une visite de certains lieux situés au cœur du centre-ville d’Ottawa, guidée par Eric Rancourt, statisticien en chef adjoint, et Claude Girard, méthodologiste principal à Statistique Canada.

Il est possible de jeter un coup d’œil au programme du congrès (en anglais seulement) . Celui-ci fournit des renseignements sur les présentations, lesquelles porteront sur un grand éventail de sujets d’intérêt pour les scientifiques des données. Cette année, le conférencier principal sera l’ancien directeur du Census Bureau des États-Unis, l’illustre professeur Robert M. Groves.

Le Centre Shaw d’Ottawa

Photo 1 : Le Centre Shaw d’Ottawa.

Kenza Sallier, méthodologiste principale à Statistique Canada et coauteure du récent article intitulé Tirer le maximum de la synthèse de données grâce au guide d’utilisation des données synthétiques pour les statistiques officielles est heureuse de participer une fois de plus au congrès — et pour la première fois en présentiel.

« J’ai assisté au CMS en 2021, au beau milieu de la pandémie (et de la collecte des données du recensement), confie-t-elle. J’ai eu la chance incroyable de présenter les réalisations de Statistique Canada dans le domaine de la synthèse des données et d’être invitée à participer à une réunion d’experts pour partager mon expérience en tant que jeune femme statisticienne dans le monde de la statistique officielle. Même si l’événement était virtuel, il m’a permis de rencontrer un grand nombre de personnes intéressantes et de tisser des liens avec elles. J’ai hâte de participer au CMS de 2023, qui aura lieu en personne. Je présenterai, aux côtés de mon collègue Craig Hilborn, les travaux que nous avons réalisés ensemble et j’espère recevoir les commentaires de nos pairs. »

Shirin Roshanafshar, chef de l’analyse des textes et de la numérisation à Statistique Canada, participera également au congrès et prendra la parole durant la séance sur les défis liés aux techniques de traitement du langage naturel en matière de statistiques officielles.

Pour tous les participants, qu’ils y assistent pour la première fois ou pour la cinquième, le CMS de 2023 promet d’être une expérience inoubliable. « Le congrès encourage la collaboration, la croissance, la découverte et l’avancement dans le domaine de la science des données, dit Stephen Penneck, président de l’IIS. Je suis ravi que le 64e Congrès mondial de la statistique ait lieu au Canada et il me tarde de constater l’incidence qu’il aura sur l’industrie ».

Restez à l’affût pour un compte-rendu de cet événement mondial et des avancées qui en découleront.

Date de modification :

Introduction aux techniques cryptographiques d'amélioration de la confidentialité

Preuve à divulgation nulle de connaissance – Prouver quelque chose sans divulguer de renseignements

Par : Betty Ann Bryanton, Agence du revenu du Canada

Introduction

D'énormes quantités de données sont recueillies par les organismes gouvernementaux, les moteurs de recherche, les systèmes de réseautage social, les hôpitaux, les institutions financières et d'autres organisations. Ces données, stockées de façon centralisée, entraînent un risque d'atteinte à la sécurité. De plus, les personnes naviguent sur Internet, acceptent les témoins de connexion et partagent des renseignements identificatoires personnels (RIP) en échange de services, d'avantages, de recommandations, etc. Pour faciliter le commerce électronique et les services d'accès, les personnes doivent s'authentifier, ce qui signifie de fournir des « preuves » pour indiquer qu'elles sont bien la personne qu'elles disent être. Cela peut signifier de fournir un mot de passe, un numéro de permis de conduire, un numéro de passeport ou un autre identificateur personnel. Ces données pourraient être volées, et leur partage pourrait compromettre les RIP connexes, comme l'âge et l'adresse du domicile. Des preuves à divulgation nulle de connaissance peuvent aider dans ces scénarios.

Qu'est-ce que la preuve à divulgation nulle de connaissance?

La preuve à divulgation nulle de connaissance (PDNC) fait partie des différentes techniques cryptographiques d'amélioration de la confidentialité et elle peut être utilisée pour appliquer, à des niveaux détaillés, des contrôles de protection de la vie privée nécessitant un accès minimal et fondés sur des principes de protection de la vie privée dès la conceptionNotes de bas de page1.

Habituellement, une preuve que l'affirmation X est vraie révèle aussi des renseignements sur la raison pour laquelle X est vraie. Les PDNC, cependant, prouvent qu'une déclaration est vraie sans révéler de connaissance supplémentaire. Il est important de noter que les PDNC ne garantissent pas une preuve à 100 %, mais qu'ils offrent un très haut degré de probabilité.

Les PDNC utilisent des algorithmes qui prennent les données en tant qu'entrées et qui renvoient soit « vrai » soit « faux » en tant que sorties. Cela permet à deux parties de vérifier la vérité de l'information sans révéler l'information ou la façon dont la vérité a été déterminée. Par exemple, une personne peut prouver la déclaration « Je suis un adulte âgé d'au moins 21 ans » sans fournir de données aux fins de vérification à un serveur central.

La PDNC a été introduite par des chercheurs du MIT en 1985Notes de bas de page2 et elle est maintenant utilisée pour de nombreuses applications dans le monde réel.

PDNC et autres concepts

La PDNC se distingue des concepts suivants :

De plus, la PDNC ne doit pas être confondue avec la norme de chiffrement avancé, dans le cadre de laquelle les parties partagent un numéro secret. Dans le cas de la PDNC, le démonstrateur montre qu'il possède un numéro secret sans divulguer ce numéro. Dans les deux cas, les parties ont un secret partagé, mais avec la PDNC, l'objectif est de faire des affirmations sans révéler de renseignements superflus.

Comment fonctionne la PDNC?

Pour comprendre le fonctionnement de la PDNC, prenons le scénario d'une démonstratrice (Peggy) et d'un vérificateur (Victor). L'objectif de la PDNC est de prouver une déclaration avec une probabilité très élevée sans révéler de renseignements supplémentaires.

Peggy (la démonstratrice) veut prouver à Victor (le vérificateur, qui est daltonien et ne lui fait pas confiance) que deux balles sont de couleurs différentes (p. ex. une balle verte et une balle rouge). Peggy demande à Victor de révéler une des balles, puis de mettre les deux balles derrière son dos. Puis, Peggy demande à Victor de les échanger ou non, puis de lui en montrer une. Elle répond si c'est la même couleur ou si elle est différente de la précédente. Bien sûr, elle pourrait deviner, mentir, ou être elle-même daltonienne. Ainsi, afin de le convaincre qu'elle dit la vérité, ce processus doit être répété à maintes reprises. En faisant cela, Peggy finira par convaincre Victor qu'elle a la capacité d'identifier correctement les différentes couleurs.

Ce scénario satisfait aux trois critères d'une PDNC :

  1. Validité (la qualité d'être fondé sur une raison valable) : Si Peggy ne disait pas la vérité, ou si elle était daltonienne, elle ne pourrait deviner correctement que 50 % du temps.
  2. Exhaustivité : Après avoir répété ce processus (la « preuve ») à de très nombreuses reprises, la probabilité que Peggy devine correctement serait très faible, convainquant Victor que les balles sont de couleurs différentes.
  3. Connaissance nulle : Victor n'apprend rien de plus; il n'apprend même jamais quelle balle est verte et quelle balle est rouge.

Ce qui est expliqué ci-dessus, c'est la démonstration interactive, qui exige une communication dans les deux sens entre deux parties. Les PDNC d'aujourd'hui utilisent une démonstration non interactive, selon laquelle deux parties ont une clé commune pour transmettre et recevoir de l'information. Par exemple, une clé délivrée par le gouvernement dans le cadre d'un passeport pourrait être utilisée pour démontrer la citoyenneté sans révéler le numéro de passeport ou le nom du citoyen.

Pourquoi est-ce important?

Les PDNC assurent un flux de données sécurisé et invisible, protégeant les renseignements des utilisateurs contre les fuites potentielles et le vol d'identité. Cela améliore le commerce électronique en permettant des transactions plus privées et sécurisées.
L'utilisation de la PDNC aide non seulement à lutter contre les risques liés à la sécurité des données, mais cette technique de vérification minimale viable aide aussi à empêcher la divulgation d'un plus grand nombre de RIP que nécessaire. Cela profite à la fois aux particuliers et aux organisations. Les personnes n'ont pas à partager leurs RIP et les organisations qui sont confrontées à une augmentation des atteintes à la sécurité, et donc à des coûts importants, à une atteinte à la réputation et à une perte de confiance, ne reçoivent pas les RIP qui pourraient être divulgués.
Un autre avantage pour les particuliers et les organisations est une vérification plus efficace, réduisant les processus à goulot d'étranglement qui reposent sur un fardeau de preuve manuel ou inefficace.
Une vérification positive et efficace entre les parties (même les parties non fiables) ouvre de nombreuses pistes de collaboration et de demandes de renseignements.

Applications et cas d'utilisation

Les PDNC peuvent protéger la confidentialité des données dans un ensemble diversifié d'applications et de cas d'utilisation, dont les suivants :

  • Finances : Un demandeur d'hypothèque ou de bail peut prouver que son revenu se situe dans une certaine fourchette sans révéler son salaire. (Selon Dilmegani, 2022, l'institution financière ING utilise déjà cette technologie.)
  • Vote en ligne : La PDNC peut permettre un vote anonyme et vérifiable et contribuer à prévenir la fraude ou la manipulation du vote.
  • Apprentissage automatique : Un propriétaire d'algorithme d'apprentissage automatique peut convaincre les autres des résultats du modèle sans révéler de renseignements sur le modèle.
  • Sécurité de chaînes de blocs : Les transactions peuvent être vérifiées sans partager de renseignements tels que les adresses des portefeuilles et les montants avec des systèmes tiers.
  • Gestion de l'identité et des justificatifs d'identité : La vérification sans identité pourrait s'appliquer à l'authentification, à la messagerie chiffrée de bout en bout, aux signatures numériques ou à toute application nécessitant des mots de passe, des passeports, des certificats de naissance, des permis de conduire ou d'autres formes de vérification de l'identité. Les systèmes de prévention de la fraude pourraient valider les justificatifs d'identité des utilisateurs et les RIP pourraient être anonymisés aux fins de conformité aux règlements ou d'identité décentralisée.
  • Sécurité internationale : Les PDNC permettent de vérifier l'origine d'un élément d'information sans révéler sa source. Cela signifie que les cyberattaques peuvent être attribuées à une entité ou à un pays particulier sans révéler la façon dont les renseignements ont été obtenus. C'est déjà utilisé par le ministère de la Défense des États-Unis (Zero-knowledge proof: how it works and why it's important, n.d.).
  • Désarmement nucléaire : Les pays pourraient échanger en toute sécurité des preuves de désarmement sans exiger l'inspection physique d'installations nucléaires classifiées.
  • Passeports vaccinaux relatifs à la COVID-19 et aux déplacements : Comme c'est actuellement le cas au Danemark, les personnes pourraient prouver leur statut vaccinal sans avoir à fournir leurs RIP (Shilo, 2022).
  • Applications relatives à la vérification ou à la conformité : Tout processus nécessitant une vérification de la conformité pourrait utiliser la PDNC. Cela pourrait comprendre la vérification que les impôts ont été déposés, qu'un avion a été entretenu ou que les données sont conservées par un teneur de registres.
  • Paiements anonymes : Les paiements par carte de crédit pourraient être effectués sans être visibles pour plusieurs parties, comme les fournisseurs de paiements, les banques et les autorités gouvernementales.

Défis

Alors que la PDNC présente de nombreux avantages, elle pose aussi certains défis que doivent prendre en considération les organisations qui souhaitent l'utiliser.

  • Intensité du calcul : Les algorithmes de PDNC sont intenses sur le plan du calcul. Dans le cas des PDNC interactives, de nombreuses interactions entre le vérificateur et le démonstrateur sont requises, et dans le cas des PDNC non interactives, des capacités de calcul importantes sont requises. Cela rend les PDNC inadaptées aux appareils lents ou mobiles et peut causer des problèmes d'extensibilité pour les grandes entreprises.
  • Coûts du matériel : Les entités qui veulent utiliser des PDNC doivent tenir compte des coûts du matériel qui peuvent augmenter les coûts pour les utilisateurs finaux.
  • Hypothèses de confiance : Bien que certains paramètres publics des PDNC soient disponibles aux fins de réutilisation et que les participants à la configuration approuvée sont censés être honnêtes, les destinataires doivent compter sur l'honnêteté des développeurs (What are zero-knowledge proofs?, 2023).
  • Menaces de l'informatique quantique : Bien que les algorithmes cryptographiques de PDNC soient actuellement sécurisés, le développement d'ordinateurs quantiques pourrait éventuellement briser le modèle de sécurité.
  • Coûts d'utilisation de la technologie : Les coûts des PDNC peuvent varier en fonction des exigences de configuration, de l'efficacité, des exigences en matière d'interactivité, de la concision de la preuve et des hypothèses de difficulté requises (Big Data UN Global Working Group, 2019).
  • Manque de normes : Malgré les initiatives en cours visant à normaliser les techniques et les constructions nulles de connaissance, il n'y a toujours pas de normes, de systèmes, ni de langages homogènesNotes de bas de page3.
  • Aucune garantie à 100 % : Même si la probabilité de vérification pendant que le démonstrateur ment peut être considérablement faibleNotes de bas de page4, les PDNC ne garantissent pas que la déclaration est valide à 100 %.
  • Compétences : Les développeurs de PDNC doivent avoir une expertise en cryptographie de PDNC et être conscients des subtilités et des différences entre les garanties fournies par les algorithmes de PDNC.

QuelleS sont les prochaines étapes?

Au cours des dernières années, il y a eu une forte pression en faveur de l'adoption de connaissances nulles dans les applications logicielles. Plusieurs organisations ont construit des applications utilisant des capacités nulles de connaissance (NC), et les PDNC sont largement utilisées pour protéger les chaînes de blocs. Par exemple, la ville de Zoug en Suisse a enregistré tous ses numéros d'identification de citoyens sur une chaîne de blocs (Anwar, 2018).

Bien qu'il doive y avoir des améliorations en matière d'éducation, de normalisation et de certifications de confidentialité relatives à la méthode NC pour améliorer la confiance dans les produits et services NC, les PDNC ont un grand potentiel pour économiser les coûts organisationnels relatifs aux atteintes à la sécurité, ainsi que pour préserver la vie privée des utilisateurs et réduire l'utilisation de RIP comme produit à vendre. Les PDNC aident une organisation à passer de la réaction aux atteintes à la sécurité à leur prévention.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Sujets connexes

Authentification, chaîne de blocs, Web 3.0, techniques d'amélioration de la confidentialité : confidentialité différentielle, chiffrement homomorphe, calcul sécurisé multipartite, environnement d'exécution de confiance

Références

Date de modification :

Le raisonnement qui sous-tend les décisions prises par un réseau de neurones profond

Par : Oladayo Ogunnoiki, Statistique Canada

Introduction

En mai 2016, Microsoft a présenté Tay à la twittosphère. Tay était un robot conversationnel expérimental à intelligence artificielle (IA) en matière de « compréhension de la conversation ». Plus on discutait avec Tay, plus son intelligence pouvait augmenter. Cependant, il n'a pas fallu longtemps pour que l'expérience tourne mal. Tay était censé avoir des discussions ludiques avec les gens, mais ce badinage ludique s'est rapidement transformé en commentaire misogyne et raciste.

Certes, le public était resté perplexe devant la tournure qu'avaient prise ces événements. Si ce robot était intrinsèquement grossier, pourquoi les autres modèles d'IA ne perdraient-ils pas aussi le cap? La plupart des utilisateurs de Twitter ont eu l'impression que ce fâcheux événement n'était qu'un soupçon de ce qui allait advenir si notre avenir allait effectivement se trouver empreint d'une profusion de modèles d'IA. Cependant, la plupart des scientifiques des données comprenaient la véritable raison qui avait poussé Tay à faire ce commentaire disgracieux — le robot ne faisait que répéter ce qu'il avait appris des utilisateurs eux-mêmes (Vincent, 2016).

Le monde de l'IA continue de croître de façon exponentielle et, avec des histoires comme celle-ci qui se produisent tout le temps, il est grandement nécessaire d'accroître la confiance du public à l'égard des produits de l'IA. Pour gagner cette confiance, la transparence et la capacité d'expliquer sont de la plus haute importance.

L'une des principales questions que poserait quiconque interagit avec un modèle d'IA comme Tay est : « Pourquoi le modèle a-t-il pris cette décision? » Plusieurs outils ont été conçus pour expliquer le raisonnement qu'adoptent ces modèles et répondre à cette question. Il n'est peut-être pas étonnant que les représentations visuelles soient une façon efficace d'expliquer cela. Dans leur travail, Ramprasaath et coll. (2017) décrivent les exigences d'une bonne représentation visuelle; celle-ci doit être exempte de discrimination classiste et avoir une haute résolution. Ces critères servent de lignes directrices pour déterminer le défi à relever, soit trouver une solution qui fournit une représentation visuelle à haute résolution et permet la discrimination des classes pour les décisions d'un réseau neuronal.

Certaines des techniques qui fournissent des représentations visuelles comprennent la déconvolution, la rétropropagation guidée, la carte d'activation de classe (CAM), la CAM pondérée par gradient (Grad-CAM), la Grad-CAM++, la Hi-Res-CAM, la Score-CAM, l'Ablation-CAM, la X-Grad-CAM, l'Eigen-CAM, le Full-Grad et la factorisation profonde des caractéristiques. Aux fins du présent article, nous allons nous concentrer sur la Grad-CAM.

La Grad-CAM est un outil à source ouverte qui produit des représentations visuelles pour les décisions d'une grande classe de réseaux de neurones convolutifs. Elle fonctionne en mettant en évidence les zones de l'image qui ont la plus grande influence sur la prédiction finale du réseau neuronal profond, ce qui donne un aperçu du processus décisionnel du modèle.

La Grad-CAM est fondée sur la CAM qui utilise l'activation de la carte des caractéristiques par rapport à la classe cible. Elle est propre à certains types de réseaux neuronaux, comme le réseau du Visual Geometry Group et le réseau résiduel (ResNet). Il utilise le gradient de la classe cible par rapport aux cartes des caractéristiques de la couche finale. La Grad-CAM est une méthode générique qui peut être appliquée à différents types de réseaux neuronaux. La combinaison des caractéristiques fait de la Grad-CAM un outil fiable et précis pour comprendre le processus décisionnel des réseaux neuronaux profonds. La Grad-CAM guidée est améliorée en intégrant les gradients du processus de rétropropagation guidée afin de produire une carte thermique plus raffinée. L'une des limites est qu'elle est seulement capable de visualiser les zones de l'image qui sont les plus importantes pour la prédiction finale, par opposition à l'ensemble du processus décisionnel du réseau neuronal profond. Cela signifie qu'elle ne peut fournir une compréhension complète de la façon dont le modèle fait ses prédictions.

Les avantages de la Grad-CAM comprennent les suivants :

  • Il n'y a aucun compromis entre la complexité et la performance du modèle, ce qui permet plus de transparence.
  • Elle s'applique à un large éventail de réseaux de neurones convolutifs (RNC).
  • Elle permet de très bien discriminer les classes.
  • Elle est utile pour diagnostiquer les modes de défaillance en découvrant les biais dans les ensembles de données.
  • Elle aide les utilisateurs non formés à reconnaître un réseau fort ou un réseau faible, même lorsque les prédictions sont identiques.

Méthodologie

La Grad-CAM peut être utilisée dans plusieurs projets de vision par ordinateur comme la classification d'images, la segmentation sémantique, la détection d'objets, le sous-titrage d'images, la réponse aux questions visuelles, etc. Elle peut être appliquée aux RNC et a récemment été rendue disponible sur les architectures de type transformeur.

Voici comment la Grad-CAM fonctionne dans la classification des images, où l'objectif est de faire la distinction entre différentes classes :

Le flux du processus de la carte d’activation de classe pondérée par gradient (Grad-CAM)
Déscription - Figure 1 Le flux du processus de la carte d'activation de classe pondérée par gradient (Grad-CAM)

Une image passe par un RNC et un réseau propre à la tâche pour obtenir un score brut pour la classe de l'image. Ensuite, les gradients sont réglés à zéro pour toutes les classes, à l'exception de la classe désirée, qui est définie à un. Ce signal est ensuite rétropropagé aux cartes des caractéristiques convolutives rectifiées d'intérêt, qui sont combinées pour calculer une carte thermique bleue qui représente l'endroit où le modèle doit regarder pour décider de la classe. Enfin, la carte thermique est multipliée point par point par la rétropropagation guidée, ce qui produit des visualisations Grad-CAM guidées qui sont à haute résolution et propres au concept.

Dans le cas d'une tâche de classification d'image, pour obtenir la carte de localisation discriminative de classe Grad-CAM, LGrad-CAMc , pour un modèle sur une classe spécifique, les étapes suivantes sont suivies :

  • Pour une classe spécifique, c, la dérivée partielle du score, yc , de la classe, c, en ce qui concerne les cartes de caractéristiques, Ak , d'une couche convolutive est calculée au moyen de la rétropropagation.
    ycAijk
  • Les gradients qui remontent en raison de la rétropropagation sont regroupés par mise en commun globale de la moyenne. Cela produit un ensemble de scalaires de poids. Voici les poids d'importance des neurones.
    αkc= 1ZijycAijk
  • Les poids scalaires dérivés sont appliqués (combinaison linéaire) à la carte des caractéristiques. Le résultat est transmis par une fonction d'activation de l'unité linéaire rectifiée (ou ReLU pour Rectified Linear Unit).
    LGrad-CAMc=ReLUkαkcAk
  • Le résultat est mis à l'échelle et appliqué à l'image, mettant en évidence les zones sur lesquelles se concentre le réseau neuronal. Comme nous l'avons vu, une fonction d'activation ReLU est appliquée à la combinaison linéaire de cartes, parce qu'elle ne s'intéresse qu'aux pixels ou aux caractéristiques ayant une influence positive sur le score de classe, yc .

Démonstration de la Grad-CAM

Deux chats et deux télécommandes
Déscription - Figure 2 Deux chats et deux télécommandes

Image où figurent deux chats égyptiens allongés sur un canapé rose avec une télécommande à la gauche de chacun.

La figure 2 est une image illustrant deux chats égyptiens et deux télécommandes. L'image a été dérivée de l'ensemble de données d'images de chat de Hugging Face, au moyen de leur bibliothèque Python. L'objectif est de déterminer les éléments de l'image au moyen de différents modèles d'apprentissage profond préentraînés. On utilise une trousse PyTorch appelée PyTorch-GradCAM. La fonction Grad-CAM détermine les aspects de l'image qui activent la carte des caractéristiques de la classe chat égyptien et de la classe télécommande. Après avoir suivi le tutoriel de PyTorch-GradCAM, les résultats de la Grad-CAM sont répliqués pour différents réseaux neuronaux profonds.

Résultats de la Grad-CAM d’une architecture Resnet-50 préentraînée pour classer l’image de la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.
Déscription - Figure 3 Résultats de la Grad-CAM d'une architecture Resnet-50 préentraînée pour classer l'image de la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.

Images de carte thermique générées à partir d'une architecture Resnet-50 au moyen d'une Grad-CAM pour la classe chat égyptien (à gauche) et la classe télécommande (à droite). L'intensité de la couleur rouge montre les zones qui contribuent le plus à la décision prise par le modèle. Il y a peu de zones intenses pour le chat, tandis que les télécommandes sont presque entièrement captées, mais pas de façon très intense.

La figure 2 est analysée par un réseau neuronal résiduel préentraîné (Resnet-50), conformément au tutoriel de PyTorch-Grad-CAM. La figure 3 est l'image générée au moyen de la Grad-CAM. Pour la classe chat égyptien, les pattes, les rayures et le visage des chats ont activé la carte des caractéristiques. Pour les télécommandes, ce sont les boutons et le profil qui ont activé la carte des caractéristiques. Les principales classes 5k prédites par modèle de réponse logit sont la télécommande, le chat tigré, le chat égyptien, le chat domestique marbré et l'oreiller. Ce modèle semble être plus sûr que l'image contient des télécommandes et des chats. La catégorie Oreiller s'est classée parmi les cinq premières catégories de la liste, bien que le modèle soit moins sûr. Cela pourrait être causé par le fait que le modèle a été formé avec des oreillers à imprimé de chat.

Les résultats de la Grad-CAM provenant d’un transformeur de fenêtre décalé (transformeur SWIN) préentraîné pour classer la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.
Déscription - Figure 4 Les résultats de la Grad-CAM provenant d'un transformeur de fenêtre décalé (transformeur SWIN) préentraîné pour classer la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.

Les images de carte thermique générées à partir d'un transformeur de fenêtre décalé (transformeur SWIN), en utilisant la Grad-CAM pour la classe chat égyptien (à gauche) et la classe télécommande (à droite). L'intensité de la couleur rouge montre les régions qui contribuent le plus à la décision prise par le modèle. Il y a plus de zones intenses pour les chats, tandis que les télécommandes sont presque entièrement captées avec une forte intensité.

Comme l'architecture Resnet-50, la même image est analysée par un transformeur de fenêtre décalé préentraîné. La figure 4 montre que la fourrure, les rayures, le visage et les pattes des chats sont des zones activées sur la carte des caractéristiques en ce qui concerne la catégorie chat égyptien. Il en va de même pour la carte des caractéristiques en ce qui concerne les télécommandes. Les principales classes 5k prédites, par modèle de réponse logit, sont le chat domestique marbré, le chat tigré, le chat domestique et le chat égyptien. Ce modèle est plus sûr que l'image montre des chats que des télécommandes.

Résultats de l’étude Grad-CAM d’une architecture de transformeur de vision préentraînée dans la classification de l’image à la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.
Déscription - Figure 5 Résultats de l'étude Grad-CAM d'une architecture de transformeur de vision préentraînée dans la classification de l'image à la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.

Images de la carte thermique générées à partir d'un transformeur de vision, au moyen de la Grad-CAM pour la classe chat égyptien (à gauche) et la classe télécommande (à droite). L'intensité de la couleur rouge montre les zones qui contribuent le plus à la décision du modèle. Les chats sont entièrement captés en haute intensité. Les distances sont aussi captées, mais pas avec une intensité équivalente. De plus, d'autres régions des images sont mises en surbrillance, même si elles ne font partie d'aucune des classes.

Comme nous l'avons vu ci-dessus, plus de zones de la carte des fonctions sont activées, y compris des sections de l'image qui ne comportaient pas de caractéristiques du chat. Il en va de même pour les régions de la carte des caractéristiques par rapport à la classe Télécommande. Les principales classes 5k prédites, par modèle de réponse logit, sont le chat égyptien, le chat tigré, le chat domestique marbré, la télécommande et le lynx.

Les résultats de la Grad-CAM avec les principales classes 5k pour différentes architectures peuvent être utilisés pour favoriser une sélection de l'architecture de transformeur de vision (VIT) pour les tâches liées à l'identification des chats égyptiens et des télécommandes.

Conclusion

Certains des défis dans le domaine de l'IA comprennent l'accroissement de la confiance des gens dans les modèles développés et la compréhension du raisonnement qui sous-tend la prise de décision propre à ces modèles pendant le développement. Les outils de visualisation comme la Grad-CAM fournissent un aperçu de ces justifications et aident à mettre en évidence les différents modes d'échec des modèles d'IA pour des tâches particulières. Ces outils peuvent être utilisés pour repérer les erreurs dans les modèles et améliorer leur performance. En plus de la Grad-CAM, d'autres outils de visualisation ont été développés comme la Score-CAM, qui fonctionne encore mieux dans l'interprétation du processus décisionnel des réseaux neuronaux profonds. Cependant, la Grad-CAM sera préférée à la Score-CAM en raison de sa simplicité et de son agnosticisme aux architectures modèles. L'utilisation d'outils comme la Grad-CAM devrait être favorisée pour la représentation visuelle du raisonnement sous-jacent aux décisions prises par les modèles d'IA.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Bibliographie

  • S. R. Ramprasaath, C. Michael, D. Abhishek, V. Ramakrishna, P. Devi et B. Dhruv, « Grad-CAM: Visual Explanations from Deep Networks through Gradient-based Localization », dans ICCV, IEEE Computer Society, 2017, p. 618-626.
  • Z. Bolei, K. Aditya, L. Agata, O. Aude et T. Antonio, « Learning Deep Features for Discriminative Localization », CoRR, 2015.
  • J. Vincent, « Twitter taught Microsoft's AI chatbot to be racist in less than a day », dans The Verge, 2016.
Date de modification :