Foire aux questions - ADTR

  • J'ai ouvert une session à partir de mon compte de transfert électronique de fichiers. Où se trouve l'ensemble de données?

    J'ai ouvert une session à partir de mon compte de transfert électronique de fichiers. Où se trouve l'ensemble de données?

    Les chercheurs qui utilisent l'accès à distance en temps réel (ADTR) ne disposent pas d'un accès direct aux microdonnées et ne peuvent pas voir le contenu des fichiers de microdonnées. Au lieu de cela, ils peuvent soumettre des programmes du SAS pour extraire des résultats sous la forme de tableaux statistiques.

  • Quels produits vais-je recevoir?

    Quels produits vais-je recevoir?

    Pour chaque programme SAS soumis avec succès, vous recevrez quatre types de fichiers :

    1. un journal SAS personnalisé (.log) : renferme tous les éléments d'un journal SAS standard, à l'exception du nombre d'observations, qui a été supprimé pour assurer la confidentialité;
    2. un journal d'ADTR créé par le système d'ADTR (.txt) : informe les utilisateurs de l'étape du processus d'ADTR atteinte par le programme SAS;
    3. ensembles de données SAS (.sas7bdat) : renferment les résultats sous forme de base de données SAS;
    4. tableau (.csv) : présente les données sous forme de base de données SAS;
    5. tableaux HTML (.html) : présentent les données en format HTML.

    Si vous ne recevez pas un ensemble de données de sortie SAS ou de tableau de données de sortie HTML, vérifiez vos journaux SAS et d'ADTR pour voir les erreurs associées à la soumission.

  • Pourquoi le nom du fichier de sortie est-il différent de celui du fichier soumis?

    Pourquoi le nom du fichier de sortie est-il différent de celui du fichier soumis?

    Les résultats retournés par le système d'ADTR comprennent un code de soumission en préfixe. Ce code permet à l'équipe d'ADTR d'effectuer le suivi de votre soumission en cas d'erreur de système.

  • Comment les données sont-elles arrondies?

    Comment les données sont-elles arrondies?

    Le système d'ADTR applique un arrondissement contrôlé et additif à toutes les fréquences. Cette méthode n'a aucune incidence sur l'exactitude des données. Vous trouverez plus de renseignements à ce sujet dans votre compte du Service de transfert électronique de fichiers du système d'ADTR.

  • Où se trouvent les descriptions de variables pour les ensembles de données?

    Où se trouvent les descriptions de variables pour les ensembles de données?

    Vous trouverez les descriptions de variables ainsi que des renseignements détaillés sur les ensembles de données dans le coffre-fort du Service de transfert électronique de fichiers du système d'ADTR.

  • Quelles sont les limites du système d'ADTR?

    Quelles sont les limites du système d'ADTR?

    Veuillez consulter le guide de l'utilisateur de l'accès à distance en temps réel pour obtenir plus de renseignements à ce sujet.

  • Comment puis-je réinitialiser mon mot de passe?

    Comment puis-je réinitialiser mon mot de passe?

    Les mots de passe peuvent être réinitialisés directement sur le site web TEF en cliquant sur le lien "Mot de passe oublié" sur la page de connexion.

Legacy Content

Interventions non pharmaceutiques et apprentissage par renforcement

Par : Nicholas Denis, Statistique Canada

La COVID-19 a eu de profondes répercussions sur la vie des Canadiens, y compris sur bon nombre de nos comportements. Partout au Canada, les provinces et les territoires ont imposé des restrictions à la population dans le but d'induire des comportements visant à réduire la propagation de la COVID-19 et, du même coup, le nombre d'hospitalisations et de décès découlant des infections. Ces mesures visent à renforcer diverses stratégies d'intervention non pharmaceutique (INP), c'est-à-dire les changements comportementaux qu'une population peut adopter afin de réduire la propagation d'une infection. De nombreux facteurs interviennent dans la sélection des INP à mettre en œuvre. C'est le cas notamment de la modélisation épidémiologique, qui est depuis longtemps utilisée pour simuler, modéliser ou prévoir l'effet d'un ensemble de scénarios précis (p. ex. fermeture des écoles, distanciation physique et fermeture des commerces non essentiels). Plutôt que de modéliser des scénarios précis assortis d'hypothèses fixes quant à la dynamique populationnelle propre au scénario, des scientifiques des données de Statistique Canada ont récemment mis au point un nouveau cadre de modélisation épidémiologique qui permet aux chercheurs d'élargir le champ des INP et de déterminer ainsi la combinaison optimale de comportements à mettre en œuvre dans la population pour réduire la propagation d'une infection dans le cadre de simulations. Cette approche a été rendue possible par le recours à l'apprentissage par renforcement (AR), et a été mise en œuvre en collaboration avec des partenaires de l'Agence de la santé publique du Canada.

Qu'est-ce que l'apprentissage par renforcement?

L'apprentissage par renforcement (AR) est un sous-domaine de l'apprentissage automatique (AA) qui a produit des résultats impressionnants ces dernières années : des algorithmes qui apprennent à jouer à des jeux vidéo, au jeu de stratégie GO en passant par la conception automatisée de médicaments et la réduction de la consommation d'énergie. Mais, qu'est-ce que réellement l'AR? Les notions d'agent et d'environnement sont au cœur de l'AR. Un agent a la capacité de prendre des décisions en posant des actions. En tout temps, la situation courante est déterminée par les interactions de l'agent avec son environnement. À chaque intervalle de temps, l'agent sélectionne une action et, une fois cette action posée, l'environnement évolue vers une nouvelle situation, ce qui a pour effet de produire une notion d'utilité, assimilée à une récompense, que l'agent reçoit sous la forme d'une rétroaction. Le but de l'AR est d'amener l'agent à apprendre de ces interactions avec l'environnement et à adopter un comportement décisionnel optimal, appelé « stratégie », qui a pour effet de maximiser la somme attendue des récompenses que l'agent reçoit lorsqu'il applique cette stratégie dans son environnement. Officiellement, l'AR utilise le cadre mathématique des processus décisionnels de Markov Note de bas de page 1 pour exécuter ses algorithmes d'apprentissage.

L'environnement de simulation

Toutes les approches de modélisation épidémiologiques traditionnelles ont pour but de représenter une population et la dynamique entre les agents ou les sous-ensembles de population, appelés « compartiments », faisant partie de cette population. Dans le cadre du présent travail de recherche, un environnement de simulation a été créé à l'aide de données ouvertes recueillies par Statistique Canada (recensements et enquêtes sociales) et par l'Institut canadien d'information sur la santé Note de bas de page 2. Ces données ont été utilisées pour créer une population d'agents représentant fidèlement les Canadiens du point de vue de renseignements démographiques clés tels que l'âge, les caractéristiques des ménages, les données sur l'emploi et les caractéristiques de l'état de santé (p. ex. présence de comorbidités, centre d'hébergement pour personnes âgées). Les agents peuvent soit occuper un emploi, soit être sans emploi, soit être aux études à temps plein. Les paramètres épidémiologiques ont été fournis par l'Agence de la santé publique du Canada Note de bas de page 3 et comprennent des paramètres établis de façon empirique pour l'ensemble des aspects liés aux événements d'infection et à la progression de l'infection.

Une fois qu'une population d'agents a été créée au moyen d'un processus de génération d'échantillons, la simulation est appliquée à une période de simulation précise (p. ex. 120 jours). En bref, à chaque heure d'éveil, chaque agent doit poser une action conforme à sa stratégie parmi celles disponibles dans sa situation courante. Certaines règles logiques sont appliquées. Par exemple, si un agent occupe un emploi et se trouve au travail au moment où il doit poser une action, l'ensemble des actions disponibles pour cet agent est limité aux actions liées au travail. Les actions sont généralement liées au travail, aux études, aux activités sociales, aux activités économiques (p. ex. se rendre dans un commerce vendant de la nourriture), aux activités domestiques et à la possibilité de se soumettre à un test de dépistage de la COVID-19. Si un agent reçoit un résultat de dépistage positif, il s'isole à domicile pendant une période de deux semaines et un mécanisme de recherche des contacts est lancé. Chaque agent sélectionne ses actions en fonction de sa situation courante et de sa stratégie. La situation d'un agent fournit donc à l'agent toute l'information dont il a besoin pour choisir l'action à poser au moment où il la pose. Dans le cas présent, des renseignements tels que l'âge, l'état de santé, la question de savoir si l'agent a des symptômes ou non et l'emplacement courant de l'agent ont été combinés sous la forme d'un vecteur représentant la situation courante de l'agent. Une fois que tous les agents ont sélectionné leurs actions, l'environnement de simulation est mis à jour de façon à ce que la situation des agents le soit également en fonction des actions qu'ils ont sélectionnées. Si un agent infecté interagit avec un agent vulnérable, un événement d'infection détermine si une infection a lieu ou non.

Enfin, lorsque toutes les actions ont été posées, chaque agent reçoit une récompense numérique qui est utilisée par l'algorithme d'AR pour actualiser l'apprentissage et ainsi améliorer la stratégie de chaque agent. Chaque fois qu'un agent est infecté ou infecte un agent vulnérable, il reçoit une récompense de -1, alors que toutes les autres récompenses sont de 0. En attribuant uniquement des récompenses négatives aux événements d'infection et en combinant les solutions issues de l'AR qui convergent vers des stratégies (comportements) maximisant la somme attendue des récompenses, on obtient une stratégie optimale qui réduit la propagation de la COVID-19. Il importe de souligner que les comportements des agents ne sont aucunement codifiés et que c'est en interagissant de façon itérative avec l'environnement d'une simulation à l'autre que les agents apprennent des comportements qui ont pour effet de réduire la propagation de la COVID-19, au moyen d'un processus de type « essais et erreurs ». En donnant aux agents la « liberté » d'explorer un large éventail d'actions et de comportements, ce cadre permet aux chercheurs d'élargir le champ des solutions et les libère de l'approche plus traditionnelle consistant à modéliser un petit ensemble de scénarios précis.

Apprendre à réduire le nombre d'infections

Description de la figure 1

Les agents apprennent à réduire le nombre d'infections au fil du temps. Schéma représentant le nombre cumulatif d'infections en pourcentage de la population pour chaque période (epoch) d'essai et d'apprentissage par AR. Chaque période est représentée par un tracé légèrement plus foncé; le tracé le plus foncé de tous correspondant à la période affichant le meilleur rendement.

Une population de 50 000 agents a été constituée, et 100 simulations ont été effectuées dans le cadre de l'apprentissage par renforcement. La figure 1 représente, au moyen de tracés, le nombre cumulatif d'infections d'une simulation (période) à l'autre. Lors des premières simulations, une forte proportion de la population des agents a été infectée, mais avec le temps, les agents ont appris à réduire la propagation de la COVID-19 en améliorant leurs stratégies.

Une fois que les agents ont appris à appliquer des stratégies qui permettent de réduire le nombre d'infections, leurs comportements peuvent être analysés. La figure 2 illustre la répartition des actions que les agents travailleurs essentiels ont posées pendant leurs heures de travail (à gauche) et celles que les agents étudiants ont posées pendant leurs heures de classe (à droite), aussi bien en présence qu'en l'absence de symptômes. Une tendance commune est apparue : lorsque les agents ne présentaient pas de symptômes, ils privilégiaient nettement les actions axées sur la distanciation physique (port du masque et maintien d'une distance de deux mètres par rapport aux autres). Toutefois, en présence de symptômes, les agents ont appris à se soumettre à un test de dépistage de la COVID-19 (>38 %, >57 %; travailleurs essentiels et étudiants, respectivement) même s'ils ne recevaient aucune récompense positive pour ce faire. De plus, les travailleurs et les étudiants ont appris à rester à la maison lorsqu'ils présentaient des symptômes (~43 %, >42 %; travailleurs essentiels et étudiants, respectivement). Les comportements peuvent ainsi être explorés plus avant et portés à la connaissance des décideurs pour éclairer le choix des INP à appliquer, par exemple, comme le suggèrent ces résultats, insister sur l'importance, pour les personnes qui présentent des symptômes, de se soumettre à un test de dépistage de la COVID-19 et de rester à la maison, c'est-à-dire de ne pas se présenter au travail ni à l'école.

Description de la figure 2

Analyse des comportements appris par les agents dans le cadre des situations liées au travail et aux études. Diagramme à barres empilées représentant les stratégies apprises par les travailleurs essentiels (à gauche) et les étudiants (à droite), selon la présence ou l'absence de symptômes.

Comparaison avec les populations de référence

Les comportements appris par les agents d'AR ont ensuite été comparés avec ceux de plusieurs populations d'agents de référence. Dans le cas de la population de référence 1, les agents devaient sélectionner des actions de façon uniformément aléatoire, sans avoir la possibilité de poser des actions substitutives axées sur la distanciation physique, alors que les agents de la population de référence 2 utilisaient une approche de sélection d'actions similaire, mais avaient la possibilité de poser des actions substitutives axées sur la distanciation physique. La population de référence 3 reproduisait les conditions applicables à la population de référence 2 en plus de prévoir l'accès à des mécanismes de recherche des contacts et d'isolement obligatoire après l'obtention d'un résultat positif à la COVID-19.

 
Description de la figure 3

Schéma comparant le nombre cumulatif d'infections entre la population de référence 1 (B1), la population de référence 2 (B2), la population de référence 3 (B3), et les comportements appris (LB). Chaque expérience est répétée 50 fois et représentée par un trait de couleur pâle; la moyenne étant représentée par un trait foncé.

La figure 3 illustre le nombre cumulatif d'infections pour chaque expérience et montre que lorsque les agents ont accès à des mesures de distanciation physique et à l'isolement volontaire/la recherche des contacts, le nombre d'infections survenant dans le cadre d'une simulation diminue de façon marquée. En outre, les comportements appris par les agents d'AR s'améliorent de façon significative par rapport à chacune des populations de référence. Une analyse des événements d'infection survenus dans le cadre de chaque expérience a révélé une réduction significative des événements d'infection liés aux activités sociales, au travail, aux études et aux activités publiques (économiques) attribuables aux agents d'AR. Cependant, plus de 60 % des événements d'infection attribuables à des agents d'AR sont survenus alors qu'un agent infecté était en isolement volontaire à domicile en compagnie d'un cohabitant vulnérable après avoir obtenu un résultat positif. Ces résultats démontrent l'importance des recommandations et directives sur les mesures à prendre pour s'isoler de façon sécuritaire à domicile en présence d'autres personnes.

Représenter la non-conformité à l'intérieur du modèle

Un facteur important à prendre en considération lors de la modélisation d'INP est la lassitude face à l'obligation de se conformer ou l'érosion de la conformité – deux termes utilisés pour décrire l'observation selon laquelle les membres de la population deviennent avec le temps moins enclins à respecter les INP. De même, il convient de répartir la mesure dans laquelle les membres d'une population donnée sont susceptibles de se conformer aux INP. Nos partenaires de l'Agence de la santé publique du Canada estimaient important d'intégrer la non-conformité au cadre de modélisation. Pour cette raison, nous avons inclus des expériences comportant des variantes des agents d'AR décrites précédemment : éléments imprévisibles et érosion de la conformité. Dans le cadre des expériences intégrant les éléments imprévisibles, chaque agent pouvait aussi bien se conformer et appliquer la stratégie apprise dans la cadre de l'AR qu'adopter le comportement par défaut de l'agent. Dans le cadre des expériences intégrant l'érosion de la conformité, chaque agent affichait au départ une conformité parfaite, mais la probabilité que ceux-ci appliquent la stratégie apprise dans le cadre de l'AR diminuait ensuite chaque jour de façon stochastique, de sorte que la population finissait par revenir à ses comportements par défaut.

La figure 4 représente au moyen de tracés le nombre quotidien et le nombre cumulatif d'infections observées dans le cadre des expériences portant sur les agents d'AR et des expériences AR + éléments imprévisibles et AR + érosion de la conformité. Il est intéressant de constater que, malgré la présence d'agents imprévisibles, la population en vient tout de même à atteindre un taux d'infections quotidien quasi nul, quoiqu'un peu à retardement par rapport aux agents d'AR. À l'inverse, l'expérience intégrant l'érosion de la conformité démontre l'importance de maintenir la conformité aux INP – si les restrictions sont assouplies trop rapidement, le nombre d'infections ne se stabilise pas et continue d'augmenter. Les simulations s'étendent seulement sur une période de 120 jours, mais on estime que sur une plus longue période une « deuxième vague » serait apparue dans le cadre de l'expérience intégrant l'érosion de la conformité.

Description de la figure 4

Schémas comparant les événements d'infection quotidiens (haut) et cumulatifs (bas) observés dans le cadre des expériences portant respectivement sur les comportements appris (LB), les comportements appris (LB) + les éléments imprévisibles (WC), et les comportements appris (LB) + l'érosion de la conformité (attrition).

Les samedis et les dimanches compris dans les 50 simulations sont représentés en vert.

Des analyses plus approfondies ont révélé une certaine périodicité dans le nombre quotidien d'infections pour chacune de ces expériences (figure 4, % de la population chaque jour). On a constaté que dans le cas des agents d'AR, le nombre d'infections diminuait en semaine pour réaugmenter légèrement les week-ends. Le phénomène inverse a toutefois été observé dans le cadre des expériences intégrant les éléments imprévisibles et l'érosion de la conformité. Le nombre d'infections était supérieur en semaine et diminuait légèrement les week-ends. Une analyse a révélé que ce phénomène est attribuable aux infections liées à la fréquentation d'un établissement scolaire, ce qui démontre que, lorsque la conformité est totale (agents d'AR), le nombre d'infections dans les écoles est inférieur et celles-ci s'avèrent relativement sécuritaires, tandis que lorsque la conformité diminue (agents d'AR + éléments imprévisibles/érosion de la conformité), les écoles deviennent de hauts lieux de contamination communautaire.

L'une des caractéristiques distinctives de la COVID-19 est la prévalence des personnes asymptomatiques qui sont contagieuses et propagent le virus à leur insu. Une analyse a révélé que, comparativement à l'expérience portant seulement sur les agents d'AR, lorsque les agents d'AR sont en présence d'une érosion de la conformité, les événements d'infection attribuables à des personnes asymptomatiques sont 5,5 fois plus nombreux, ce qui confirme l'importance de se conformer aux INP même en l'absence de symptômes.

Autres applications de la simulation orientée agents

Avec la COVID-19 est venue la nécessité de disposer d'approches de modélisation permettant d'éclairer les politiques en matière de santé. La Division de la science des données de Statistique Canada a mis au point un nouveau cadre de modélisation qui utilise l'apprentissage par renforcement pour apprendre à des agents à adopter des comportements qui réduisent la propagation communautaire d'une infection au sein de populations simulées. L'AR a fourni un mécanisme qui a permis d'explorer un vaste champ de comportements et de scénarios possibles. Les chercheurs ont ainsi pu découvrir de nouveaux scénarios de réduction de la propagation des infections, car leur travail ne se limitait pas à modéliser un petit nombre défini de scénarios bien précis. Un manuscrit exposant en détail le présent travail de recherche a récemment été accepté pour publication à titre de chapitre dans un ouvrage sur la modélisation mathématique de la COVID-19 produit par le Fields Institute for Research in Mathematical Sciences qui paraîtra bientôt. L'environnement de simulation orientée agents a été conçu à l'aide de données sur la population canadienne librement accessibles, mais cette approche pourrait aussi être appliquée à des populations plus locales ainsi qu'à d'autres pays. Qui plus est, cette approche n'est pas limitée à la COVID-19; elle peut très bien être appliquée à d'autres maladies infectieuses susceptibles de se propager par transmission communautaire. Toute question ou demande de précisions sur le présent travail de recherche peut être adressée au Réseau des utilisateurs et praticiens de l'intelligence artificielle (connectez-vous à GCcollab et copiez le lien dans votre navigateur).

 
Date de modification :
Legacy Content

Détection des serres à l'aide de la télédétection et de l'apprentissage automatique : étape un

Par : Stan Hatko, Statistique Canada

Un effort de modernisation est en cours à Statistique Canada pour remplacer les enquêtes sur l'agriculture par des méthodes de collecte de données plus innovatrices. Un élément principal de cette modernisation est l'utilisation de méthodes de classification par télédétection de la cartographie d'utilisation du sol et de la détection des bâtiments à partir d'imagerie satellite.

Statistique Canada mène actuellement le Recensement de l'agriculture aux cinq ans pour recueillir des renseignements sur des sujets tels que la population, les rendements, la technologie et l'utilisation des serres agricoles au Canada. Les scientifiques des données ont joint leurs efforts à ceux des spécialistes du domaine pour moderniser la collecte de ces données. Ce projet permettra à l'organisme de rendre les données accessibles en temps plus opportun et de réduire le fardeau de réponse pour les exploitants agricoles.

Ce projet vise à évaluer les techniques d'apprentissage automatique utilisées pour détecter la superficie totale des serres au Canada à partir d'imagerie satellite.

Imagerie satellite

Dans le cadre de ce projet, les images satellites RapidEye qui ont une résolution de pixels de 5 mètres (c'est-à-dire que chaque pixel est un carré de 5 m sur 5 m) avec cinq bandes spectrales ont été utilisées.

Représentation graphique des bandes spectrales pour l'magerie satellite RapidEye
Description de la figure 1 - Représentation graphique des bandes spectrales pour l'imagerie satellite RapidEye.

Une représentation graphique de l'étendue spectrale de chaque bande dans une image de sortie de RapidEye : 1) bleue (440 nm à 510 nm), 2) verte (520 nm à 590 nm), 3) rouge (630 nm à 685 nm), 4) bordure rouge (690 nm à 730 nm) et 5) proche-infrarouge (760 nm à 850 nm).

 

Cette imagerie a été choisie en raison de sa disponibilité relative et de son coût. Une imagerie à plus faible résolution n'est pas toujours adéquate pour détecter les serres, et une imagerie à plus haute résolution aurait coûté beaucoup trop cher, compte tenu de la superficie totale requise pour couvrir le secteur agricole canadien.

Données de forme étiquetées

Pour certains sites, les spécialistes du domaine disposent de données étiquetées se présentant comme des Shapefile indiquant les zones qui correspondent à des serres. Ces données ont été élaborées manuellement en examinant des images satellites et aériennes à très haute résolution (au moyen de Google Earth Pro et de logiciels semblables) et qui ont mis en évidence les zones correspondant à des serres.

Ces données étiquetées ont joué deux rôles :

  • Données d'entraînement (à partir de certains sites) en vue d'élaborer un classificateur d'apprentissage automatique pour déterminer la superficie couverte de serres.
  • Données d'essai (à partir d'autres sites) pour évaluer le rendement du classificateur.

Les données étiquetées de Leamington (Ontario), Niagara (Ontario) et Fraser Valley (Colombie-Britannique) ont été produites. Certains sites ont été choisis comme sites d'entraînement (comme Leamington Ouest), tandis que d'autres ont été choisis comme sites d'essai (comme Leamington Est).

Voici un exemple d'imagerie RapidEye d'une région avec le fichier d'étiquetage des serres.

Les cinq bandes spectrales et l'indicateur de serre en fonction du fichier forme pour une zone d'intérêt
Description de la figure 2 - Les cinq bandes spectrales et l'indicateur de serre en fonction du Shapefile pour une zone d'intérêt.

Une comparaison de chacune des cinq bandes spectrales par rapport au Shapefile des serres étiquetées.

 

Les données étiquetées ont été réparties en sites et sous-sites pour entraîner et valider le modèle d'apprentissage automatique. Les sites d'entraînement étaient :

  • Leamington Ouest
  • Niagara Nord : N1, N1a, N3
  • Fraser Sud : S1, S2, S3, S4, S5

Les sites de validation qui ont été utilisés pour tester le modèle étaient :

  • Leamington Est
  • Niagara Sud : S1, S2
  • Fraser Nord : N2, N3, N5

Méthode d'apprentissage automatique

Pour chaque point, les scientifiques des données devaient déterminer si celui-ci correspondait ou non à une serre, ainsi qu'une probabilité prédite que chaque point corresponde à une serre.

Pour la probabilité prédite d'un point, une fenêtre de taille déterminée a été prise autour du point. Nous avons alimenté le classificateur des données de cette fenêtre, et le classificateur a tenté de prédire si le point central est une serre ou non. La fenêtre autour du point fournit davantage de contexte qui aide le classificateur à déterminer si le point central est une serre ou non.

Le classificateur doit déterminer si le point noir central correspond à une serre, en fonction de la zone sélectionnée autour de ce point
Description de la figure 3 - Le classificateur doit déterminer si le point noir central correspond à une serre, en fonction de la zone sélectionnée autour de ce point.

Un quadrillage représentant une fenêtre d'entrée qui évalue les pixels dans une image source pour tenter de les classer comme des serres ou non.

 

Ce processus a été répété pour chaque point dans l'image (sauf près des frontières), de sorte que nous avons obtenu une carte montrant la superficie exacte qui est couverte de serres.

Pour l'entraînement, un échantillon de plusieurs de ces points (y compris la fenêtre autour de chaque point) a été pris comme données d'entrée (avec les données étiquetées) pour élaborer le modèle. La taille de l'ensemble d'entraînement a aussi été accrue en appliquant différentes transformations, par exemple en faisant pivoter l'image d'entrée à différents angles pour différents points.

Travaux initiaux et transition vers une plateforme infonuagique

Au départ, les travaux ont été effectués sur un système interne de Statistique Canada avec microprocesseur à 8 cœurs et 16 Go de mémoire vive. Différents algorithmes ont été mis à l'essai pour le classificateur, y compris des machines à vecteurs de support, des forêts aléatoires et un perceptron multicouche avec analyse en composantes principales (ACP).

Les meilleurs résultats ont été obtenus avec l'ACP et le perceptron multicouche, qui ont donné lieu à un score F1 de 0,89 à 0,90 pour Leamington Est. Diverses limites de système ont été atteintes pendant ces travaux, notamment l'absence d'une unité de traitement graphique (UTG) dédiée. L'UTG est nécessaire pour entraîner efficacement des modèles plus complexes faisant intervenir des réseaux neuronaux convolutifs.

La possibilité d'utiliser la plateforme infonuagique publique a été étudiée, puisque ce projet ne fait intervenir aucune donnée de nature délicate. Le projet a été transféré à la plateforme infonuagique Microsoft Azure, sur un système équipé de 112 Go de mémoire vive, de grands volumes de stockage et d'une UTG très puissante (NVIDIA V100). Le logiciel Microsoft Azure Storage Explorer a été utilisé pour transférer les données vers le compte de stockage et à partir de ce dernier.

Réseaux neuronaux convolutifs

Les réseaux neuronaux convolutifs intègrent les concepts de la localisation (le voisinage autour d'un point dans l'image étant important) et de l'invariance de translation (les mêmes éléments sont utiles partout) au réseau neuronal. Les architectures reposant sur cette méthode sont considérées comme étant à la fine pointe de la technologie en reconnaissance d'images depuis plusieurs années.

Une couche fonctionne comme suit dans un réseau neuronal convolutif de base :

  • Une petite fenêtre (par exemple, 3 x 3) est prise autour de chaque point dans l'image ou de la couche précédente.
  • Les données présentes dans cette fenêtre sont multipliées par une matrice, à laquelle on applique l'activation (un biais peut également être ajouté).
  • Ce processus est répété pour chaque point dans l'image (ou de la couche précédente) pour obtenir la nouvelle couche. La même matrice est utilisée chaque fois.

Cela correspond à la multiplication par une grande matrice creuse, certains poids étant liés aux mêmes valeurs, suivie de l'activation.

Diagrammes expliquant comment les réseaux neuronaux convolutifs fonctionnent
Figure 4 - Diagrammes expliquant comment les réseaux neuronaux convolutifs fonctionnent

De nombreuses architectures différentes de réseau neuronal convolutif sont possibles. Ce projet a mis à l'essai les options suivantes :

  • Réseau neuronal convolutif simple : Applique des couches convolutives de façon séquentielle (la sortie d'une couche est l'entrée de la couche suivante), suivies de couches entièrement connectées.
  • Réseau neuronal résiduel : Applique une couche convolutive ayant une sortie de même taille et l'ajoute à la couche originale (de sorte que l'entrée de la couche suivante est la somme de la couche originale et de cette couche). Le tout peut être répété pour de nombreuses couches. A été utilisé pour entraîner des réseaux très profonds.
  • Réseau neuronal convolutif profond : Applique une couche convolutive et ajoute les sorties à la couche originale comme des nouveaux canaux. Chaque couche ajoute de nouveaux canaux, qui peuvent représenter des éléments utiles.
  • Architecture branchée sur mesure : Supprime la partie centrale de la fenêtre et applique un réseau convolutif. Prend l'ensemble de l'image et applique un autre réseau (avec plus de réduction de dimensionnalité en fonction des couches regroupées). Fusionne les deux aux extrémités en des couches entièrement connectées. Cela permet à l'utilisateur de s'attarder à la partie se trouvant près du point central, tout en obtenant un peu de son contexte.

Les scientifiques des données ont utilisé l'architecture branchée sur mesure pour ce projet, comme illustré à la figure 5.

Diagramme de l'architecture de réseaux neuronaux convolutifs choisie pour ce projet
Description de la figure 5 - Diagramme de l'architecture de réseaux neuronaux convolutifs choisie pour ce projet
  • La taille de la fenêtre d'entrée est de 10 autour du point central (carré de 21 x 21), avec les cinq bandes spectrales de RapidEye.
  • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Une normalisation par lot est appliquée, suivie de la non-linéarité ReLU (unité linéaire rectifiée).
  • Le produit de ce qui précède est ensuite divisé en deux parties, une qui se concentre sur la région centrale et l'autre qui tient compte d'une fenêtre de contexte plus large avec sous-échantillonnage.
  • Pour le premier parcours (le parcours d'intérêt), le travail suivant est effectué :
    • Une fenêtre de taille 5 autour du point central est prélevée, et cette partie est divisée en sous-ensembles (un carré de 11 x 11 au centre du point central).
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
  • Pour le second parcours (le parcours de contour), le travail suivant est effectué :
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
    • Un regroupement maximum de taille 2 est appliqué.
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
  • Le produit des deux parcours ci-dessus est aplati et concaténé.
  • Une couche dense comportant 128 unités est appliquée, suivie d'une normalisation par lot et de la non-linéarité ReLU.
  • Une couche dense comportant 64 unités est appliquée, suivie d'une normalisation par lot et de la non-linéarité ReLU.
  • La couche de sortie comportant un produit linéaire simple est utilisée, suivie de la fonction sigmoïde pour produire une probabilité.
  • Aux fins de prévision, le produit ci-dessus est utilisé tel quel pour la probabilité prédictive que le point soit un panneau solaire. Un seuil de 0,5 est utilisé pour la prévision discrète (si supérieur à 0,5, il s'agit d'une serre; autrement, il ne s'agit pas d'une serre). Pour l'entraînement, la perte d'entropie croisée binaire est utilisée avec ce qui précède comme valeur prédite et l'étiquette de fichier de forme comme l'étiquette de vérité sur le terrain.]

Aux fins d'optimisation, l'optimiseur ADAM a été utilisé avec un taux d'apprentissage de 10-5. Un mini-lot de 5 000 a été utilisé, et l'entraînement a été fait pour 50 époques.

Résultats

Après que le modèle ait été entraîné, il a été mis à l'essai sur chacun des sites de validation à Leamington Est, Niagara Sud et Fraser Nord. Le tableau ci-dessous résume les résultats.

Tableau 1 : Résultats du rendement numérique pour la détection des serres (mesures de la qualité par pixel)
Région Leamington Est Fraser N2 Fraser N3 Fraser N5 Niagara S1 Niagara S2
Nombre inconnu 338443 292149 292149 246299 388479 388479
Nombre de vrais négatifs (VN) 14320042 12347479 12350813 8608499 24597241 24598805
Nombre de faux positifs (FP) 9984 1069 1875 2337 2143 2411
Nombre de faux négatifs (FN) 6880 957 1069 5474 3248 1049
Nombre de vrais positifs (VP) 138315 8346 4094 5041 8889 9256
Exactitude 0,998835 0,999836 0,999762 0,999094 0,999781 0,999859
Précision 0,932677 0,886458 0,685877 0,683247 0,805747 0,793349
Rappel 0,952615 0,89713 0,79295 0,47941 0,732389 0,898205
F1 0,942541 0,891762 0,735537 0,563461 0,767318 0,842527
Courbe ROC 0,999508 0,999728 0,998477 0,962959 0,977933 0,999949

Pour Leamington, le résultat obtenu était très bon : les serres ont bien été détectées et le nombre de faux positifs était faible. Le nombre de points mal classés (FP et FN) était beaucoup plus petit que pour les deux classes correctes (VN et VP). Cette zone a le meilleur score global F1, à un peu plus de 0,94.

Résultats de Leamington Est
Description de la figure 6 - Résultats de Leamington Est

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 

Pour Niagara, les résultats étaient bons en général : la majeure partie de la superficie de serres a été prédite correctement. Il y a eu un faux positif pour une serre sous et à la gauche des serres détectées dans la partie Niagara S1 (Figure 7 ). Cela correspond à une zone riveraine-côtière. Au départ, ce résultat faux positif était beaucoup plus élevé, mais le fait d'augmenter la taille de l'échantillon pour une zone urbaine côtière (comportant un littoral relativement droit) a permis de réduire significativement la taille et a aussi facilité le travail pour d'autres zones. Si plus d'images côtières étaient ajoutées à l'ensemble d'entraînement (avec différents lits de cours d'eau, etc.), cette erreur pourrait être réduite davantage.

Résultats des serres pour Niagara S1
Description de la figure 7 - Résultats des serres pour Niagara S1

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 
Résultats des serres pour Niagara S2
Description de la figure 8 - Résultats des serres pour Niagara S2

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 

Pour Fraser, les résultats ont varié en fonction de la zone. Pour Fraser N2 (Figure 9) les résultats étaient bons. Les résultats n'étaient pas aussi bons pour Fraser N3 (Figure 10), car une grappe de petites serres à la droite des serres détectées ont été manquées (avec quelques faux positifs). Pour Fraser N5 (Figure 11), un nombre significatif de serres ont été manquées. Diverses expérimentations menées jusqu'à maintenant n'ont pas amélioré les résultats pour Fraser. Pour améliorer ces résultats, l'équipe devra tenter de découvrir de quel type de serres il s'agit, si d'autres zones comportant ces types de serres peuvent être ajoutées à l'ensemble d'entraînement, et même si ce type de serre peut être détecté à partir des images satellites de 5 m.

Résultats des serres pour Fraser N2
Description de la figure 9 - Résultats des serres pour Fraser N2

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 
Résultats des serres pour Fraser N3
Description de la figure 10 - Résultats des serres pour Fraser N3

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 
Résultats des serres pour Fraser N5
Description de la figure 11 - Résultats des serres pour Fraser N5

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 

Conclusion

Dans l'ensemble, les réseaux neuronaux convolutifs ont été utilisés avec succès pour détecter les serres à partir des images satellites dans de nombreuses zones. Cela était particulièrement vrai dans les régions de Leamington, du Niagara et du Fraser. D'autres régions affichent encore de faibles niveaux de prédictions pour les serres. De plus, on remarque encore des problèmes avec les petites serres dans les trois régions d'intérêt, qui n'étaient pas assez vastes pour être détectées dans l'imagerie satellite RapidEye de 5 m. Ces problèmes pourraient être réglés par des acquisitions d'images aériennes de plus haute résolution.

La prochaine étape de ce projet examinera la détection des serres à partir d'images aériennes à plus haute résolution. Différentes méthodes sont utilisées pour travailler avec l'imagerie aérienne haute résolution, par exemple, l'utilisation d'architectures de segmentation UNet pour détecter les zones qui correspondent à des serres, que nous avons hâte d'examiner dans le cadre d'un prochain article.

Date de modification :

Collection de fichiers de microdonnées à grande diffusion

Ce service par abonnement offre l'accès à la collection de fichiers de microdonnées à grande diffusion (FMGD) de Statistique Canada. Un accès illimité à toutes les microdonnées et à la documentation est offert par l'entremise du Service de transfert électronique de fichiers (STEF) de Statistique Canada et d'une base de données en ligne à accès restreint par protocole Internet (IP) dotée d'un outil de découverte convivial. Certains fichiers sont également disponibles gratuitement sur le site Web de Statistique Canada.

L'abonnement est offert aux ministères et aux entreprises du Canada et de l'étranger.

Renseignements et ressources

Données

Projets et ensembles de données

Communauté d'utilisateurs

Établissements participants et personnes-ressources

Frais

Coûts liés au programme

Processus de demande et lignes directrices

Processus de demande et lignes directrices

Coordonnées

Si vous avez des questions ou des commentaires

Processus de demande et lignes directrices – collection de FMGD

La collection de fichiers de microdonnées à grande diffusion (FMGD) est un service par abonnement qui offre aux établissements un accès aux FMGD de Statistique Canada. Moyennant des frais annuels, les personnes-ressources désignées dans les établissements abonnés ont un accès illimité à toutes les microdonnées et à la documentation disponibles dans la collection de FMGD.

L'accès à la collection de FMGD est offert par l'entremise du Service de transfert électronique de fichiers (STEF) et d'une base de données en ligne à accès restreint par protocole Internet (IP) dotée d'un outil de découverte convivial et hébergée par Rich Data Services (RDS). Bien que certains FMGD individuels soient gratuits et accessibles sur le site Web de Statistique Canada, les frais d'abonnement servent à soutenir l'infrastructure de TI pour la base de données en ligne libre-service.

Pour compléter l'accès aux données, le programme offre un soutien administratif. Les membres peuvent communiquer avec le personnel pour poser des questions ou obtenir un soutien technique. Le programme de collection de FMGD tient les utilisateurs de données au courant des nouvelles enquêtes et données de Statistique Canada.

Comment s'abonner

Avant de vous abonner, veuillez consulter la Communauté d'utilisateurs de la collection de fichiers de microdonnées à grande diffusion. Si votre établissement est déjà abonné, veuillez communiquer avec la personne-ressource indiquée pour avoir accès aux microdonnées.

Le Formulaire d'inscription au Programme de FMGD est accessible aux fins de référence et de téléchargement. Pour obtenir des renseignements sur la façon de soumettre le formulaire et le paiement, veuillez communiquer par courriel à l'adresse statcan.dad-pumf-dad-fmgd.statcan@statcan.gc.ca.

Les FMGD contenant des données anonymisées et non agrégées sont régis par la Licence ouverte de Statistique Canada.

Comment accéder à la collection de fichiers de microdonnées à grande diffusion

Toute la collection de FMGD est accessible au moyen d'un interface Web de Transfert électronique de fichiers (TEF) protégé par un mot de passe ainsi que d'une base de données en ligne à accès restreint par protocole Internet (IP).

Les personnes-ressources désignées au sein des établissements abonnés ont besoin d'accéder à l'interface Web de TEF pour obtenir l'accès au TEF protégé par un mot de passe. Elles peuvent ensuite télécharger des microdonnées et de la documentation et les transmettre à d'autres personnes affiliées à leur établissement. Pour demander l'ouverture d'un compte qui vous donnera accès à la collection de FMGP, veuillez communiquer avec votre coordonnateur désigné dans la Communauté d'utilisateurs de la collection de fichiers de microdonnées à grande diffusion.

Pour accéder à la base de données en ligne de Rich Data Services (RDS), les utilisateurs de données des organisations abonnées peuvent accéder directement à RDS dans les locaux de leur organisation ou en se connectant à leur établissement à l'aide d'un réseau privé virtuel (VPN) ou d'un serveur mandataire. Les utilisateurs de données qui tentent d'accéder à la base de données de RDS et qui n'ont pas d'adresse IP vérifiée recevront le message d'erreur « Accès interdit (erreur 403) ».

Formulaire d'inscription au Programme de FMGD

Accès aux fichiers de microdonnées à grande diffusion (FMGD) - Convention d'adhésion (PDF, 281.08 Ko)

Entre Sa Majesté le Roi du chef du Canada représentée aux fins de la Loi sur la statistique par le Ministre de l'Innovation, des Sciences et du Développement économique, (ci-après dénommé « Statistique Canada »),

Et :

  • Nom de l'autre partie
  • ci-après appelé « le titulaire de la licence »

Attendu que Sa Majesté la Reine du chef du Canada est le propriétaire légitime des fichiers de microdonnées à grande diffusion qui doivent faire l'objet d'une licence;

Et attendu que le titulaire de la licence souhaite utiliser ces fichiers de microdonnées à grande diffusion;

Les deux parties conviennent de ce qui suit :

Définition

1. Le terme « fichier de microdonnées à grande diffusion » désigne un ensemble de données non identifiables concernant les caractéristiques des répondants ayant participé aux enquêtes désignées à l'article 2.

Description du produit

2. Le présent contrat se rapporte à la Collection de fichiers de microdonnées à grande diffusion (ci-après appelée « la Collection »). La Collection renferme les fichiers de microdonnées à grande diffusion diffusés par Statistique Canada et la documentation pertinente des enquêtes désignées dans le portail de la Collection sur le site Web de Statistique Canada Collection de fichiers de microdonnées à grande diffusion.

Agent de liaison et dépositaire

3. (1) Le titulaire de la licence désigne par les présentes [agent de liaison] comme agent de liaison à qui toute question relative au présent contrat devra être adressée, et comme dépositaire attitré de la Collection ayant la responsabilité d'assurer l'utilisation adéquate et la garde de la Collection conformément aux dispositions du présent contrat.

(2) Les coordonnées de la personne agissant à titre d'agent de liaison et de dépositaire mentionnée au paragraphe (1) peuvent être affichées dans le portail de la Collection sur le site Web de Statistique Canada Collection de fichiers de microdonnées à grande diffusion.

Date d'entrée en vigueur et durée

4. Le présent contrat entre en vigueur au moment de la signature par les deux parties intéressées et reste en vigueur pour une durée initiale prenant fin le 31 mars [année]. Par la suite, la durée sera prolongée automatiquement pour des périodes subséquentes d'un (1) an, à moins que le contrat ne soit résilié conformément aux présentes.

Paiement

5. (1) Le titulaire de la licence accepte de payer des droits de service annuels de 10 000 $ pour avoir accès à la Collection. Le premier paiement devra être fait à Statistique Canada à la signature du présent contrat. Les paiements subséquents devront être effectués dans les quatre-vingt-dix (90) jours suivant l'expiration de la durée précédente (avril – juin).

(2) Les modes de paiement suivants sont acceptés : chèque/mandat postal (clients non fédéraux); carte de crédit (MasterCard, Visa ou American Express) (clients non fédéraux); règlement interministériel du gouvernement fédéral (clients fédéraux); dépôt direct (clients non fédéraux) ou Service de paiement de factures (SPF) avec votre institution bancaire Canadienne.

(3) Toutes les sommes acquittées par chèque devront être à l'ordre du Receveur général du Canada et envoyé à l'adresse suivante :

Statistique Canada
Finances, 6e étage, immeuble R.-H.-Coats
100, promenade Tunney's Pasture
Ottawa (Ontario)
K1A 0T6

Livraison

6. Dès la signature du présent contrat et dès le paiement des droits de service annuels prévus à l'article 5, Statistique Canada fournira au titulaire de la licence un accès par mot de passe à la Collection et à la documentation pertinente.

Utilisation des microdonnées

7. L'utilisation des microdonnées est régie par la licence ouverte de Statistique Canada, voir : licence ouverte de Statistique Canada. Pour toute question concernant la licence ouverte de Statistique Canada, voir foire aux questions de Statistique Canada sur les licences ouvertes.

Résiliation

8. (1) Statistique Canada résilia automatiquement te présent contrat et l'accès à la Collection sera révoqué si le titulaire de la licence ne respecte pas l'une des modalités du contrat.

(2) L'une ou l'autre partie peut résilier le présent contrat, sans motif déterminé, sur avis écrit de dix (10) jours. La résiliation du contrat et la révocation de l'accès à la Collection prendront effet à la date fixée d'un commun accord par les deux parties.

(3) Si le présent contrat est résilié en vertu du paragraphe (1), le titulaire de la licence doit immédiatement prendre des mesures pour mettre un terme à l'utilisation de la Collection par ses utilisateurs, détruire toutes les copies des données et de la documentation pertinente et confirmer par écrit leur destruction à Statistique Canada.

Avis

9. Tout avis qui doit être signifié à Statistique Canada ou au titulaire de la licence doit être envoyé à statcan.dad-pumf-dad-fmgd.statcan@statcan.gc.ca.

Modification

10. Pour être valable, toute modification au présent contrat doit être mise par écrit et ratifiée par les parties intéressées.

Accord indivisible

11. Le présent contrat constitue l'intégralité de l'entente entre Statistique Canada et le titulaire de la licence concernant les droits du titulaire de la licence d'utiliser la Collection.

Législation applicable

12. La présente entente est régie et interprétée conformément aux lois de la province de l'Ontario et aux lois du Canada qui sont applicables. Par la présente, les parties reconnaissent la compétence exclusive de la Cour fédérale du Canada.

Approuvé par :

  • Signature
  • Date

Chef, Division de l'accès aux données

Et par :

  • Nom de l'établissement
  • Nom du représentant autorisé
  • Signature
  • Date
  • Nom de l'établissement d'enseignement
  • Adresse
  • Plage IP et/ou plage proxy de l'institution
  • Date de début de l'abonnement à FMGD

Administrateur de l'entente

  • Nom
  • Titre
  • Téléphone
  • Courriel

Personne-ressource de FMGD

  • Nom
  • Titre
  • Téléphone
  • Courriel

Suppléant de la personne-ressource de FMGD

  • Nom
  • Titre
  • Téléphone
  • Courriel
Legacy Content

Section 1 - Accès aux fichiers de microdonnées à grande diffusion (FMGD)

La présente licence est accordée au nom de Sa Majesté le Roi du chef du Canada, représentée par le ministre responsable de Statistique Canada (« Statistique Canada ») à vous (un particulier ou une personne morale que vous êtes autorisé à représenter).

Vous trouverez ci-après les conditions qui régissent votre utilisation de l'information. Votre utilisation de toute information est une indication que vous comprenez et acceptez ces conditions. Si vous n'acceptez pas ces conditions, il ne vous est pas permis d'utiliser l'information.

Statistique Canada peut modifier cette licence en tout temps, et ces modifications entreront en vigueur dès la publication de la version modifiée de la licence dans le site Web de Statistique Canada. Votre utilisation de l'information sera régie par les conditions de la licence en vigueur à la date et à l'heure où vous avez accédé à l'information.

Définitions

« Information » : regroupement des résultats non confidentiels issus des activités de Statistique Canada, ce qui comprend les fichiers de données, bases de données, fichiers de microdonnées à grande diffusion, tableaux, graphiques, cartes, rapports ou textes dont Statistique Canada est propriétaire ou concessionnaire de tous les droits de propriété intellectuelle et qui est mis à votre disposition conformément à la présente licence, moyennant des frais ou gratuitement, dans le site Web de Statistique Canada ou par d'autres moyens en vertu d'un contrat pour des biens ou des services.

« Produit à valeur ajoutée » : tout produit que vous avez élaboré en adaptant ou en intégrant l'information, en tout ou en partie, conformément aux conditions de la présente licence.

Octroi de licence

Sous réserve des conditions de la présente licence, Statistique Canada vous accorde une licence mondiale, libre de redevances et non exclusive vous permettant :

  • d'utiliser, de reproduire, de publier, de diffuser gratuitement ou de vendre l'information ;
  • d'utiliser, de reproduire, de publier, de diffuser gratuitement ou de vendre des produits à valeur ajoutée ;
  • d'accorder des sous licences conférant une partie ou la totalité de ces droits, conformément aux conditions de cette licence.

Durant l'exécution de toute activité susmentionnée, vous devez :

  • reproduire l'information avec exactitude ;
  • ne pas utiliser l'information d'une façon qui laisse croire que Statistique Canada vous appuie ou appuie l'utilisation que vous faites de l'information ;
  • ne pas présenter de manière inexacte l'information ou sa source ;
  • utiliser l'information d'une manière qui ne viole ni n'enfreint toute loi applicable ;
  • ne pas fusionner ni lier l'information à toute autre base de données pour tenter d'identifier une personne, une entreprise ou une organisation particulière ;
  • ne pas présenter l'information d'une façon donnant l'impression que vous auriez pu avoir reçu ou avoir eu accès à des renseignements détenus par Statistique Canada sur toute personne, entreprise ou organisation identifiable ;
  • ne désassembler, ni décompiler, ni effectuer quelque procédé d'ingénierie inverse que ce soit sur les logiciels qui font partie de l'information.

Droits de propriété intellectuelle

Les droits de propriété intellectuelle visant les produits à valeur ajoutée, à savoir tout droit de propriété intellectuelle reconnu par la loi, y compris mais sans s'y limiter les droits de propriété intellectuelle protégés par une législation, vous sont attribués ou sont attribués à la personne que vous désignez ou qui est désignée par application de la loi.

Les droits de propriété intellectuelle visant l'information que possède Statistique Canada demeurent la propriété de Statistique Canada. Les droits de propriété intellectuelle visant l'information qui appartient à des tiers demeurent la propriété de ces derniers.

Mention de la source

(a) Pour tout exercice de vos droits d'utilisation de l'information, vous devez inclure et maintenir la mention suivante :

Source : Statistique Canada, nom du produit, date de référence. Reproduit et diffusé « tel quel » avec la permission de Statistique Canada.

(b) Pour toute information contenue dans un produit à valeur ajoutée, vous devez inclure dans ce produit à valeur ajoutée la mention suivante :

Adapté de Statistique Canada, nom du produit, date de référence. Cela ne constitue pas une approbation de ce produit par Statistique Canada.

Promotion et publicité

Il vous est interdit d'utiliser sur toute reproduction de l'information ou sur tout matériel ayant trait à votre produit à valeur ajoutée, ou ailleurs :

(a) le nom, l'emblème, les logos ou tout insigne ou nom de domaine de Statistique Canada ou les symboles officiels du gouvernement du Canada, y compris le mot symbole « Canada », les armoiries du Canada et le symbole du drapeau, sans l'autorisation écrite du Secrétariat du Conseil du Trésor. La demande d'autorisation au Secrétariat du Conseil du Trésor peut être adressée à :

information@fip-pcim.gc.ca
Programme de coordination de l'image de marque
Secrétariat du Conseil du Trésor du Canada
300, avenue Laurier Ouest
Ottawa (Canada) K1A 0R5

(b) toute annotation qui pourrait être interprétée comme une approbation du produit à valeur ajoutée par Statistique Canada ou qui sous-entendrait que vous avez conclu une entente de distribution exclusive pour une partie ou pour toute l'information, ou que vous avez accès à des renseignements confidentiels ou non accessibles à d'autres parties.

Pas de garantie ni de responsabilité

L'information est octroyée sous licence « telle quelle », et Statistique Canada ne fait aucune assertion et n'offre aucune garantie d'aucune sorte, explicite ou implicite, relativement à l'information et rejette expressément toute garantie implicite de qualité marchande de l'information ou de son utilité à des fins particulières.

Statistique Canada ni aucun de ses ministres, dirigeants, fonctionnaires, employés, agents, successeurs et ayant droit ne sera tenu responsable d'aucune erreur ni omission dans l'information et ne sera en aucun cas tenu responsable des pertes, blessures ou dommages directs, indirects, spéciaux, conséquents ou autre, quelle qu'en soit la cause, que vous pourriez subir à n'importe quel moment en raison de votre possession de l'information, de votre accès à cette information ou de son utilisation, ou résultant de l'exercice de vos droits ou du respect de vos obligations aux termes de la présente licence.

Terme

La présente licence entre en vigueur à la date et à l'heure où vous accédez à l'information et est résiliée automatiquement si vous enfreignez l'une des conditions de cette licence.

Nonobstant la résiliation de cette licence :

  1. vous pouvez continuer de distribuer les produits à valeur ajoutée aux fins de remplir les commandes faites avant la résiliation de la licence, à condition que vous respectiez les exigences énoncées dans la clause de mention de la source ;
  2. les licences des particuliers ou des personnes morales auxquels vous avez fourni des produits à valeur ajoutée ou des reproductions de l'information en vertu de la présente licence ne seront pas résiliées à condition qu'ils continuent à se conformer entièrement aux conditions de ces licences.

Survie

Les obligations qui survivent à la résiliation de la présente licence, expressément ou en raison de leur nature, demeureront en vigueur. Pour plus de clarté, et sans limiter la généralité de ce qui précède, les dispositions qui suivent survivent à l'expiration ou à la résiliation de la présente licence : « Mention de la source » et « Aucune garantie ni responsabilité ».

Lois applicables

La présente licence est régie par les lois de la province de l'Ontario et les lois applicables du Canada. Toute procédure judiciaire se rapportant à cette licence ne pourra être portée que devant les tribunaux de l'Ontario ou la Cour fédérale du Canada.

Affirmation

Je reconnais avoir lu et compris les modalités de la licence ouverte de données de Statistique Canada et j'accepte de les respecter.

  • Administrateur de l’entente (caractères d’imprimerie)
  • Établissement d’enseignement
  • Date
 
Date de modification :
Legacy Content

Classification des commentaires sur le Recensement de 2021

Par : Joanne Yoon, Statistique Canada

Tous les cinq ans, le Recensement de la population permet de brosser un portrait statistique complet du Canada et de sa population. Le recensement est la seule source de données qui fournit des statistiques uniformes pour les petites régions géographiques et les petits groupes démographiques partout au Canada. Les renseignements obtenus dans le cadre du recensement sont cruciaux pour la planification à tous les échelons. Que ce soit pour démarrer une entreprise, surveiller un programme gouvernemental, planifier les besoins en transport ou choisir l'emplacement d'une école, les Canadiens se servent des données du recensement chaque jour afin de prendre des décisions éclairées.

Classification des commentaires sur le recensement de 2021

La préparation de chaque cycle du recensement nécessite plusieurs étapes de mobilisation, ainsi que la mise à l'essai et l'évaluation des données afin de recommander le contenu du prochain recensement, comme celui de 2021 qui aura bientôt lieu. Ces étapes comprennent des consultations et des discussions sur le contenu avec les intervenants et les utilisateurs des données du recensement, ainsi que l'exécution du Test du recensement de 2019 (qui permet de valider les comportements des répondants et de garantir que les questions et les documents du recensement sont compris par tous les participants).

À la fin des questionnaires du Recensement de la population, les répondants ont accès à une zone de texte dans laquelle ils peuvent partager leurs préoccupations et leurs suggestions, ou formuler des commentaires au sujet des étapes à suivre, du contenu ou des caractéristiques du questionnaire. Les renseignements saisis dans cet espace sont analysés par le Secrétariat des domaines spécialisés du recensement (SDSR) pendant et après la période de collecte des données du recensement. Les commentaires au sujet du contenu du questionnaire sont classés par domaine spécialisé (DS), tel que l'éducation, le travail ou la démographie, et communiqués aux analystes experts correspondants. Les renseignements sont utilisés pour appuyer la prise de décision au sujet de la détermination du contenu pour le prochain recensement et pour surveiller des facteurs tels que le fardeau du répondant.

Utilisation de l'apprentissage automatique pour classer les commentaires

Dans le but d'améliorer l'analyse des commentaires formulés dans le cadre du Recensement de la population de 2021, la Division de la science des données (DScD) de Statistique Canada a travaillé en collaboration avec le SDSR pour créer une preuve de concept sur l'utilisation des techniques d'apprentissage automatique (AA) visant à classer rapidement et en toute objectivité les commentaires. Dans le cadre du projet, le SDSR a déterminé 15 catégories de commentaires possibles et a fourni des commentaires formulés lors du recensement précédent et étiquetés selon l'une ou plusieurs de ces catégories. Ces 15 catégories comprenaient les domaines spécialisés du recensement ainsi que d'autres thèmes généraux liés au recensement en fonction desquels il est possible de classer les commentaires formulés par les répondants, comme « expérience avec le formulaire électronique », « fardeau du répondant » ainsi que « expérience du recensement positive » et des commentaires « non reliés au recensement ». En utilisant les techniques de l'AA avec les données étiquetées, un classificateur de texte bilingue semi-supervisé a été formé, dans lequel les commentaires peuvent être en français ou en anglais, et où la machine peut utiliser les données étiquetées pour apprendre à reconnaître chaque catégorie, tout en profitant des données non étiquetées pour comprendre son espace de donnée. Les scientifiques des données de la DScD ont mené des expériences avec deux modèles d'AA, et les forces de chacun des modèles, ainsi que le modèle final, sont présentés en détail dans cet article.

Les scientifiques des données ont formé le Classificateur de commentaires pour le Recensement de 2021 en utilisant les commentaires formulés lors du Test du recensement de 2019. L'équipe du SDSR a étiqueté manuellement ces commentaires en utilisant les quinze catégories de commentaires qui avaient été déterminées et a mutuellement révisé leur codage en vue de réduire les biais de codage. Le classificateur est à catégories multiples, car un commentaire peut être classé dans 15 catégories différentes. Par conséquent, ce classificateur est aussi à étiquettes multiples puisqu'un répondant peut écrire un commentaire qui porte sur de multiples sujets qui s'inscrivent dans de multiples catégories, et le commentaire peut donc être codé selon une ou plusieurs catégories.

Mise en correspondance déterministe de numéro de question et de numéro de page

Lorsqu'un commentaire comporte un numéro de question ou de page, ce numéro est mis en correspondance de façon déterministe à la catégorie du domaine spécialisé associée à la question et combiné ensuite avec la prévision de catégorie par apprentissage automatique (AA) afin de produire la prévision de catégorie finale. Par exemple, supposons qu'un répondant remplit un questionnaire dans lequel la question numéro 22 porte sur ses études. Dans la zone de commentaires, le répondant ajoute des commentaires sur la question 22 en indiquant expressément le numéro de la question et mentionne aussi les questions sur le sexe et le genre sans indiquer les numéros des questions. La mise en correspondance donne comme résultat la catégorie sur l'éducation, et le modèle d'AA prédit la catégorie sur le sexe et le genre en fonction des mots utilisés pour mentionner les questions sur le sexe et le genre. Le programme produit la prévision finale, qui est une union des deux produits : catégorie sur l'éducation et catégorie sur le sexe et le genre. Quand aucun numéro de question ou de page n'est expressément mentionné, le programme produit uniquement la prévision de l'AA. Le modèle de l'AA n'est pas formé pour apprendre la mise en correspondance du numéro de page de chaque question, car l'emplacement d'une question peut varier selon le format du questionnaire. Il y a par exemple des questions sur différentes pages lorsque vous comparez la police de caractère régulière et les questionnaires à gros caractères, car il y a moins de questions par page avec de gros caractères, et le questionnaire électronique ou en ligne n'affiche aucun numéro de page.

Nettoyage de textes

Avant de former le classificateur, le programme nettoie d'abord les commentaires. Il détermine la langue du commentaire (français ou anglais) et corrige ensuite l'orthographe des mots non identifiables au moyen d'un mot qui nécessite le moins de vérifications et que l'on trouve le plus souvent dans les données d'entraînement. Par exemple, le mot vilse peut être corrigé pour utiliser les mots valides valse ou ville, mais il sera remplacé par ville, car ville a été utilisé plus fréquemment dans les données d'entraînement. De plus, les mots sont regroupés par lemmatisation dans leur représentation de base. La machine comprend alors que les mots marcher et marché ont la même signification à la base. Les mots vides (stop words) ne sont pas retirés, car les mots auxiliaires ont une signification et ajoutent un sentiment. Par exemple, cela devrait être mieux ne signifie pas la même chose que cela est mieux, mais si le programme retirait tous les mots vides (y compris cela, devrait, être et est), les deux phrases deviendraient identiques et il ne resterait qu'un mot : mieux. Le retrait des mots vides peut modifier la signification et le sentiment d'un commentaire.

Classificateur de texte bilingue semi-supervisé

Le classificateur de texte bilingue semi-supervisé apprend des commentaires étiquetés et est utilisé pour classer les commentaires. Le classificateur de texte bilingue semi-supervisé n'est pas un concept unique, mais plutôt des parties individuelles combinées pour mieux classer les commentaires formulés lors du recensement.

Les scientifiques des données ont formé un modèle bilingue dans lequel la proportion de commentaires étiquetés en français par rapport à l'anglais, tels que détectés par un langage de programmation Python, était de 29 % et 71 %, respectivement (16 062 commentaires étiquetés en anglais et 6 597 commentaires étiquetés en français). En formant le modèle en fonction des deux langues, ce dernier a profité des mots identiques (comme consultation, journal et restaurant) qui ont la même signification dans les deux langues pour améliorer l'exactitude des commentaires en français qui ont moins d'étiquettes que les commentaires en anglais.

Le modèle est semi-supervisé. Les données étiquetées déterminent le savoir que la machine doit reproduire. Lorsqu'il reçoit les données de formation étiquetées, le modèle utilise le maximum de vraisemblance pour apprendre les paramètres du modèle et la formation contradictoire pour être robuste face aux petites perturbations. Les données non étiquetées sont aussi utilisées pour élargir l'espace de données que la machine devrait gérer avec peu de confusion, mais n'apprennent pas au modèle la signification des catégories. Les données non étiquetées sont utilisées uniquement pour réduire la confusion du modèle en utilisant la minimisation de l'entropie pour minimiser l'entropie conditionnelle des probabilités de catégories estimées et la formation contradictoire virtuelle pour maximiser le lissage local d'une répartition d'étiquettes conditionnelles par rapport à la perturbation locale.

Le classificateur de texte commence avec une première transformation pour accepter les mots comme données d'entrée. Un tableau de consultation mettra en correspondance chaque mot avec un vecteur dense, car la machine apprend à partir des chiffres et non des caractères. La transformation présentera une séquence de mots en séquence de vecteurs. À partir de cette séquence, le modèle cherche un schéma qui est plus généralisable et plus robuste que d'apprendre chaque mot individuellement. De plus, pour empêcher la machine de mémoriser certaines expressions plutôt que la signification sémantique, une étape d'élimination suit directement la première transformation. Lors de l'entraînement, l'étape d'élimination retire des mots aléatoirement de la phrase de formation. La proportion de mots retirés est fixe, mais les mots retirés sont sélectionnés au hasard. Le modèle est forcé d'apprendre sans certains mots, de sorte qu'il effectue une meilleure généralisation. Lors de l'utilisation du modèle pour classer les commentaires, aucun mot n'est mis de côté et le modèle peut utiliser toute la connaissance et tous les schémas détectés pour faire une prévision.

Comparaison du réseau de neurones à convolution à la mémoire à long-court terme bidirectionnelle

Les scientifiques des données ont comparé un réseau de neurones à convolution (RNC) à un réseau de mémoire à long-court terme bidirectionnelle (MLCT-Bi). Les deux réseaux peuvent classer le texte en apprenant automatiquement des schémas complexes, mais ils apprennent différemment, en raison de leurs structures différentes. Dans cette preuve de concept, les scientifiques des données ont mené une expérience avec trois modèles différents pour apprendre les 15 catégories : un modèle de MLCT simple, un modèle de MLCT multiple et un modèle de RNC multiple. Dans l'ensemble, le modèle de MLCT simple a prévu avec constance toutes les catégories avec le plus d'exactitude et sera donc utilisé dans la production.

Le réseau de MLCT peut saisir les dépendances à long terme entre les séquences de mots en utilisant des mécanismes (gates) appliqués aux données d'entrée, d'oubli et de sortie, car il peut apprendre à retenir ou à oublier l'information sur l'état précédent. L'information sur l'état précédent est le contexte créé par le groupe de mots qui précédait le mot actuel sur lequel le réseau se penche. Si le mot actuel est un adjectif, le réseau sait à quoi réfère l'adjectif, car il a retenu cette information précédemment à l'intérieur de la phrase. Si la phrase parle d'un sujet différent, le réseau devrait oublier l'état précédent de l'information. Puisque la MLCT-Bi est bidirectionnelle, le modèle recueille l'information précédente et future sur chaque mot.

Le modèle de RNC applique un filtre de convolution à une fenêtre mobile de groupe de mots et de regroupement maximum pour sélectionner l'information la plus importante d'une séquence de mots plutôt que d'analyser chaque mot séparément. Le RNC définit le contexte sémantique d'un mot en utilisant les mots qui l'accompagnent, tandis que la MLCT apprend à partir d'un schéma séquentiel de mots. Les caractéristiques individuelles sont concaténées pour former un vecteur de caractéristiques uniques qui résume les caractéristiques principales de la phrase d'entrée.

Un classificateur multiple a été mis à l'essai avec une couche sigmoïde finale donnant une répartition du niveau de confiance associé aux catégories. La couche sigmoïde représentera la cote de confiance de prévision de chaque catégorie sous forme de pourcentage entre 0 et 1 (c.-à-d., 0 % - 100 %) où les cotes sont toutes dépendantes l'une de l'autre. Cela est idéal pour le problème des étiquettes multiples pour les commentaires qui abordent de multiples sujets.

Les scientifiques des données ont aussi mis à l'essai un classificateur simple où un modèle apprend uniquement à déterminer si une seule catégorie est présente dans le texte au moyen d'une fonction d'activation softmax. Le nombre de classificateurs uniques est égal au nombre de catégories. Un commentaire d'entrée peut avoir de multiples étiquettes si de multiples classificateurs prévoient que son sujet est mentionné dans le commentaire. Par exemple, si un commentaire porte sur la langue et l'éducation, le classificateur de langue et le classificateur d'éducation prévoiront 1 pour signaler la présence des catégories de domaine spécialisé pertinentes et d'autres classificateurs prévoiront 0 pour signaler l'absence.

Un classificateur simple apprend chaque catégorie mieux qu'un classificateur multiple, qui doit apprendre 15 catégories différentes, mais il y a le fardeau supplémentaire pour les programmeurs de tenir à jour 15 classificateurs différents. Le fardeau d'exécuter les classificateurs multiples est minimal, car il est facile d'effectuer la programmation visant à exécuter tous les classificateurs dans une boucle et indiquer la pertinence de chaque catégorie. Comme il est indiqué dans le tableau, le modèle de MLCT-Bi simple donne les meilleurs résultats au sein des différentes catégories et sur le plan de la moyenne pondérée.

Tableau 1 : Moyenne pondérée des cotes F1 du test pour différents modèles

Tableau 1 : Moyenne pondérée des cotes F1 du test pour différents modèles
  cotes F1
MLCT-Bi simple 90,2 %
RNC multiple 76 %
MLCT-Bi 73 %

Parmi les classificateurs multiples, le RNC a eu une cote F1 moyenne du test supérieure de 4,6 % à celle de la MLCT-Bi lors de la classification des commentaires en catégories de domaine spécialisé comme la langue et l'éducation. Par contre, la cote F1 moyenne du test du modèle de la MLCT-Bi pour les catégories générales de thèmes du recensement (c.-à-d. « non relié au recensement », « expérience du recensement positive », « fardeau du répondant », « expérience avec le formulaire électronique ») était supérieure de 9,0 % au modèle du RNC. La MLCT-Bi était meilleure pour prévoir si un commentaire était pertinent ou non pour le Programme du recensement, parce qu'elle connaissait le contexte global de l'intention du sentiment. Par exemple, l'opinion d'un répondant au sujet d'une équipe sportive canadienne n'est pas pertinente dans le cadre du recensement, alors ce type de commentaire serait classé dans la catégorie « non relié au recensement ». Dans ce cas, le modèle de RNC prédisait le commentaire comme étant de nature positive et, ainsi, le classait dans la catégorie d'expérience du recensement positive, tandis que la MLCT-Bi a relié le sentiment positif au contexte (équipes sportives); puisque le contexte n'était pas relié au recensement, elle l'a correctement étiqueté comme étant non pertinent aux fins d'analyse supplémentaire par le SDSR. Le RNC, en revanche, examine un éventail plus petit de mots, alors il excelle dans l'extraction de caractéristiques dans certaines parties de la phrase qui sont pertinentes à certaines catégories.

Prochaines étapes

Cette preuve de concept a permis de montrer qu'un modèle d'apprentissage automatique (AA) peut classer avec exactitude les commentaires bilingues formulés dans le cadre du recensement. Le classificateur est à catégories multiples, ce qui signifie qu'il y a de multiples catégories dans lesquelles classer un commentaire. Il est aussi à multiples étiquettes, ce qui signifie que plus d'une catégorie peut être applicable au commentaire d'entrée. La deuxième étape de ce projet sera le passage de ce modèle à la production. En production, les commentaires en français et en anglais feront l'objet d'une vérification grammaticale et seront reliés aux racines des mots en fonction de la langue utilisée pour formuler chaque commentaire. Un classificateur de texte bilingue semi-supervisé servira à prédire la nature des commentaires nettoyés en français et en anglais. Les données étiquetées de 2019 seront utilisées pour entraîner le modèle d'AA à faire ses prédictions et à étiqueter les commentaires qui proviendront du nouveau Recensement de la population de 2021 et ainsi garantir que les commentaires des répondants sont catégorisés et communiqués aux analystes experts appropriés. À l'étape de production, lorsque les commentaires du Recensement de 2021 arriveront, l'équipe du SDSR et les scientifiques des données continueront de valider les prévisions de l'AA et les retourneront à la machine pour améliorer encore le modèle.

Si vous êtes intéressé par l'analyse des textes, ou souhaitez en savoir davantage sur ce projet en particulier, un membre de la Communauté de pratique sur l'apprentissage automatique appliqué pour l'analyse des textes (employés du GC seulement) a récemment fait une présentation sur le projet. Joignez-vous à la communauté pour poser des questions ou discuter de d'autres projets en analyse des textes.

Date de modification :
Legacy Content

Une brève enquête sur les technologies liées à la protection de la vie privée

Par : Zachary Zanussi, Statistique Canada

À titre d'organisme, Statistique Canada a toujours cherché à adopter rapidement de nouvelles technologies et à faire preuve d'innovation sur le plan des méthodes. Les technologies de données volumineuses, comme l'apprentissage profond, ont augmenté l'utilité des données de manière exponentielle. L'infonuagique a été un instrument qui a permis à cette situation de se produire, tout particulièrement lorsqu'on utilise des données non confidentielles. Cependant, les calculs à partir de données de nature délicate non chiffrées dans un environnement infonuagique pourraient exposer les données à des menaces en matière de confidentialité et à des attaques liées à la cybersécurité. Statistique Canada a adopté des mesures strictes en matière de politique sur la protection des renseignements personnels qui ont été élaborées suite à des décennies de collecte de données et de diffusion de statistiques officielles. Pour tenir compte des nouvelles exigences en ce qui a trait à l'exploitation infonuagique, nous envisageons d'adopter une catégorie de nouvelles techniques cryptographiques, dites technologies liées à la protection de la vie privée (TPVP), qui peuvent aider à accroître l'utilité, en tirant davantage profit des technologies, comme le nuage ou l'apprentissage automatique, tout en continuant d'assurer la position de l'organisme en matière de sécurité. Ce billet présente brièvement un certain nombre de ces TPVP.

Description - Figure 1 Accroître l'utilité dans l'équation protection de la vie privée contre utilité. La ligne rouge pleine montre l'équilibre entre la protection de la vie privée et l'utilité avec des méthodes classiques, tandis que la ligne verte pointillée montre le résultat qu'on espère obtenir avec les nouvelles technologies de protection de la vie privée.

Qu'entend-on par protection de la vie privée? Par protection de la vie privée, on entend le droit des personnes de contrôler ou d'influencer quels renseignements à leur sujet peuvent être recueillis, utilisés et stockés et par qui, ainsi que les entités auxquelles ces renseignements peuvent être divulgués. À titre d'organisme national de la statistique au Canada, la plupart des données qu'utilise Statistique Canada sont fournies par des répondants, comme une personne ou une entreprise. La confidentialité des données est protégée au moyen des cinq principes de protection (en anglais seulement), afin d'assurer le respect de la vie privée des répondants en veillant à ce que les données qu'ils fournissent ne puissent pas permettre de les identifier directement ou à partir de données statistiques. Vous trouverez davantage d'information sur l'approche de Statistique Canada en matière de protection de la vie privée en consultant le Centre de confiance de Statistique Canada.

Une atteinte à la vie privée implique qu’un pirate réussit à identifier une réponse et à l'attribuer à un répondant en particulier. On considère les données des répondants comme les intrants de certains processus statistiques qui produisent des extrants. Si un pirate a accès aux données d'entrée, il s'agit d'une atteinte à la confidentialité à l'entrée, alors que, si le pirate peut recréer par ingénierie inverse les données sur la vie privée à partir des données de sortie, il s'agit d'une atteinte à la confidentialité à la sortie. On peut empêcher ces deux types d'atteintes au moyen de méthodes statistiques classiques, comme la préservation de l'anonymat, dans le cadre de laquelle on supprime les caractéristiques potentielles d'identification des données; ou la perturbation, dans le cadre de laquelle on modifie les valeurs des données d'une certaine manière pour empêcher toute nouvelle identification exacte. Malheureusement, ces méthodes classiques font en sorte de sacrifier forcément l'utilité des données, tout particulièrement les données de nature délicate. En outre, il existe de nombreux exemples d'identifications qui prouvent que ces techniques classiques n'offrent pas nécessairement les garanties voulues en matière de sécurité cryptographiqueNote de bas de page 1, Note de bas de page 2. L'objectif est de tirer avantage des TPVP pour maintenir des attributs de protection de la vie privée stricts tout en préservant autant que possible l'utilité. À la fin, on améliore effectivement l'utilité dans l'équation protection de la vie privée contre utilité.

La confidentialité différentielle pour préserver la confidentialité à la sortie

Description - Figure 2 Légende de la figure : Dans le cas de la confidentialité différentielle, les données de sortie d'un algorithme pour des ensembles de données très semblables devraient correspondre à une valeur convenue désignée par le nom epsilon. Dans ce cas-ci, l'ajout du répondant du centre (magenta) modifie la sortie de ƒ d'une quantité limitée à ε.

La confidentialité à la sortie des répondants est protégée en tenant attentivement compte des résultats des statistiques agrégées. Par exemple, un adversaire pourrait rétablir les données d'entrée en réalisant une analyse attentive des statistiques publiées. Dans le même ordre d'idées, si le public peut interroger une base de données sécurisée, alors que cet accès lui permet de demander des statistiques simples (moyenne, maximum, minimum et autres) sur des sous-ensembles de la base de données, un adversaire pourrait faire une utilisation abusive de ce système pour extraire des données d'entrée. La confidentialité différentielle réduit ce risque, car on ajoute du « bruit » aux données d'entrée ou de sortie. Du premier coup d'œil, il s'agit tout simplement d'un exemple de perturbation des données qu'on utilise dans le cadre des statistiques officielles depuis des décennies. On a perfectionné la technique en adoptant une formule mathématique rigoureuse de confidentialité différentielle, qui permet d'évaluer avec précision le point exact où un algorithme se trouve sur l'échelle « Protection de la vie privée – Utilité » au moyen d'un paramètre ε, ou epsilon.

Un algorithme porte le nom ε-différentiellement privé si l'exécution de l'algorithme dans deux bases de données dont seulement une entrée est différente produit des résultats qui diffèrent de moins de ε. De manière informelle, cela signifie qu'un adversaire qui emploie la même statistique provenant de différents sous-ensembles d'une base de données peut seulement inférer une certaine quantité de renseignements de la base de données liée par ε. En pratique, avant la diffusion de statistiques, on détermine le niveau de protection de la vie privée requis pour établir ε. On ajoute ensuite du « bruit aléatoire » aux données, jusqu'à ce que les algorithmes ou statistiques à calculer soient ε-différentiellement privés. Au moyen de la confidentialité différentielle, on garantit une meilleure protection des données de sortie tout en maximisant l'utilité.

Les calculs privés comme moyen de protéger la confidentialité à l'entrée

Le terme « calculs privés » est un terme général qui renvoie à un certain nombre de différents cadres pour calculer les données de manière sécurisée. Par exemple, supposons que vous avez des données privées pour lesquelles vous aimeriez réaliser une forme de calcul. Cependant, vous n'avez pas accès à un environnement de calcul sécurisé. Vous pourriez donc souhaiter utiliser le chiffrement homomorphique. Supposons, aussi, que vous et de nombreux pairs souhaitez réaliser un calcul partagé de vos données sans les partager entre vous. Vous pourriez avoir recours, dans ce cas-ci, au calcul sécurisé multi-parties. Ces deux paradigmes de calcul sécurisé seront examinés de manière plus approfondie ci-dessous.

En raison des avancées récentes en infonuagique, les personnes et les organisations ont un accès jamais vu à des environnements infonuagiques puissants et abordables. Cependant, la plupart des fournisseurs de services nuagiques ne garantissent pas la sécurité des données lors de leur traitement. Cela signifie que le nuage est encore hors de portée pour de nombreuses organisations disposant de données privées de nature très délicate. Le chiffrement homomorphique (CH) pourrait changer la donne. Tandis que les données doivent être déchiffrées avant et après utilisation (chiffrement au repos) avec les algorithmes de chiffrement classiques, dans le cadre du CH, les calculs peuvent être effectués directement au moyen de données chiffrées. Les résultats des calculs peuvent être dévoilés uniquement après déchiffrement. Le titulaire des données peut donc chiffrer ses données et les envoyer dans le nuage en sachant qu'elles sont protégées de manière cryptographique. Le nuage peut réaliser les calculs souhaités de manière homomorphique et retourner les résultats chiffrés. Seul le titulaire des données peut déchiffrer et consulter les données. De cette manière, le client peut confier ses calculs dans le nuage sans reposer sur sa relation de confiance pour savoir que ses données sont protégées. Ses données sont sécurisées grâce au chiffrement! Malheureusement, le CH augmente la complexité des calculs, dans une mesure qui peut être beaucoup plus élevée que les calculs non chiffrés correspondants.

Supposons qu'un certain nombre d'hôpitaux ont des données au sujet de patients ayant une maladie rare. S'ils regroupent leurs données, ils pourraient réaliser des calculs qui pourraient les aider à mettre en application des stratégies de prévention et de traitement. Dans de nombreux pays, les lois exigent que les établissements médicaux protègent les données médicales de leurs patients. Dans le passé, il n'y avait qu'une seule solution à ce problème, c'est-à-dire faire en sorte que tous les hôpitaux s'entendent sur une seule autorité de confiance qui recueillerait les données et réaliserait les calculs. Aujourd'hui, les hôpitaux pourraient mettre en place le calcul (sécurisé) multi-parties (CMP). Au moyen du CMP, les hôpitaux peuvent collaborer et réaliser conjointement leurs calculs sans partager leurs données d'entrée avec quiconque. Il n'est donc pas nécessaire de faire appel à une autorité de confiance, car les données personnelles d'entrée sont protégées même si des hôpitaux étaient « malhonnêtes ». On met habituellement en œuvre des protocoles de CMP au moyen de multiples rondes de « partage secret », dans le cadre desquelles chaque partie dispose d'une composante d'un calcul plus petit qu'elle utilise pour effectuer un calcul de plus grande envergure. Malheureusement, le CMP augmente la complexité des calculs, mais pas autant que le CH. En outre, les protocoles exigent habituellement de multiples rondes de communications interactives.

Apprentissage échelonné

Les réseaux neuronaux et l'intelligence artificielle sont peut-être les deux technologies qui ont été les plus prospères à l'époque des données volumineuses. Au lieu de préparer un programme pour réaliser une tâche, des données sont saisies dans une machine, et un modèle entraîné est utilisé pour réaliser la tâche. La collecte de données devient l'aspect le plus important du processus. Comme mentionné ci-dessus, ce processus de collecte peut être prohibitif lorsque les données sont réparties et de nature délicate. L'apprentissage échelonné fait partie des protocoles de CMP qui cherchent à entraîner un modèle utilisant des données appartenant à de multiples parties qui souhaitent garder leurs données privées. Deux protocoles qui mettent en œuvre ce processus de manière légèrement différente, à savoir l'apprentissage fédéré et l'apprentissage divisé, seront abordés. En ce qui a trait au reste de cette section, on suppose que les utilisateurs ont une connaissance de base de la manière d'entraîner un réseau neuronal.

À la base de ces deux protocoles se trouve une même formule; de multiples parties ont accès à des données qu'elles jugent délicates. Un serveur d'autorité centrale non fiable les aidera. Les parties s'entendent sur une architecture de réseau neuronal qu'elles souhaitent entraîner, ainsi que sur d'autres caractéristiques particulières, comme les hyperparamètres. À cette étape-ci, les deux concepts divergent.

Description - Figure 3 En apprentissage fédéré, chaque titulaire de données calcule des gradients pour ses données, avant de les envoyer à une autorité centrale qui calcule ∇ et les redistribue à chaque partie. De cette manière, chaque partie peut obtenir un réseau neuronal entraîné pour tenir compte de l'union des ensembles de données, sans partager les données.

Dans le cas de l'apprentissage fédéré, chaque partie dispose d'une copie locale identique du réseau qu'elle entraîne. Les parties réalisent chacune une époque d'entraînement de leur réseau, avant d'envoyer les gradients à l'autorité. L'autorité coordonne ces gradients et demande à chaque partie de mettre à jour ses modèles locaux en combinant les renseignements tirés des données de chaque partie. Le processus est ensuite répété pour le nombre souhaité d'époques, alors que l'autorité et chaque partie disposent finalement d'une version entraînée du réseau qu'elles peuvent utiliser comme bon leur semble. Les réseaux obtenus sont identiques. Le processus ne révèle aucun autre renseignement sur les données que les gradients accumulés qui ont été calculés par chaque partie. Cette situation pourrait éventuellement faciliter les attaques. Il faut en tenir compte lors de la mise en œuvre d'un cadre d'apprentissage fédéré.

Description - Figure 4 Dans le cadre de l'apprentissage divisé, le réseau souhaité est « divisé » entre les parties et le serveur. La propagation avant va vers le haut en bleu foncé. La rétropropagation va vers le bas en magenta. Chaque partie réalise une propagation avant jusqu'à la division, avant d'envoyer le résultat au serveur, qui réalise une propagation avant et une rétropropagation à nouveau, envoyant les gradients aux parties respectives qui peuvent mettre leurs réseaux à jour.

Dans l'apprentissage divisé, le réseau neuronal est divisé par l'autorité à une certaine couche. Les couches découlant de la division sont partagées avec les parties. Chaque partie produit ses données jusqu'à la division, avant d'envoyer les activations à la couche de division au serveur. Le serveur achève la propagation avant pour le reste du réseau, puis réalise une rétropropagation jusqu'à la division, avant d'envoyer les gradients aux parties qui peuvent ensuite achever une rétropropagation et mettre à jour leur copie du réseau. Après le nombre souhaité d'époques, l'autorité répartit la moitié de son réseau à chaque partie. Chaque partie dispose ainsi de sa propre copie de l'ensemble du réseau, dont la section inférieure de chaque réseau est adaptée explicitement à ses données. Les seules données exposées sont celles qui ont été inférées à partir des activations et des gradients échangés à chaque époque. Les couches sous la division servent à modifier les données suffisamment pour veiller à ce qu'elles soient protégées (appelé parfois « écrasement » des données), tout en permettant au serveur de recueillir des renseignements de celles-ci.

Cet article a porté sur un certain nombre de nouvelles technologies de protection de la vie privée, ainsi que sur la manière dont elles peuvent accroître l'utilité des données sans exposer davantage la vie privée des personnes les ayant fournies. Les prochaines publications étudieront de manière plus approfondie certaines de ces technologies. Demeurez à l'affût! Prochainement nous allons étudier de manière plus approfondie le chiffrement homomorphique, de la mathématique des treillis aux applications.

Souhaitez-vous être tenu au courant de ces nouvelles technologies? Voulez-vous faire état de vos travaux dans le domaine de la protection de la vie privée? Consultez la page GCConnex de notre communauté de pratique sur les technologies de protection de la vie privée, afin de discuter de ces publications sur la protection de la vie privée du Réseau de la science des données, d'interagir avec des pairs qui s'intéressent à la protection de la vie privée, et de partager des ressources et des idées avec la communauté. Vous pouvez également commenter ce billet ou fournir des suggestions de publications futures dans le cadre de la série de publications.

Date de modification :
Legacy Content

Utilisation de l'apprentissage automatique pour prédire le rendement des cultures

Par : Kenneth Chu, Statistique Canada

La Division de la science des données (DScD) de Statistique Canada a récemment terminé un projet de recherche pour la Série de rapports sur les grandes cultures (SRGC, ou Enquête sur les grandes cultures, EGC) Note de bas de page 1 portant sur l'utilisation des techniques d'apprentissage automatique (plus précisément, les techniques de régression supervisée) afin de prédire le rendement des cultures en début de saison.

L'objectif du projet était d'étudier si les techniques d'apprentissage automatique pouvaient être utilisées pour améliorer la précision de la méthode actuelle de prédiction du rendement des cultures (appelée la méthode de référence).

Deux grands défis se posaient : (1) comment intégrer toute technique de prédiction (apprentissage automatique ou autre) à l'environnement de production des EGC selon une méthodologie solide, et (2) comment évaluer toute méthode de prédiction de façon utile dans le contexte de production des EGC.

Pour le point (1), le protocole de validation de la fenêtre mobile progressive Note de bas de page 2 (initialement conçu pour un apprentissage supervisé à partir de données de série chronologique) a été adapté pour éviter la fuite de renseignements temporels. Pour le point (2), l'équipe a choisi de procéder à une vérification en examinant la série réelle d'erreurs de prédiction obtenue dans le cas d'un déploiement sur des cycles de production passés.

Motivation

Traditionnellement, la SRGC publie des estimations annuelles du rendement des cultures à la fin de chaque année de référence (peu après les récoltes). De plus, les prédictions du rendement des cultures pour l'année complète sont diffusées plusieurs fois au cours de l'année de référence. On communique avec les exploitants agricoles en mars, juin, juillet, septembre et novembre aux fins de collecte des données, leur imposant un lourd fardeau de réponse.

En 2019, pour la province du Manitoba, une méthode fondée sur un modèle (essentiellement une sélection de variables par la méthode LASSO [en anglais Least Absolute Shrinkage and Selection Operator] suivie d'une régression linéaire robuste) a été proposée pour générer les prédictions de juillet à partir d'observations satellites longitudinales des niveaux de végétation locaux ainsi que des mesures météorologiques régionales. La question sur la prédiction du rendement des récoltes a pu être retirée du questionnaire de l'EGC de juillet pour le Manitoba, ce qui a réduit le fardeau de réponse.

Technique de régression de base : XGBoost et apprenants de base linéaires

Plusieurs techniques de prédiction ont été examinées, notamment les forêts d'arbres décisionnels, les machines à vecteur de support, les modèles linéaires généralisés elastic-net standardisés et les perceptrons multicouches. Des considérations relatives à l'exactitude et au temps de calcul nous ont menés à concentrer notre attention sur XGBoost Note de bas de page 3, combiné aux apprenants de base linéaires.

Validation de la fenêtre mobile progressive pour éviter les fuites de renseignements temporels

La principale contribution de ce projet de recherche est l'adaptation de la validation de la fenêtre mobile progressive (RWFV) Note de bas de page 2 comme protocole d'ajustement d'hyperparamètres. La validation RWFV est un cas particulier de validation progressive Note de bas de page 2; il s'agit d'une famille de protocoles de validation conçus pour éviter la fuite de renseignements temporels pour un apprentissage supervisé fondé sur des données de série chronologique.

Supposons que vous formiez un modèle de prédiction en vue d'un déploiement pour le cycle de production de 2021. L'illustration suivante présente un schéma de validation de la fenêtre mobile progressive, selon une fenêtre d'entraînement de cinq ans et une fenêtre de validation de trois ans.

Description - Figure 1 Exemple d'un système de validation par fenêtre mobile progressive. Cette figure représente, à titre d'exemple, un système de validation à fenêtre mobile progressive avec une fenêtre de formation de cinq ans et une fenêtre de validation de trois ans. Un modèle de validation de ce type est utilisé pour déterminer la configuration optimale des hyperparamètres à utiliser lors de la formation du modèle de prédiction réel qui sera déployé en production.

La case bleue au bout du schéma représente le cycle de production de 2021 et les cinq cases blanches à sa gauche correspondent à la fenêtre d'entraînement de cinq ans qui est utilisée. Cela signifie que les données d'entraînement pour le cycle de production de 2021 seront celles portant sur les cinq années la précédant strictement et immédiatement (2016 à 2020). Pour la validation, ou l'ajustement d'hyperparamètres, pour le cycle de production de 2021, les trois cases noires au-dessus de la case bleue correspondent à notre choix d'une fenêtre de validation de trois ans.

Le protocole RWFV est utilisé pour choisir la configuration optimale à partir de l'espace de recherche d'hyperparamètres, comme suit :

  • fixer temporairement une configuration candidate arbitraire d'hyperparamètres provenant de l'espace de recherche;
  • utiliser cette configuration pour former un modèle pour l'année de validation de 2020 à l'aide de données provenant des cinq années de 2015 à 2019;
  • utiliser ce modèle formé obtenu pour fournir des prédictions pour l'année de validation de 2020; calculer en conséquence les erreurs de prédiction au niveau de la parcelle pour 2020;
  • agréger les erreurs de prédiction au niveau de la parcelle jusqu'à obtenir une mesure de rendement numérique unique appropriée;
  • répéter la procédure pour les deux autres années de validation (2018 et 2019).

En calculant la moyenne des mesures de rendement pour les années de validation 2018, 2019 et 2020, le résultat obtenu est une mesure de rendement numérique unique ou une erreur de validation pour la configuration temporairement fixée d'hyperparamètres.

Cela doit ensuite être répété pour toutes les configurations candidates d'hyperparamètres de l'espace de recherche d'hyperparamètres. La configuration optimisée à réellement déployer en production est celle qui fournit la meilleure mesure de rendement agrégée. Il s'agit de la validation de la fenêtre mobile progressive ou plus précisément notre adaptation de cette méthode au contexte de la prédiction de rendement des cultures.

Il convient de noter que le protocole susmentionné respecte la contrainte opérationnelle selon laquelle, pour le cycle de production de 2021, le modèle de prédiction formé doit avoir été formé et validé en fonction de données provenant d'années strictement précédentes; en d'autres termes, le protocole évite la fuite de renseignements temporels.

Mise à l'essai adaptée à la production par série d'erreurs de prédiction de cycles de production virtuels

Pour évaluer (de la façon la plus pertinente dans le contexte de production des EGC) le rendement de la stratégie de prédiction susmentionnée fondée sur XGBoost (linéaire) et RWFV, les scientifiques des données ont calculé la série d'erreurs de prédiction obtenue si la stratégie avait réellement été déployée pour des cycles de production passés. En d'autres termes, ces erreurs de prédiction de cycles de production passés virtuels ont été considérées comme des estimations de l'erreur de généralisation dans le contexte de la production statistique des EGC.

L'illustration suivante représente la série d'erreurs de prédiction des cycles de production virtuels.

Description - Figure 2 Série d'erreurs de prédiction des cycles de production virtuels. Les cycles de production virtuels sont exécutés pour les années de référence passées, comme décrit dans la figure 1. Comme les données de rendement réel des cultures sont déjà connues pour les cycles de production passés, il est possible de calculer les erreurs de prévision réelles si la stratégie de prévision proposée avait été effectivement déployée pour les cycles de production passés (représentés par des cases oranges). La série d'erreurs de prévision qui en résulte pour les cycles de production passés est utilisée pour évaluer la précision et la stabilité de la stratégie de prévision du rendement des cultures proposée.

Il s'agit alors de répéter, pour chaque cycle de production virtuel (représenté par une case orange), ce qui vient d'être décrit pour la case bleue. La différence est maintenant la suivante : pour la case bleue (c.-à-d. le cycle de production actuel), il N'EST PAS encore possible de calculer les erreurs de production ou de prédiction au moment de la prédiction du rendement des cultures (en juillet), puisque la saison de croissance n'est pas terminée. Cependant, il est possible de le faire pour les cycles de production virtuels passés (les cases orange).

Ces erreurs de prédiction pour des cycles de production virtuels passés peuvent être illustrées dans le graphique suivant :

Description - Figure 3 Comparaison graphique de la stratégie de prédiction XGBoost(Linear)/RWFV avec le modèle de référence. La ligne rouge représente la série d'erreurs de production simulées de la stratégie de base, tandis que la ligne orange représente la stratégie XGBoost(Linear)/RWFV. Cette dernière stratégie présente des erreurs de prédiction toujours plus faibles sur des cycles de production passés virtuels consécutifs.

La ligne rouge représente les erreurs de prédiction du modèle de référence, alors que la ligne orange, celles de la stratégie XGBoost/RWFV. Les lignes grises représentent les erreurs de prédiction pour chaque configuration candidate d'hyperparamètres de notre grille de recherche choisie (qui comprend 196 configurations).

La stratégie de prédiction XGBoost/RWFV a enregistré des erreurs de prédiction moindres que la méthode de référence, de façon constante sur des essais de production historiques consécutifs.

La stratégie proposée est actuellement en phase finale d'essai de préproduction, pour être appliquée conjointement par des spécialistes de domaine et les méthodologistes du programme agricole.

Importance de l'évaluation des protocoles

L'équipe a choisi de ne pas utiliser de méthode de validation habituelle, comme la validation test ou la validation croisée, ni une estimation générique d'erreur de généralisation, comme une erreur de prédiction sur un ensemble de données d'essai mis de côté au préalable.

Ces décisions sont fondées sur notre détermination à proposer un protocole de validation et un choix d'estimations d'erreurs de généralisation (respectivement, RWFV et séries d'erreurs de prédiction de cycles de production virtuels) qui soient bien plus pertinents et adéquats pour le contexte de production des EGC.

Les méthodologistes et praticiens en apprentissage automatique sont encouragés à évaluer attentivement si les protocoles de validation ou mesures d'évaluation génériques sont effectivement adaptés à leur cas d'utilisation et, dans le cas contraire, à rechercher d'autres options plus pertinentes et utiles pour le contexte donné. Pour de plus amples renseignements au sujet de ce projet, veuillez envoyer un courriel à statcan.dsnfps-rsdfpf.statcan@statcan.gc.ca.

Date de modification :