Processus de demande et lignes directrices – ADTR

Étape 1 : Préparation d'une demande

Pour savoir si votre organisation est déjà inscrite, veuillez consulter la page de coordonnées pour communiquer avec l'équipe s'accès à distance en temps réel.

  • Si vous n'êtes pas membre, téléchargez les deux formulaires de demande : un pour votre formulaire d'application de l'organisation et un pour le formulaire de demande du chercheur. Chaque chercheur doit remplir sa propre demande. Passez à l'étape 2.

  • Si vous êtes un membre, téléchargez le formulaire de demande du chercheur et faites-le signer par la principale personne-ressource. Envoyez-le par courriel à l'adresse figurant à la page de coordonnées. Vous devrez décrire brièvement vos objectifs pour accéder aux microdonnées au moyen de l'accès à distance en temps réel (ADTR).

Étape 2 : Confirmation d'achat

Une fois la demande de l'organisation approuvée, celle-ci devient une confirmation d'achat entre Statistique Canada et l'organisation de parrainage. Elle précise que les chercheurs acceptent de se conformer à la Licence ouverte de Statistique Canada et aux modalités de l'accès à distance en temps réel.

Étape 3 : Accès au système d'accès à distance en temps réel

Une fois la demande du chercheur individuel approuvée, le demandeur recevra un avis par courriel comportant des instructions d'accès. Veuillez consulter le guide d'utilisateur du système de l'accès à distance en temps réel pour obtenir des renseignements sur l'utilisation de l'ADTR.

Une séance de formation sera offerte aux nouveaux utilisateurs de l'ADTR.

Formulaire de demande pour les organisations

Formulaire de demande pour les organisations (PDF, 532.07 Ko)

Accès à distance en temps réel (ADTR)

Nous sommes pleinement engagés à préserver la confidentialité des renseignements fournis par nos clients. Ces renseignements serviront uniquement dans le cadre de votre relation avec Statistique Canada en tant que client. Pour obtenir plus de renseignements à propos de la protection de vos renseignements personnels en tant que client, veuillez visiter La protection de vos renseignements personnels en tant que client.

  • Nom de l'organisation :
  • Secteur :
  • Langue de préférence pour la correspondance :
  • Adresse de courriel :
  • Numéro de téléphone :
  • Adresse :
  • Justification et objectifs de l'accès au moyen de l'ADTR :
  • Type d'abonnement :
  • Date de début de l'abonnement :
  • Date de fin de l'abonnement :

Personne-ressource principale de l'ADTR

La personne-ressource principale de l'ADTR doit être une personne autorisée à accepter la confirmation d'achat ainsi que les modalités de l'ADTR.

  • Nom
  • Adresse de courriel
  • Numéro de téléphone
  • Adresse postale

Modalités

Les travaux statistiques décrits dans la présente proposition serviront à appuyer le mandat de l'organisation. Les utilisateurs de l'organisation acceptent de respecter l'entente de Licence ouverte de Statistique Canada, qui gouverne l'utilisation des données produites par Statistique Canada et fournies par le système d'ADTR.

La personne-ressource principale de l'ADTR est autorisée à réaliser des travaux pour le compte de l'organisation et est autorisée à accepter la confirmation d'achat ainsi que les modalités de l'ADTR.

Les organisations qui participent à la réalisation du présent contrat ne sont pas autorisées à utiliser le service d'ADTR à des fins autres que celles dont elles ont convenu dans le présent contrat, y compris la condition selon laquelle il est interdit de partager les comptes d'utilisateur avec toute autre personne.

La personne-ressource principale de l'ADTR comprend que la violation des modalités de l'ADTR ou de l'entente de Licence ouverte de Statistique Canada entraînera la révocation de son accès pour une période indéterminée. L'organisation qui parraine les chercheurs qui violent les modalités de l'ADTR ou l'entente de Licence ouverte de Statistique Canada pourrait aussi se voir révoquer l'accès.

Affirmation solennelle

J'ai lu l'entente de Licence ouverte de Statistique Canada ainsi que les modalités de l'ADTR, et j'accepte de les respecter.

  • Signature de la personne-ressource principale de l'ADTR
  • Date

Approbation finale de Statistique Canada

  • Signature
  • Date

Approuvé par : Chef, Division de l’accès aux données

Partagez cette page
Date de modification :

Formulaire de demande pour les utilisateurs

Formulaire de demande pour les utilisateurs (PDF, 136.11 Ko)

Accès à distance en temps réel (ADTR)

Statistique Canada s'engage fermement à protéger la confidentialité des renseignements que lui fournissent ses clients. Les renseignements ci-dessous serviront uniquement dans le cadre de votre relation de client de Statistique Canada. Pour en savoir plus sur la protection des renseignements personnels à laquelle vous avez droit en tant que client, veuillez visiter La protection de vos renseignements personnels en tant que client.

  • Nom de famille du demandeur :
  • Prénom :
  • Langue de correspondance :
  • Organisation ou affiliation :
  • Numéro de téléphone :
  • Adresse de courriel :
  • Secteur :
  • Adresse professionnelle :
  • Justification et objectif d'utilisation de l'ADTR :
  • Statut d'emploi :
  • Date de début du projet :
  • Date de fin prévue (si applicable) :

Modalités

Le travail statistique décrit dans la présente proposition servira à appuyer le mandat de votre organisation. La ou les personnes nommées dans la proposition sont autorisées à exécuter le travail au nom de l'organisation. Elles acceptent de se conformer à l'entente de Licence ouverte de Statistique Canada, qui régit l'utilisation des renseignements produits par l'organisme qui sont fournis au moyen du système d'ADTR.

Les personnes engagées dans l'exécution du présent contrat ne peuvent utiliser le système d'ADTR à d'autres fins que celles prévues ici et par la personne-ressource principale de l'ADTR à la signature du contrat de licence de l'ADTR, y compris la condition que les comptes d'utilisateur ne peuvent être utilisés par aucune autre personne.

Le chercheur comprend que le non-respect des modalités d'utilisation de l'ADTR ou de l'entente de Licence ouverte de Statistique Canada entraînera la révocation de son accès pour une période indéterminée. L'accès de l'organisation qui parraine le chercheur peut aussi être révoqué.

Affirmation

J'ai lu l'entente de Licence ouverte de Statistique Canada ainsi que les modalités susmentionnées d'utilisation de l'ADTR et j'accepte de m'y conformer.

  • Signature du demandeur
  • Date

Personne-ressource principale de l'ADTR

  • Nom
  • Division ou faculté
  • Organisation
  • Numéro de téléphone
  • Signature de la personne-ressource principale de l'ADTR
  • Date

Approbation finale pour Statistique Canada :

  • Signature
  • Date

Approuvé par : Chef, Division de l’accès aux données

Partagez cette page
Date de modification :

Foire aux questions - ADTR

  • J'ai ouvert une session à partir de mon compte de transfert électronique de fichiers. Où se trouve l'ensemble de données?

    J'ai ouvert une session à partir de mon compte de transfert électronique de fichiers. Où se trouve l'ensemble de données?

    Les chercheurs qui utilisent l'accès à distance en temps réel (ADTR) ne disposent pas d'un accès direct aux microdonnées et ne peuvent pas voir le contenu des fichiers de microdonnées. Au lieu de cela, ils peuvent soumettre des programmes du SAS pour extraire des résultats sous la forme de tableaux statistiques.

  • Quels produits vais-je recevoir?

    Quels produits vais-je recevoir?

    Pour chaque programme SAS soumis avec succès, vous recevrez quatre types de fichiers :

    1. un journal SAS personnalisé (.log) : renferme tous les éléments d'un journal SAS standard, à l'exception du nombre d'observations, qui a été supprimé pour assurer la confidentialité;
    2. un journal d'ADTR créé par le système d'ADTR (.txt) : informe les utilisateurs de l'étape du processus d'ADTR atteinte par le programme SAS;
    3. ensembles de données SAS (.sas7bdat) : renferment les résultats sous forme de base de données SAS;
    4. tableau (.csv) : présente les données sous forme de base de données SAS;
    5. tableaux HTML (.html) : présentent les données en format HTML.

    Si vous ne recevez pas un ensemble de données de sortie SAS ou de tableau de données de sortie HTML, vérifiez vos journaux SAS et d'ADTR pour voir les erreurs associées à la soumission.

  • Pourquoi le nom du fichier de sortie est-il différent de celui du fichier soumis?

    Pourquoi le nom du fichier de sortie est-il différent de celui du fichier soumis?

    Les résultats retournés par le système d'ADTR comprennent un code de soumission en préfixe. Ce code permet à l'équipe d'ADTR d'effectuer le suivi de votre soumission en cas d'erreur de système.

  • Comment les données sont-elles arrondies?

    Comment les données sont-elles arrondies?

    Le système d'ADTR applique un arrondissement contrôlé et additif à toutes les fréquences. Cette méthode n'a aucune incidence sur l'exactitude des données. Vous trouverez plus de renseignements à ce sujet dans votre compte du Service de transfert électronique de fichiers du système d'ADTR.

  • Où se trouvent les descriptions de variables pour les ensembles de données?

    Où se trouvent les descriptions de variables pour les ensembles de données?

    Vous trouverez les descriptions de variables ainsi que des renseignements détaillés sur les ensembles de données dans le coffre-fort du Service de transfert électronique de fichiers du système d'ADTR.

  • Quelles sont les limites du système d'ADTR?

    Quelles sont les limites du système d'ADTR?

    Veuillez consulter le guide de l'utilisateur de l'accès à distance en temps réel pour obtenir plus de renseignements à ce sujet.

  • Comment puis-je réinitialiser mon mot de passe?

    Comment puis-je réinitialiser mon mot de passe?

    Les mots de passe peuvent être réinitialisés directement sur le site web TEF en cliquant sur le lien "Mot de passe oublié" sur la page de connexion.

Interventions non pharmaceutiques et apprentissage par renforcement

Par : Nicholas Denis, Statistique Canada

La COVID-19 a eu de profondes répercussions sur la vie des Canadiens, y compris sur bon nombre de nos comportements. Partout au Canada, les provinces et les territoires ont imposé des restrictions à la population dans le but d'induire des comportements visant à réduire la propagation de la COVID-19 et, du même coup, le nombre d'hospitalisations et de décès découlant des infections. Ces mesures visent à renforcer diverses stratégies d'intervention non pharmaceutique (INP), c'est-à-dire les changements comportementaux qu'une population peut adopter afin de réduire la propagation d'une infection. De nombreux facteurs interviennent dans la sélection des INP à mettre en œuvre. C'est le cas notamment de la modélisation épidémiologique, qui est depuis longtemps utilisée pour simuler, modéliser ou prévoir l'effet d'un ensemble de scénarios précis (p. ex. fermeture des écoles, distanciation physique et fermeture des commerces non essentiels). Plutôt que de modéliser des scénarios précis assortis d'hypothèses fixes quant à la dynamique populationnelle propre au scénario, des scientifiques des données de Statistique Canada ont récemment mis au point un nouveau cadre de modélisation épidémiologique qui permet aux chercheurs d'élargir le champ des INP et de déterminer ainsi la combinaison optimale de comportements à mettre en œuvre dans la population pour réduire la propagation d'une infection dans le cadre de simulations. Cette approche a été rendue possible par le recours à l'apprentissage par renforcement (AR), et a été mise en œuvre en collaboration avec des partenaires de l'Agence de la santé publique du Canada.

Qu'est-ce que l'apprentissage par renforcement?

L'apprentissage par renforcement (AR) est un sous-domaine de l'apprentissage automatique (AA) qui a produit des résultats impressionnants ces dernières années : des algorithmes qui apprennent à jouer à des jeux vidéo, au jeu de stratégie GO en passant par la conception automatisée de médicaments et la réduction de la consommation d'énergie. Mais, qu'est-ce que réellement l'AR? Les notions d'agent et d'environnement sont au cœur de l'AR. Un agent a la capacité de prendre des décisions en posant des actions. En tout temps, la situation courante est déterminée par les interactions de l'agent avec son environnement. À chaque intervalle de temps, l'agent sélectionne une action et, une fois cette action posée, l'environnement évolue vers une nouvelle situation, ce qui a pour effet de produire une notion d'utilité, assimilée à une récompense, que l'agent reçoit sous la forme d'une rétroaction. Le but de l'AR est d'amener l'agent à apprendre de ces interactions avec l'environnement et à adopter un comportement décisionnel optimal, appelé « stratégie », qui a pour effet de maximiser la somme attendue des récompenses que l'agent reçoit lorsqu'il applique cette stratégie dans son environnement. Officiellement, l'AR utilise le cadre mathématique des processus décisionnels de Markov Note de bas de page 1 pour exécuter ses algorithmes d'apprentissage.

L'environnement de simulation

Toutes les approches de modélisation épidémiologiques traditionnelles ont pour but de représenter une population et la dynamique entre les agents ou les sous-ensembles de population, appelés « compartiments », faisant partie de cette population. Dans le cadre du présent travail de recherche, un environnement de simulation a été créé à l'aide de données ouvertes recueillies par Statistique Canada (recensements et enquêtes sociales) et par l'Institut canadien d'information sur la santé Note de bas de page 2. Ces données ont été utilisées pour créer une population d'agents représentant fidèlement les Canadiens du point de vue de renseignements démographiques clés tels que l'âge, les caractéristiques des ménages, les données sur l'emploi et les caractéristiques de l'état de santé (p. ex. présence de comorbidités, centre d'hébergement pour personnes âgées). Les agents peuvent soit occuper un emploi, soit être sans emploi, soit être aux études à temps plein. Les paramètres épidémiologiques ont été fournis par l'Agence de la santé publique du Canada Note de bas de page 3 et comprennent des paramètres établis de façon empirique pour l'ensemble des aspects liés aux événements d'infection et à la progression de l'infection.

Une fois qu'une population d'agents a été créée au moyen d'un processus de génération d'échantillons, la simulation est appliquée à une période de simulation précise (p. ex. 120 jours). En bref, à chaque heure d'éveil, chaque agent doit poser une action conforme à sa stratégie parmi celles disponibles dans sa situation courante. Certaines règles logiques sont appliquées. Par exemple, si un agent occupe un emploi et se trouve au travail au moment où il doit poser une action, l'ensemble des actions disponibles pour cet agent est limité aux actions liées au travail. Les actions sont généralement liées au travail, aux études, aux activités sociales, aux activités économiques (p. ex. se rendre dans un commerce vendant de la nourriture), aux activités domestiques et à la possibilité de se soumettre à un test de dépistage de la COVID-19. Si un agent reçoit un résultat de dépistage positif, il s'isole à domicile pendant une période de deux semaines et un mécanisme de recherche des contacts est lancé. Chaque agent sélectionne ses actions en fonction de sa situation courante et de sa stratégie. La situation d'un agent fournit donc à l'agent toute l'information dont il a besoin pour choisir l'action à poser au moment où il la pose. Dans le cas présent, des renseignements tels que l'âge, l'état de santé, la question de savoir si l'agent a des symptômes ou non et l'emplacement courant de l'agent ont été combinés sous la forme d'un vecteur représentant la situation courante de l'agent. Une fois que tous les agents ont sélectionné leurs actions, l'environnement de simulation est mis à jour de façon à ce que la situation des agents le soit également en fonction des actions qu'ils ont sélectionnées. Si un agent infecté interagit avec un agent vulnérable, un événement d'infection détermine si une infection a lieu ou non.

Enfin, lorsque toutes les actions ont été posées, chaque agent reçoit une récompense numérique qui est utilisée par l'algorithme d'AR pour actualiser l'apprentissage et ainsi améliorer la stratégie de chaque agent. Chaque fois qu'un agent est infecté ou infecte un agent vulnérable, il reçoit une récompense de -1, alors que toutes les autres récompenses sont de 0. En attribuant uniquement des récompenses négatives aux événements d'infection et en combinant les solutions issues de l'AR qui convergent vers des stratégies (comportements) maximisant la somme attendue des récompenses, on obtient une stratégie optimale qui réduit la propagation de la COVID-19. Il importe de souligner que les comportements des agents ne sont aucunement codifiés et que c'est en interagissant de façon itérative avec l'environnement d'une simulation à l'autre que les agents apprennent des comportements qui ont pour effet de réduire la propagation de la COVID-19, au moyen d'un processus de type « essais et erreurs ». En donnant aux agents la « liberté » d'explorer un large éventail d'actions et de comportements, ce cadre permet aux chercheurs d'élargir le champ des solutions et les libère de l'approche plus traditionnelle consistant à modéliser un petit ensemble de scénarios précis.

Apprendre à réduire le nombre d'infections

Description de la figure 1

Les agents apprennent à réduire le nombre d'infections au fil du temps. Schéma représentant le nombre cumulatif d'infections en pourcentage de la population pour chaque période (epoch) d'essai et d'apprentissage par AR. Chaque période est représentée par un tracé légèrement plus foncé; le tracé le plus foncé de tous correspondant à la période affichant le meilleur rendement.

Une population de 50 000 agents a été constituée, et 100 simulations ont été effectuées dans le cadre de l'apprentissage par renforcement. La figure 1 représente, au moyen de tracés, le nombre cumulatif d'infections d'une simulation (période) à l'autre. Lors des premières simulations, une forte proportion de la population des agents a été infectée, mais avec le temps, les agents ont appris à réduire la propagation de la COVID-19 en améliorant leurs stratégies.

Une fois que les agents ont appris à appliquer des stratégies qui permettent de réduire le nombre d'infections, leurs comportements peuvent être analysés. La figure 2 illustre la répartition des actions que les agents travailleurs essentiels ont posées pendant leurs heures de travail (à gauche) et celles que les agents étudiants ont posées pendant leurs heures de classe (à droite), aussi bien en présence qu'en l'absence de symptômes. Une tendance commune est apparue : lorsque les agents ne présentaient pas de symptômes, ils privilégiaient nettement les actions axées sur la distanciation physique (port du masque et maintien d'une distance de deux mètres par rapport aux autres). Toutefois, en présence de symptômes, les agents ont appris à se soumettre à un test de dépistage de la COVID-19 (>38 %, >57 %; travailleurs essentiels et étudiants, respectivement) même s'ils ne recevaient aucune récompense positive pour ce faire. De plus, les travailleurs et les étudiants ont appris à rester à la maison lorsqu'ils présentaient des symptômes (~43 %, >42 %; travailleurs essentiels et étudiants, respectivement). Les comportements peuvent ainsi être explorés plus avant et portés à la connaissance des décideurs pour éclairer le choix des INP à appliquer, par exemple, comme le suggèrent ces résultats, insister sur l'importance, pour les personnes qui présentent des symptômes, de se soumettre à un test de dépistage de la COVID-19 et de rester à la maison, c'est-à-dire de ne pas se présenter au travail ni à l'école.

Description de la figure 2

Analyse des comportements appris par les agents dans le cadre des situations liées au travail et aux études. Diagramme à barres empilées représentant les stratégies apprises par les travailleurs essentiels (à gauche) et les étudiants (à droite), selon la présence ou l'absence de symptômes.

Comparaison avec les populations de référence

Les comportements appris par les agents d'AR ont ensuite été comparés avec ceux de plusieurs populations d'agents de référence. Dans le cas de la population de référence 1, les agents devaient sélectionner des actions de façon uniformément aléatoire, sans avoir la possibilité de poser des actions substitutives axées sur la distanciation physique, alors que les agents de la population de référence 2 utilisaient une approche de sélection d'actions similaire, mais avaient la possibilité de poser des actions substitutives axées sur la distanciation physique. La population de référence 3 reproduisait les conditions applicables à la population de référence 2 en plus de prévoir l'accès à des mécanismes de recherche des contacts et d'isolement obligatoire après l'obtention d'un résultat positif à la COVID-19.

 
Description de la figure 3

Schéma comparant le nombre cumulatif d'infections entre la population de référence 1 (B1), la population de référence 2 (B2), la population de référence 3 (B3), et les comportements appris (LB). Chaque expérience est répétée 50 fois et représentée par un trait de couleur pâle; la moyenne étant représentée par un trait foncé.

La figure 3 illustre le nombre cumulatif d'infections pour chaque expérience et montre que lorsque les agents ont accès à des mesures de distanciation physique et à l'isolement volontaire/la recherche des contacts, le nombre d'infections survenant dans le cadre d'une simulation diminue de façon marquée. En outre, les comportements appris par les agents d'AR s'améliorent de façon significative par rapport à chacune des populations de référence. Une analyse des événements d'infection survenus dans le cadre de chaque expérience a révélé une réduction significative des événements d'infection liés aux activités sociales, au travail, aux études et aux activités publiques (économiques) attribuables aux agents d'AR. Cependant, plus de 60 % des événements d'infection attribuables à des agents d'AR sont survenus alors qu'un agent infecté était en isolement volontaire à domicile en compagnie d'un cohabitant vulnérable après avoir obtenu un résultat positif. Ces résultats démontrent l'importance des recommandations et directives sur les mesures à prendre pour s'isoler de façon sécuritaire à domicile en présence d'autres personnes.

Représenter la non-conformité à l'intérieur du modèle

Un facteur important à prendre en considération lors de la modélisation d'INP est la lassitude face à l'obligation de se conformer ou l'érosion de la conformité – deux termes utilisés pour décrire l'observation selon laquelle les membres de la population deviennent avec le temps moins enclins à respecter les INP. De même, il convient de répartir la mesure dans laquelle les membres d'une population donnée sont susceptibles de se conformer aux INP. Nos partenaires de l'Agence de la santé publique du Canada estimaient important d'intégrer la non-conformité au cadre de modélisation. Pour cette raison, nous avons inclus des expériences comportant des variantes des agents d'AR décrites précédemment : éléments imprévisibles et érosion de la conformité. Dans le cadre des expériences intégrant les éléments imprévisibles, chaque agent pouvait aussi bien se conformer et appliquer la stratégie apprise dans la cadre de l'AR qu'adopter le comportement par défaut de l'agent. Dans le cadre des expériences intégrant l'érosion de la conformité, chaque agent affichait au départ une conformité parfaite, mais la probabilité que ceux-ci appliquent la stratégie apprise dans le cadre de l'AR diminuait ensuite chaque jour de façon stochastique, de sorte que la population finissait par revenir à ses comportements par défaut.

La figure 4 représente au moyen de tracés le nombre quotidien et le nombre cumulatif d'infections observées dans le cadre des expériences portant sur les agents d'AR et des expériences AR + éléments imprévisibles et AR + érosion de la conformité. Il est intéressant de constater que, malgré la présence d'agents imprévisibles, la population en vient tout de même à atteindre un taux d'infections quotidien quasi nul, quoiqu'un peu à retardement par rapport aux agents d'AR. À l'inverse, l'expérience intégrant l'érosion de la conformité démontre l'importance de maintenir la conformité aux INP – si les restrictions sont assouplies trop rapidement, le nombre d'infections ne se stabilise pas et continue d'augmenter. Les simulations s'étendent seulement sur une période de 120 jours, mais on estime que sur une plus longue période une « deuxième vague » serait apparue dans le cadre de l'expérience intégrant l'érosion de la conformité.

Description de la figure 4

Schémas comparant les événements d'infection quotidiens (haut) et cumulatifs (bas) observés dans le cadre des expériences portant respectivement sur les comportements appris (LB), les comportements appris (LB) + les éléments imprévisibles (WC), et les comportements appris (LB) + l'érosion de la conformité (attrition).

Les samedis et les dimanches compris dans les 50 simulations sont représentés en vert.

Des analyses plus approfondies ont révélé une certaine périodicité dans le nombre quotidien d'infections pour chacune de ces expériences (figure 4, % de la population chaque jour). On a constaté que dans le cas des agents d'AR, le nombre d'infections diminuait en semaine pour réaugmenter légèrement les week-ends. Le phénomène inverse a toutefois été observé dans le cadre des expériences intégrant les éléments imprévisibles et l'érosion de la conformité. Le nombre d'infections était supérieur en semaine et diminuait légèrement les week-ends. Une analyse a révélé que ce phénomène est attribuable aux infections liées à la fréquentation d'un établissement scolaire, ce qui démontre que, lorsque la conformité est totale (agents d'AR), le nombre d'infections dans les écoles est inférieur et celles-ci s'avèrent relativement sécuritaires, tandis que lorsque la conformité diminue (agents d'AR + éléments imprévisibles/érosion de la conformité), les écoles deviennent de hauts lieux de contamination communautaire.

L'une des caractéristiques distinctives de la COVID-19 est la prévalence des personnes asymptomatiques qui sont contagieuses et propagent le virus à leur insu. Une analyse a révélé que, comparativement à l'expérience portant seulement sur les agents d'AR, lorsque les agents d'AR sont en présence d'une érosion de la conformité, les événements d'infection attribuables à des personnes asymptomatiques sont 5,5 fois plus nombreux, ce qui confirme l'importance de se conformer aux INP même en l'absence de symptômes.

Autres applications de la simulation orientée agents

Avec la COVID-19 est venue la nécessité de disposer d'approches de modélisation permettant d'éclairer les politiques en matière de santé. La Division de la science des données de Statistique Canada a mis au point un nouveau cadre de modélisation qui utilise l'apprentissage par renforcement pour apprendre à des agents à adopter des comportements qui réduisent la propagation communautaire d'une infection au sein de populations simulées. L'AR a fourni un mécanisme qui a permis d'explorer un vaste champ de comportements et de scénarios possibles. Les chercheurs ont ainsi pu découvrir de nouveaux scénarios de réduction de la propagation des infections, car leur travail ne se limitait pas à modéliser un petit nombre défini de scénarios bien précis. Un manuscrit exposant en détail le présent travail de recherche a récemment été accepté pour publication à titre de chapitre dans un ouvrage sur la modélisation mathématique de la COVID-19 produit par le Fields Institute for Research in Mathematical Sciences qui paraîtra bientôt. L'environnement de simulation orientée agents a été conçu à l'aide de données sur la population canadienne librement accessibles, mais cette approche pourrait aussi être appliquée à des populations plus locales ainsi qu'à d'autres pays. Qui plus est, cette approche n'est pas limitée à la COVID-19; elle peut très bien être appliquée à d'autres maladies infectieuses susceptibles de se propager par transmission communautaire. Toute question ou demande de précisions sur le présent travail de recherche peut être adressée au Réseau des utilisateurs et praticiens de l'intelligence artificielle (connectez-vous à GCcollab et copiez le lien dans votre navigateur).

 
Partagez cette page
Date de modification :

Écrire un pipeline d'imagerie satellite, deux fois : un véritable succès

Par : Blair Drummond, Statistique Canada

Statistique Canada modernise la collecte des données agricoles à l'aide d'images satellitaires pour prédire la croissance des cultures. Les scientifiques des données de Statistique Canada ont été confrontés à plusieurs défis tout au long du projet, incluant l'apparence de coûts hors de prix une fois les exigences du passage à la production prises en considération, et ce, malgré des résultats initiaux prometteurs. Ils ont toutefois relevé le défi en tenant compte de toutes les options, y compris les moins évidentes, et ils ont constaté directement tout le bienfait d'avoir une équipe diversifiée au niveau des compétences.

Une équipe de scientifiques de données de Statistique Canada a uni ses efforts à ceux des experts du programme de l'agriculture de l'agence pour créer une preuve de concept de l'apprentissage automatique qui a été couronnée de succès. Ils ont implanté un réseau neuronal qui a réussi à prédire avec une exactitude de 95 % quelle culture poussait dans un quart de section (terrain de 160 acres), en utilisant l'imagerie satellite accessible gratuitement. C'était une belle opportunité pour le programme d'agriculture de StatCan, car l'imagerie satellite offre une façon d'obtenir des estimations de mi-saison, ou même des estimations en temps quasi réel, et la nouvelle approche contribue à réduire le fardeau de réponse pour les exploitants agricoles qui devaient répondre aux enquêtes régulièrement.

Il n'y avait cependant qu'un problème. L'implantation produite par la preuve de concept comportait une étape de prétraitement dans laquelle il fallait extraire des données sous forme de pixels des images satellites de Landsat8 et appliquer certaines transformations. Pour une seule image, ce processus, mené au moyen d'un ordinateur de bureau de base en mode virtuel infonuagique, prenait environ une journée complète, utilisait plus de 100 gigaoctets de mémoire vive et coûtait environ 50 $ par image. L'ensemble des données d'entraînement comportait des données pour sept années et trois provinces, ou environ 1 600 images au total. Si tout fonctionnait la première fois en utilisant l'infrastructure de nuage public, le projet coûterait 80 000 $, avant même d'arriver à l'étape de l'entraînement du modèle.

Ce coût aurait été trop élevé pour ce projet qui en était encore à l'étape d'expérimentation. On ne savait pas avec certitude si le modèle fonctionnerait bien à une échelle plus grande que cette expérimentation, et le coût pour mettre au point un nouveau modèle avait cet obstacle de taille devant lui. Les scientifiques des données étaient assez convaincus de trouver un modèle qui fonctionnerait, mais ils devaient le rendre plus économique. En parallèle, ils se sont tournés vers une petite preuve de concept pour voir s'ils étaient en mesure de contourner cet obstacle et rendre les étapes de prétraitement économiquement viables.

La preuve de concept : les trois premiers pipelines

Lorsque les scientifiques des données ont commencé l'expérimentation de pipeline dans le cadre de ce projet à l'automne 2019, le nuage était encore relativement nouveau pour eux, l'Analyse des données en tant que service (ADS) était un jeune projet, et l'équipe se familiarisait avec ce qui était nouvellement accessible. La preuve de concept visait certainement à régler un problème particulier, mais elle constituait également une expérimentation à l'échelle de la division pour trouver comment naviguer dans la plateforme infonuagique. C'est pourquoi ils en ont fait un projet conjoint avec l'équipe de l'ADS et une équipe d'architectes de solutions en nuage. Le but était d'acquérir de l'expérience avec différentes technologies, y compris :

coût/image
Figure 1 - coût/image

Les solutions d'apprentissage automatique Azure Batch et Azure devaient être implantées par une équipe possédant l'expertise pertinente, en étroite collaboration avec la Division de la science des données (DScD). Celle-ci a également travaillé avec l'équipe de l'ADS pour voir ce que la plateforme de l'ADS était en mesure d'offrir. Les équipes ont toutes reçu le même ensemble de code et quelques images d'essai et pendant quatre mois, elles ont travaillé à l'implantation de leurs solutions.

À la fin de la période d'implantation, chacune des approches a été analysée pour produire des estimations de coûts pour le traitement d'une seule image (Figure 1).

Les pipelines ont fonctionné avec différents types de machines virtuelles choisis par l'architecte. Les solutions Azure ont utilisé des instances de faible priorité et la tarification de la solution Kubernetes est fondée sur une tarification réservée pour trois ans (ce qui est plus onéreux qu'une faible priorité). La vraie question était la suivante : pourquoi des différences de coût aussi énormes?

Comparer des pommes avec des oranges

La différence était le code. Alors que chaque équipe a reçu le même code au début avec l'objectif de le paralléliser, les solutions d'apprentissage automatique Azure et Azure Batch ont favorisé des approches légèrement différentes à l'égard de cette parallélisation. Les légers changements apportés au code ont donné lieu à des différences de résultat significatives. Les différences ne se situaient pas vraiment au niveau de la technologie du pipeline en soi; toutes choses étant égales, le rendement aurait été comparable, mais une des implantations a contourné un grave problème de rendement tandis qu'une autre n'a pas touché à cette partie du code.

Par exemple, un des problèmes de l'implantation initiale était sa manière de paralléliser le traitement d'une image. Dans sa forme originale, elle a séparé ce qui devait être extrait de l'image en 30 groupes et a ensuite créé 30 processus parallèles, chacun traitant une partie de l'image. À première vue, il s'agissait d'une excellente idée, mais malheureusement, il y avait une complexité. L'algorithme d'extraction requis pour charger un fichier de données géographiques volumineux dans la mémoire et l'image elle-même représentaient ensemble environ 3 Go de mémoire vive. Ce serait possible pour un processus, mais puisque les processus ne partagent pas la mémoire, faire cela pour 30 processus en parallèle gonflait l'utilisation de la mémoire vive à 90 Go. De plus, tous les processus écrivaient de nombreux petits fichiers sur le disque dans le processus d'extraction, et les écritures de disque en parallèle ralentissaient grandement le programme. Cette première implantation a utilisé un grand nombre de ressources et pris plus de temps que prévu, parce qu'elle n'en finissait plus d'écrire des données sur le disque.

C'était là un endroit où l'apprentissage automatique Azure et Azure Batch ont divergé. La solution Azure Batch a facilité la tâche de paralléliser au niveau de ces groupes à l'intérieur de l'image à extraire, et ces processus ont donc été séparés parmi différentes machines. La mémoire vive était beaucoup plus facile à gérer et les processus ne se faisaient pas concurrence lors de l'écriture sur le disque. Cette tâche était moins naturelle à exécuter dans l'apprentissage automatique Azure et, sans que ce soit de sa faute, il a semblé beaucoup moins performant.

En revanche, pour l'implantation de la solution ADS et Kubernetes, les scientifiques des données ont pris grand soin de lire les composants, de les réécrire et de les restructurer et, avant même de toucher au pipeline, ils avaient un processus d'extraction :

  • qui utilisait 6 Go de mémoire vive par image, et non 100 Go;
  • qui s'exécutait en moins de 40 minutes, et non en plusieurs heures;
  • qui utilisait 6 unités centrales de traitement, et non 30 et plus.
L'utilisation du processeur
Description de la figure 2 - L'utilisation du processeur

Traitement de trois lots de 15 images chacun, pour un total de 45 images. Chaque couleur représente une image extraite et l'utilisation des unités centrales de traitement au fil du temps.

L'utilisation de la RAM
Description de la figure 3 - L'utilisation de la RAM

Traitement de trois lots de 15 images chacun, pour un total de 45 images. Chaque couleur représente une image extraite et l'utilisation de la mémoire avec le temps.

Avant même de se rendre à l'optimisation du pipeline, le problème a été réduit d'un problème nécessitant de vastes clusters d'ordinateurs à un qui pourrait être exécuté sur un ordinateur portatif de milieu de gamme. Comme le pipeline n'avait plus la contrainte de rendre le traitement d'une image économique, il a été possible de passer à l'étape de rendre le traitement d'images pour une saison au complet à la fois simple, gérable et automatisé.

Comment savons-nous cela maintenant? Pourquoi cela n'a-t-il pas été remarqué?

L'équipe qui a travaillé sur les solutions d'apprentissage automatique Azure Batch et Azure ne profitait pas d'un mandat qui comprenait la restructuration du code. Ils n'étaient expressément pas censés modifier le code, car cela aurait pu avoir des répercussions sur la méthodologie et cela a peu à voir avec les solutions infonuagiques ou avec les preuves de technologie. Cela ne faisait tout simplement pas partie de leurs tâches.

En revanche, l'équipe de la DScD venait à peine d'embaucher quelqu'un pour investir précisément dans leur capacité d'ingénierie des données, alors en plus de travailler à une preuve de technologie avec l'ADS, l'équipe déployait aussi des efforts pour acquérir plus d'expertise dans ce domaine. L'ingénieur en données a examiné le code en profondeur et a eu la chance d'avoir près de lui l'auteur même du code pour répondre à ses questions. Ils avaient tout simplement plus de liberté pour régler le problème de diverses manières en disposant des ressources à l'interne, ce qui a donné des résultats plus efficaces ainsi que de nouvelles perspectives.

Il est important de noter que sans cette analyse et cet examen du code, non seulement n'auraient-ils pas eu cette nouvelle solution, mais ils n'auraient pas su non plus pourquoi les deux solutions Azure présentaient de telles différences de rendement! Ce n'est qu'après la revue qu'il a été possible de déterminer clairement la cause des différences entre les trois solutions.

Leçons apprises

L'équipe n'a pas comparé des pommes avec des pommes dans cette situation, et par conséquent, cela a été une expérience beaucoup plus instructive. Ce qu'ils ont comparé sans le vouloir était réellement

  • qu'arrive-t-il lorsque vous tentez un portage virtuel (lift-and-shift) d'une application existante?

et

  • que pouvez-vous tirer de l'analyse d'une application existante?

La première question en est une de plateforme/d'infrastructure à la base, et la deuxième est une question d'ingénierie/d'application. Ce qui a été découvert dans cette preuve de concept, c'est que bien que la plateforme soit un contexte nécessaire, sans quoi cet exercice aurait été impossible, la valeur réelle a été obtenue par l'ingénierie de baseNote de bas de page 1, et c'est le travail investi dans l'application même qui a fait la différence entre les résultats.

L'équipe a été plus sage lors de l'expérience et a appris où concentrer son expertise. Grâce à ce projet, et à des expériences similaires, ils ont été en mesure de prendre des décisions stratégiques au sein de la division quant à déterminer comment et où augmenter la capacité. Au cours de l'année écoulée depuis l'expérimentation, les efforts de la DScD pour accroître les compétences en matière d'ingénierie des données dans l'ensemble de la division ont porté fruit dans le cadre de nombreux projets.

Choisir une technologie de pipeline et ce qui a dégénéré la première fois

Dans la section précédente, il a été démontré que la technologie de pipeline sous-jacente n'était pas réellement ce qui a nui à l'efficacité ou au coût. Alors, quels sont les éléments qui ont motivé les décisions? Et quelles sont les erreurs qui ont été commises la première fois?

Comme on y a fait allusion précédemment, la valeur opérationnelle de la DScD réside dans le développement de modèles et d'applications, et non dans la fourniture ou la mise à jour de l'infrastructure. De plus, la division ne représente qu'une infime partie d'une organisation beaucoup plus vaste, et il est important que sa stratégie en matière de technologie soit toujours harmonisée avec l'organisation et qu'elle corresponde aux services horizontaux offerts par des solutions comme l'ADS.

Pour la DScD, la décision était facile. L'harmonisation et le travail avec l'ADS facilite le travail de la DScD, leur permettant de se concentrer sur les choses qui apportent une valeur opérationnelle aux clients, et le travail avec la plateforme d'ADS aide l'équipe d'ADS à construire une plateforme robuste et souple qui répond aux besoins des clients — pour la DScD, pour Statistique Canada, pour les partenaires externes et en définitive, pour les Canadiens.

Choisir la solution ADS et Kubernetes était évident à la fin. Ils ont implanté un pipeline entièrement automatisé qui interagissait avec l'interface de programmation d'applications de la Geological Survey des États-Unis pour obtenir les images, les téléchargeait et les traitait, tout cela de manière automatique, contrôlée à l'aide de versions et mue par des artefacts. L'équipe a obtenu des résultats couronnés de succès et l'équipe ainsi que les clients étaient très heureux de cette solution.

Malheureusement, le pipeline s'exécutait à l'aide d'un logiciel particulier, et environ un mois plus tard, ce logiciel est passé à un nouveau modèle de licence, ce qui a entraîné une remise en question de son utilisation. Il a été déterminé que l'utilisation continue du logiciel était impossible (et que l'achat du logiciel n'était pas une option viable).

Par conséquent, la réécriture était inévitable d'une manière ou d'une autre.

La réécriture et l'avantage de l'analyse a posteriori

À bien des égards, la réécriture a donné à l'équipe la chance de revoir et de simplifier l'implantation initiale. Le premier pipeline comportait de nombreux composants qui remplissaient chacun une fonction, et le code du pipeline s'employait ensuite à les orchestrer.

Le pipeline d'origine
Description de la figure 4 - Le pipeline d'origine

Répartition de chaque composant dans le pipeline d'origine et façon dont ils interagissent l'un avec l'autre.

Un organigramme avec les cases suivantes étiquetées : Fichiers de Trackframe > Tables de Trackframe > Sections Quartier > Processus AA, Minuteur journalier > Événement > Images, IPA de Landsat.

Dans le pipeline révisé, en utilisant les pipelines Kubeflow, la complexité est passée de l'orchestration du pipeline au code de l'application même.

Bien que cela semble contraire au sens commun, la réalité est que le pipeline n'est pas plus ou moins compliqué, que la logique soit encodée dans les « composants » du pipeline, ou dans le tissu qui les rassemble. La différence, c'est que plus de personnes connaissent le langage Python ou R habituel que le code d'orchestration du pipeline. Il est donc plus simple et plus facile à gérer (pour des projets comme celui-ci) de ne pas trop insister sur le code de pipeline. Par conséquent, du côté des pipelines Kubeflow, le pipeline ressemble à ce qui suit :

Pipelines Kubeflow
Description de la figure 5 - Le pipeline Kubeflow

Le pipeline mis à jour combine de nombreux composants d'origine en un seul processus pour déterminer les images d'intérêt, puis Kubeflow crée des processus parallèles pour traiter chacune d'entre elles.

Le pipeline Kubeflow: Un cercle étiqueté « Obtenir le nom de l'image » pointe vers sept boîtes étiquetées « Extraction SQ ».

Il obtient simplement la liste des images à traiter cette journée-là, s'exécute en parallèle dans le cluster Kubernetes et extrait chaque image séparément. Le composant est encapsulé dans une image Docker, qui lui permet de demeurer transférable et facilite les essais et le déploiement. Le code d'orchestration du pipeline est d'environ 20 lignes de Python.

Le pipeline
Description de la figure 6 - Le pipeline

Un organigramme avec les cases suivantes étiquetées : Stockage à distance de Landsat 8 > Télécharger l'image > Obtenir l'identifiant de l'image X en utilisant la table Trackframe > Cache > Cache d'image en MinIO

Grille WRS2 en MinIO > Pas en cache télécharger si nécessaire > Extrait l'image par Trackframe > cache > Trackframes dans MinIO

Pas en cache > Chercher QSTRM sur cette projection > cache > Fichiers QSTRM projetés dans MinIO

QSTRM original dans MinIO > Pas en cache / télécharger QSTRM non projeté > Projeter QSTRM

La circulation des données à l'intérieur de l'extracteur est encore un peu compliquée, mais elle est gérée facilement et efficacement à l'aide d'un compartiment S3 (implanté par MinIO) en tant que lieu de stockage et mémoire cache.

L'équipe était heureuse du résultat et a réussi à traiter 1 600 images sans problème.

La fin?

En fait, ce n'est pas réellement la fin de l'histoire, car le dernier chapitre n'a pas encore été écrit. Avec le nouveau pipeline, le projet sera élargi et passera à la production, et l'équipe commencera bientôt l'entraînement du nouveau modèle.

Nous avons hâte de vous faire part de notre avancement dans nos prochains articles à mesure que le projet ira de l'avant. Qui sait, vous aurez peut-être la chance de lire à propos d'un tout nouveau réseau neuronal qui peut trouver ce qui pousse à partir de l'espace!

 
Partagez cette page
Date de modification :

Détection des serres à l'aide de la télédétection et de l'apprentissage automatique : étape un

Par : Stan Hatko, Statistique Canada

Un effort de modernisation est en cours à Statistique Canada pour remplacer les enquêtes sur l'agriculture par des méthodes de collecte de données plus innovatrices. Un élément principal de cette modernisation est l'utilisation de méthodes de classification par télédétection de la cartographie d'utilisation du sol et de la détection des bâtiments à partir d'imagerie satellite.

Statistique Canada mène actuellement le Recensement de l'agriculture aux cinq ans pour recueillir des renseignements sur des sujets tels que la population, les rendements, la technologie et l'utilisation des serres agricoles au Canada. Les scientifiques des données ont joint leurs efforts à ceux des spécialistes du domaine pour moderniser la collecte de ces données. Ce projet permettra à l'organisme de rendre les données accessibles en temps plus opportun et de réduire le fardeau de réponse pour les exploitants agricoles.

Ce projet vise à évaluer les techniques d'apprentissage automatique utilisées pour détecter la superficie totale des serres au Canada à partir d'imagerie satellite.

Imagerie satellite

Dans le cadre de ce projet, les images satellites RapidEye qui ont une résolution de pixels de 5 mètres (c'est-à-dire que chaque pixel est un carré de 5 m sur 5 m) avec cinq bandes spectrales ont été utilisées.

Représentation graphique des bandes spectrales pour l'magerie satellite RapidEye
Description de la figure 1 - Représentation graphique des bandes spectrales pour l'imagerie satellite RapidEye.

Une représentation graphique de l'étendue spectrale de chaque bande dans une image de sortie de RapidEye : 1) bleue (440 nm à 510 nm), 2) verte (520 nm à 590 nm), 3) rouge (630 nm à 685 nm), 4) bordure rouge (690 nm à 730 nm) et 5) proche-infrarouge (760 nm à 850 nm).

 

Cette imagerie a été choisie en raison de sa disponibilité relative et de son coût. Une imagerie à plus faible résolution n'est pas toujours adéquate pour détecter les serres, et une imagerie à plus haute résolution aurait coûté beaucoup trop cher, compte tenu de la superficie totale requise pour couvrir le secteur agricole canadien.

Données de forme étiquetées

Pour certains sites, les spécialistes du domaine disposent de données étiquetées se présentant comme des Shapefile indiquant les zones qui correspondent à des serres. Ces données ont été élaborées manuellement en examinant des images satellites et aériennes à très haute résolution (au moyen de Google Earth Pro et de logiciels semblables) et qui ont mis en évidence les zones correspondant à des serres.

Ces données étiquetées ont joué deux rôles :

  • Données d'entraînement (à partir de certains sites) en vue d'élaborer un classificateur d'apprentissage automatique pour déterminer la superficie couverte de serres.
  • Données d'essai (à partir d'autres sites) pour évaluer le rendement du classificateur.

Les données étiquetées de Leamington (Ontario), Niagara (Ontario) et Fraser Valley (Colombie-Britannique) ont été produites. Certains sites ont été choisis comme sites d'entraînement (comme Leamington Ouest), tandis que d'autres ont été choisis comme sites d'essai (comme Leamington Est).

Voici un exemple d'imagerie RapidEye d'une région avec le fichier d'étiquetage des serres.

Les cinq bandes spectrales et l'indicateur de serre en fonction du fichier forme pour une zone d'intérêt
Description de la figure 2 - Les cinq bandes spectrales et l'indicateur de serre en fonction du Shapefile pour une zone d'intérêt.

Une comparaison de chacune des cinq bandes spectrales par rapport au Shapefile des serres étiquetées.

 

Les données étiquetées ont été réparties en sites et sous-sites pour entraîner et valider le modèle d'apprentissage automatique. Les sites d'entraînement étaient :

  • Leamington Ouest
  • Niagara Nord : N1, N1a, N3
  • Fraser Sud : S1, S2, S3, S4, S5

Les sites de validation qui ont été utilisés pour tester le modèle étaient :

  • Leamington Est
  • Niagara Sud : S1, S2
  • Fraser Nord : N2, N3, N5

Méthode d'apprentissage automatique

Pour chaque point, les scientifiques des données devaient déterminer si celui-ci correspondait ou non à une serre, ainsi qu'une probabilité prédite que chaque point corresponde à une serre.

Pour la probabilité prédite d'un point, une fenêtre de taille déterminée a été prise autour du point. Nous avons alimenté le classificateur des données de cette fenêtre, et le classificateur a tenté de prédire si le point central est une serre ou non. La fenêtre autour du point fournit davantage de contexte qui aide le classificateur à déterminer si le point central est une serre ou non.

Le classificateur doit déterminer si le point noir central correspond à une serre, en fonction de la zone sélectionnée autour de ce point
Description de la figure 3 - Le classificateur doit déterminer si le point noir central correspond à une serre, en fonction de la zone sélectionnée autour de ce point.

Un quadrillage représentant une fenêtre d'entrée qui évalue les pixels dans une image source pour tenter de les classer comme des serres ou non.

 

Ce processus a été répété pour chaque point dans l'image (sauf près des frontières), de sorte que nous avons obtenu une carte montrant la superficie exacte qui est couverte de serres.

Pour l'entraînement, un échantillon de plusieurs de ces points (y compris la fenêtre autour de chaque point) a été pris comme données d'entrée (avec les données étiquetées) pour élaborer le modèle. La taille de l'ensemble d'entraînement a aussi été accrue en appliquant différentes transformations, par exemple en faisant pivoter l'image d'entrée à différents angles pour différents points.

Travaux initiaux et transition vers une plateforme infonuagique

Au départ, les travaux ont été effectués sur un système interne de Statistique Canada avec microprocesseur à 8 cœurs et 16 Go de mémoire vive. Différents algorithmes ont été mis à l'essai pour le classificateur, y compris des machines à vecteurs de support, des forêts aléatoires et un perceptron multicouche avec analyse en composantes principales (ACP).

Les meilleurs résultats ont été obtenus avec l'ACP et le perceptron multicouche, qui ont donné lieu à un score F1 de 0,89 à 0,90 pour Leamington Est. Diverses limites de système ont été atteintes pendant ces travaux, notamment l'absence d'une unité de traitement graphique (UTG) dédiée. L'UTG est nécessaire pour entraîner efficacement des modèles plus complexes faisant intervenir des réseaux neuronaux convolutifs.

La possibilité d'utiliser la plateforme infonuagique publique a été étudiée, puisque ce projet ne fait intervenir aucune donnée de nature délicate. Le projet a été transféré à la plateforme infonuagique Microsoft Azure, sur un système équipé de 112 Go de mémoire vive, de grands volumes de stockage et d'une UTG très puissante (NVIDIA V100). Le logiciel Microsoft Azure Storage Explorer a été utilisé pour transférer les données vers le compte de stockage et à partir de ce dernier.

Réseaux neuronaux convolutifs

Les réseaux neuronaux convolutifs intègrent les concepts de la localisation (le voisinage autour d'un point dans l'image étant important) et de l'invariance de translation (les mêmes éléments sont utiles partout) au réseau neuronal. Les architectures reposant sur cette méthode sont considérées comme étant à la fine pointe de la technologie en reconnaissance d'images depuis plusieurs années.

Une couche fonctionne comme suit dans un réseau neuronal convolutif de base :

  • Une petite fenêtre (par exemple, 3 x 3) est prise autour de chaque point dans l'image ou de la couche précédente.
  • Les données présentes dans cette fenêtre sont multipliées par une matrice, à laquelle on applique l'activation (un biais peut également être ajouté).
  • Ce processus est répété pour chaque point dans l'image (ou de la couche précédente) pour obtenir la nouvelle couche. La même matrice est utilisée chaque fois.

Cela correspond à la multiplication par une grande matrice creuse, certains poids étant liés aux mêmes valeurs, suivie de l'activation.

Diagrammes expliquant comment les réseaux neuronaux convolutifs fonctionnent
Figure 4 - Diagrammes expliquant comment les réseaux neuronaux convolutifs fonctionnent

De nombreuses architectures différentes de réseau neuronal convolutif sont possibles. Ce projet a mis à l'essai les options suivantes :

  • Réseau neuronal convolutif simple : Applique des couches convolutives de façon séquentielle (la sortie d'une couche est l'entrée de la couche suivante), suivies de couches entièrement connectées.
  • Réseau neuronal résiduel : Applique une couche convolutive ayant une sortie de même taille et l'ajoute à la couche originale (de sorte que l'entrée de la couche suivante est la somme de la couche originale et de cette couche). Le tout peut être répété pour de nombreuses couches. A été utilisé pour entraîner des réseaux très profonds.
  • Réseau neuronal convolutif profond : Applique une couche convolutive et ajoute les sorties à la couche originale comme des nouveaux canaux. Chaque couche ajoute de nouveaux canaux, qui peuvent représenter des éléments utiles.
  • Architecture branchée sur mesure : Supprime la partie centrale de la fenêtre et applique un réseau convolutif. Prend l'ensemble de l'image et applique un autre réseau (avec plus de réduction de dimensionnalité en fonction des couches regroupées). Fusionne les deux aux extrémités en des couches entièrement connectées. Cela permet à l'utilisateur de s'attarder à la partie se trouvant près du point central, tout en obtenant un peu de son contexte.

Les scientifiques des données ont utilisé l'architecture branchée sur mesure pour ce projet, comme illustré à la figure 5.

Diagramme de l'architecture de réseaux neuronaux convolutifs choisie pour ce projet
Description de la figure 5 - Diagramme de l'architecture de réseaux neuronaux convolutifs choisie pour ce projet
  • La taille de la fenêtre d'entrée est de 10 autour du point central (carré de 21 x 21), avec les cinq bandes spectrales de RapidEye.
  • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Une normalisation par lot est appliquée, suivie de la non-linéarité ReLU (unité linéaire rectifiée).
  • Le produit de ce qui précède est ensuite divisé en deux parties, une qui se concentre sur la région centrale et l'autre qui tient compte d'une fenêtre de contexte plus large avec sous-échantillonnage.
  • Pour le premier parcours (le parcours d'intérêt), le travail suivant est effectué :
    • Une fenêtre de taille 5 autour du point central est prélevée, et cette partie est divisée en sous-ensembles (un carré de 11 x 11 au centre du point central).
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
  • Pour le second parcours (le parcours de contour), le travail suivant est effectué :
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
    • Un regroupement maximum de taille 2 est appliqué.
    • Une couche convolutive comportant 64 filtres, un noyau de convolution de taille 3 et un pas de 1 est appliquée. Cela est suivi d'une normalisation par lot et de la non-linéarité ReLU.
  • Le produit des deux parcours ci-dessus est aplati et concaténé.
  • Une couche dense comportant 128 unités est appliquée, suivie d'une normalisation par lot et de la non-linéarité ReLU.
  • Une couche dense comportant 64 unités est appliquée, suivie d'une normalisation par lot et de la non-linéarité ReLU.
  • La couche de sortie comportant un produit linéaire simple est utilisée, suivie de la fonction sigmoïde pour produire une probabilité.
  • Aux fins de prévision, le produit ci-dessus est utilisé tel quel pour la probabilité prédictive que le point soit un panneau solaire. Un seuil de 0,5 est utilisé pour la prévision discrète (si supérieur à 0,5, il s'agit d'une serre; autrement, il ne s'agit pas d'une serre). Pour l'entraînement, la perte d'entropie croisée binaire est utilisée avec ce qui précède comme valeur prédite et l'étiquette de fichier de forme comme l'étiquette de vérité sur le terrain.]

Aux fins d'optimisation, l'optimiseur ADAM a été utilisé avec un taux d'apprentissage de 10-5. Un mini-lot de 5 000 a été utilisé, et l'entraînement a été fait pour 50 époques.

Résultats

Après que le modèle ait été entraîné, il a été mis à l'essai sur chacun des sites de validation à Leamington Est, Niagara Sud et Fraser Nord. Le tableau ci-dessous résume les résultats.

Tableau 1 : Résultats du rendement numérique pour la détection des serres (mesures de la qualité par pixel)
Région Leamington Est Fraser N2 Fraser N3 Fraser N5 Niagara S1 Niagara S2
Nombre inconnu 338443 292149 292149 246299 388479 388479
Nombre de vrais négatifs (VN) 14320042 12347479 12350813 8608499 24597241 24598805
Nombre de faux positifs (FP) 9984 1069 1875 2337 2143 2411
Nombre de faux négatifs (FN) 6880 957 1069 5474 3248 1049
Nombre de vrais positifs (VP) 138315 8346 4094 5041 8889 9256
Exactitude 0,998835 0,999836 0,999762 0,999094 0,999781 0,999859
Précision 0,932677 0,886458 0,685877 0,683247 0,805747 0,793349
Rappel 0,952615 0,89713 0,79295 0,47941 0,732389 0,898205
F1 0,942541 0,891762 0,735537 0,563461 0,767318 0,842527
Courbe ROC 0,999508 0,999728 0,998477 0,962959 0,977933 0,999949

Pour Leamington, le résultat obtenu était très bon : les serres ont bien été détectées et le nombre de faux positifs était faible. Le nombre de points mal classés (FP et FN) était beaucoup plus petit que pour les deux classes correctes (VN et VP). Cette zone a le meilleur score global F1, à un peu plus de 0,94.

Résultats de Leamington Est
Description de la figure 6 - Résultats de Leamington Est

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 

Pour Niagara, les résultats étaient bons en général : la majeure partie de la superficie de serres a été prédite correctement. Il y a eu un faux positif pour une serre sous et à la gauche des serres détectées dans la partie Niagara S1 (Figure 7 ). Cela correspond à une zone riveraine-côtière. Au départ, ce résultat faux positif était beaucoup plus élevé, mais le fait d'augmenter la taille de l'échantillon pour une zone urbaine côtière (comportant un littoral relativement droit) a permis de réduire significativement la taille et a aussi facilité le travail pour d'autres zones. Si plus d'images côtières étaient ajoutées à l'ensemble d'entraînement (avec différents lits de cours d'eau, etc.), cette erreur pourrait être réduite davantage.

Résultats des serres pour Niagara S1
Description de la figure 7 - Résultats des serres pour Niagara S1

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 
Résultats des serres pour Niagara S2
Description de la figure 8 - Résultats des serres pour Niagara S2

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 

Pour Fraser, les résultats ont varié en fonction de la zone. Pour Fraser N2 (Figure 9) les résultats étaient bons. Les résultats n'étaient pas aussi bons pour Fraser N3 (Figure 10), car une grappe de petites serres à la droite des serres détectées ont été manquées (avec quelques faux positifs). Pour Fraser N5 (Figure 11), un nombre significatif de serres ont été manquées. Diverses expérimentations menées jusqu'à maintenant n'ont pas amélioré les résultats pour Fraser. Pour améliorer ces résultats, l'équipe devra tenter de découvrir de quel type de serres il s'agit, si d'autres zones comportant ces types de serres peuvent être ajoutées à l'ensemble d'entraînement, et même si ce type de serre peut être détecté à partir des images satellites de 5 m.

Résultats des serres pour Fraser N2
Description de la figure 9 - Résultats des serres pour Fraser N2

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 
Résultats des serres pour Fraser N3
Description de la figure 10 - Résultats des serres pour Fraser N3

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 
Résultats des serres pour Fraser N5
Description de la figure 11 - Résultats des serres pour Fraser N5

Une représentation spatiale de la classification des éléments détectés comme un vrai positif, un vrai négatif, un faux positif, un faux négatif ou inconnu.

 

Conclusion

Dans l'ensemble, les réseaux neuronaux convolutifs ont été utilisés avec succès pour détecter les serres à partir des images satellites dans de nombreuses zones. Cela était particulièrement vrai dans les régions de Leamington, du Niagara et du Fraser. D'autres régions affichent encore de faibles niveaux de prédictions pour les serres. De plus, on remarque encore des problèmes avec les petites serres dans les trois régions d'intérêt, qui n'étaient pas assez vastes pour être détectées dans l'imagerie satellite RapidEye de 5 m. Ces problèmes pourraient être réglés par des acquisitions d'images aériennes de plus haute résolution.

La prochaine étape de ce projet examinera la détection des serres à partir d'images aériennes à plus haute résolution. Différentes méthodes sont utilisées pour travailler avec l'imagerie aérienne haute résolution, par exemple, l'utilisation d'architectures de segmentation UNet pour détecter les zones qui correspondent à des serres, que nous avons hâte d'examiner dans le cadre d'un prochain article.

Partagez cette page
Date de modification :

Collection de fichiers de microdonnées à grande diffusion

Ce service par abonnement offre l'accès à la collection de fichiers de microdonnées à grande diffusion (FMGD) de Statistique Canada. Un accès illimité à toutes les microdonnées et à la documentation est offert par l'entremise du Service de transfert électronique de fichiers (STEF) de Statistique Canada et d'une base de données en ligne à accès restreint par protocole Internet (IP) dotée d'un outil de découverte convivial. Certains fichiers sont également disponibles gratuitement sur le site Web de Statistique Canada.

L'abonnement est offert aux ministères et aux entreprises du Canada et de l'étranger.

Renseignements et ressources

Données

Projets et ensembles de données

Communauté d'utilisateurs

Établissements participants et personnes-ressources

Frais

Coûts liés au programme

Processus de demande et lignes directrices

Processus de demande et lignes directrices

Coordonnées

Si vous avez des questions ou des commentaires

Partagez cette page
Date de modification :

Processus de demande et lignes directrices – collection de FMGD

La collection de fichiers de microdonnées à grande diffusion (FMGD) est un service par abonnement qui offre aux établissements un accès aux FMGD de Statistique Canada. Moyennant des frais annuels, les personnes-ressources désignées dans les établissements abonnés ont un accès illimité à toutes les microdonnées et à la documentation disponibles dans la collection de FMGD.

L'accès à la collection de FMGD est offert par l'entremise du Service de transfert électronique de fichiers (STEF) et d'une base de données en ligne à accès restreint par protocole Internet (IP) dotée d'un outil de découverte convivial et hébergée par Rich Data Services (RDS). Bien que certains FMGD individuels soient gratuits et accessibles sur le site Web de Statistique Canada, les frais d'abonnement servent à soutenir l'infrastructure de TI pour la base de données en ligne libre-service.

Pour compléter l'accès aux données, le programme offre un soutien administratif. Les membres peuvent communiquer avec le personnel pour poser des questions ou obtenir un soutien technique. Le programme de collection de FMGD tient les utilisateurs de données au courant des nouvelles enquêtes et données de Statistique Canada.

Comment s'abonner

Avant de vous abonner, veuillez consulter la Communauté d'utilisateurs de la collection de fichiers de microdonnées à grande diffusion. Si votre établissement est déjà abonné, veuillez communiquer avec la personne-ressource indiquée pour avoir accès aux microdonnées.

Le Formulaire d'inscription au Programme de FMGD est accessible aux fins de référence et de téléchargement. Pour obtenir des renseignements sur la façon de soumettre le formulaire et le paiement, veuillez communiquer par courriel à l'adresse statcan.dad-pumf-dad-fmgd.statcan@statcan.gc.ca.

Les FMGD contenant des données anonymisées et non agrégées sont régis par la Licence ouverte de Statistique Canada.

Comment accéder à la collection de fichiers de microdonnées à grande diffusion

Toute la collection de FMGD est accessible au moyen d'un interface Web de Transfert électronique de fichiers (TEF) protégé par un mot de passe ainsi que d'une base de données en ligne à accès restreint par protocole Internet (IP).

Les personnes-ressources désignées au sein des établissements abonnés ont besoin d'accéder à l'interface Web de TEF pour obtenir l'accès au TEF protégé par un mot de passe. Elles peuvent ensuite télécharger des microdonnées et de la documentation et les transmettre à d'autres personnes affiliées à leur établissement. Pour demander l'ouverture d'un compte qui vous donnera accès à la collection de FMGP, veuillez communiquer avec votre coordonnateur désigné dans la Communauté d'utilisateurs de la collection de fichiers de microdonnées à grande diffusion.

Pour accéder à la base de données en ligne de Rich Data Services (RDS), les utilisateurs de données des organisations abonnées peuvent accéder directement à RDS dans les locaux de leur organisation ou en se connectant à leur établissement à l'aide d'un réseau privé virtuel (VPN) ou d'un serveur mandataire. Les utilisateurs de données qui tentent d'accéder à la base de données de RDS et qui n'ont pas d'adresse IP vérifiée recevront le message d'erreur « Accès interdit (erreur 403) ».

Formulaire d'inscription au Programme de FMGD

Accès aux fichiers de microdonnées à grande diffusion (FMGD) - Convention d'adhésion (PDF, 281.08 Ko)

Entre Sa Majesté le Roi du chef du Canada représentée aux fins de la Loi sur la statistique par le Ministre de l'Innovation, des Sciences et du Développement économique, (ci-après dénommé « Statistique Canada »),

Et :

  • Nom de l'autre partie
  • ci-après appelé « le titulaire de la licence »

Attendu que Sa Majesté la Reine du chef du Canada est le propriétaire légitime des fichiers de microdonnées à grande diffusion qui doivent faire l'objet d'une licence;

Et attendu que le titulaire de la licence souhaite utiliser ces fichiers de microdonnées à grande diffusion;

Les deux parties conviennent de ce qui suit :

Définition

1. Le terme « fichier de microdonnées à grande diffusion » désigne un ensemble de données non identifiables concernant les caractéristiques des répondants ayant participé aux enquêtes désignées à l'article 2.

Description du produit

2. Le présent contrat se rapporte à la Collection de fichiers de microdonnées à grande diffusion (ci-après appelée « la Collection »). La Collection renferme les fichiers de microdonnées à grande diffusion diffusés par Statistique Canada et la documentation pertinente des enquêtes désignées dans le portail de la Collection sur le site Web de Statistique Canada Collection de fichiers de microdonnées à grande diffusion.

Agent de liaison et dépositaire

3. (1) Le titulaire de la licence désigne par les présentes [agent de liaison] comme agent de liaison à qui toute question relative au présent contrat devra être adressée, et comme dépositaire attitré de la Collection ayant la responsabilité d'assurer l'utilisation adéquate et la garde de la Collection conformément aux dispositions du présent contrat.

(2) Les coordonnées de la personne agissant à titre d'agent de liaison et de dépositaire mentionnée au paragraphe (1) peuvent être affichées dans le portail de la Collection sur le site Web de Statistique Canada Collection de fichiers de microdonnées à grande diffusion.

Date d'entrée en vigueur et durée

4. Le présent contrat entre en vigueur au moment de la signature par les deux parties intéressées et reste en vigueur pour une durée initiale prenant fin le 31 mars [année]. Par la suite, la durée sera prolongée automatiquement pour des périodes subséquentes d'un (1) an, à moins que le contrat ne soit résilié conformément aux présentes.

Paiement

5. (1) Le titulaire de la licence accepte de payer des droits de service annuels de 10 000 $ pour avoir accès à la Collection. Le premier paiement devra être fait à Statistique Canada à la signature du présent contrat. Les paiements subséquents devront être effectués dans les quatre-vingt-dix (90) jours suivant l'expiration de la durée précédente (avril – juin).

(2) Les modes de paiement suivants sont acceptés : chèque/mandat postal (clients non fédéraux); carte de crédit (MasterCard, Visa ou American Express) (clients non fédéraux); règlement interministériel du gouvernement fédéral (clients fédéraux); dépôt direct (clients non fédéraux) ou Service de paiement de factures (SPF) avec votre institution bancaire Canadienne.

(3) Toutes les sommes acquittées par chèque devront être à l'ordre du Receveur général du Canada et envoyé à l'adresse suivante :

Statistique Canada
Finances, 6e étage, immeuble R.-H.-Coats
100, promenade Tunney's Pasture
Ottawa (Ontario)
K1A 0T6

Livraison

6. Dès la signature du présent contrat et dès le paiement des droits de service annuels prévus à l'article 5, Statistique Canada fournira au titulaire de la licence un accès par mot de passe à la Collection et à la documentation pertinente.

Utilisation des microdonnées

7. L'utilisation des microdonnées est régie par la licence ouverte de Statistique Canada, voir : licence ouverte de Statistique Canada. Pour toute question concernant la licence ouverte de Statistique Canada, voir foire aux questions de Statistique Canada sur les licences ouvertes.

Résiliation

8. (1) Statistique Canada résilia automatiquement te présent contrat et l'accès à la Collection sera révoqué si le titulaire de la licence ne respecte pas l'une des modalités du contrat.

(2) L'une ou l'autre partie peut résilier le présent contrat, sans motif déterminé, sur avis écrit de dix (10) jours. La résiliation du contrat et la révocation de l'accès à la Collection prendront effet à la date fixée d'un commun accord par les deux parties.

(3) Si le présent contrat est résilié en vertu du paragraphe (1), le titulaire de la licence doit immédiatement prendre des mesures pour mettre un terme à l'utilisation de la Collection par ses utilisateurs, détruire toutes les copies des données et de la documentation pertinente et confirmer par écrit leur destruction à Statistique Canada.

Avis

9. Tout avis qui doit être signifié à Statistique Canada ou au titulaire de la licence doit être envoyé à statcan.dad-pumf-dad-fmgd.statcan@statcan.gc.ca.

Modification

10. Pour être valable, toute modification au présent contrat doit être mise par écrit et ratifiée par les parties intéressées.

Accord indivisible

11. Le présent contrat constitue l'intégralité de l'entente entre Statistique Canada et le titulaire de la licence concernant les droits du titulaire de la licence d'utiliser la Collection.

Législation applicable

12. La présente entente est régie et interprétée conformément aux lois de la province de l'Ontario et aux lois du Canada qui sont applicables. Par la présente, les parties reconnaissent la compétence exclusive de la Cour fédérale du Canada.

Approuvé par :

  • Signature
  • Date

Chef, Division de l'accès aux données

Et par :

  • Nom de l'établissement
  • Nom du représentant autorisé
  • Signature
  • Date
  • Nom de l'établissement d'enseignement
  • Adresse
  • Plage IP et/ou plage proxy de l'institution
  • Date de début de l'abonnement à FMGD

Administrateur de l'entente

  • Nom
  • Titre
  • Téléphone
  • Courriel

Personne-ressource de FMGD

  • Nom
  • Titre
  • Téléphone
  • Courriel

Suppléant de la personne-ressource de FMGD

  • Nom
  • Titre
  • Téléphone
  • Courriel