Interventions non pharmaceutiques et apprentissage par renforcement

Par : Nicholas Denis, Statistique Canada

La COVID-19 a eu de profondes répercussions sur la vie des Canadiens, y compris sur bon nombre de nos comportements. Partout au Canada, les provinces et les territoires ont imposé des restrictions à la population dans le but d'induire des comportements visant à réduire la propagation de la COVID-19 et, du même coup, le nombre d'hospitalisations et de décès découlant des infections. Ces mesures visent à renforcer diverses stratégies d'intervention non pharmaceutique (INP), c'est-à-dire les changements comportementaux qu'une population peut adopter afin de réduire la propagation d'une infection. De nombreux facteurs interviennent dans la sélection des INP à mettre en œuvre. C'est le cas notamment de la modélisation épidémiologique, qui est depuis longtemps utilisée pour simuler, modéliser ou prévoir l'effet d'un ensemble de scénarios précis (p. ex. fermeture des écoles, distanciation physique et fermeture des commerces non essentiels). Plutôt que de modéliser des scénarios précis assortis d'hypothèses fixes quant à la dynamique populationnelle propre au scénario, des scientifiques des données de Statistique Canada ont récemment mis au point un nouveau cadre de modélisation épidémiologique qui permet aux chercheurs d'élargir le champ des INP et de déterminer ainsi la combinaison optimale de comportements à mettre en œuvre dans la population pour réduire la propagation d'une infection dans le cadre de simulations. Cette approche a été rendue possible par le recours à l'apprentissage par renforcement (AR), et a été mise en œuvre en collaboration avec des partenaires de l'Agence de la santé publique du Canada.

Qu'est-ce que l'apprentissage par renforcement?

L'apprentissage par renforcement (AR) est un sous-domaine de l'apprentissage automatique (AA) qui a produit des résultats impressionnants ces dernières années : des algorithmes qui apprennent à jouer à des jeux vidéo, au jeu de stratégie GO en passant par la conception automatisée de médicaments et la réduction de la consommation d'énergie. Mais, qu'est-ce que réellement l'AR? Les notions d'agent et d'environnement sont au cœur de l'AR. Un agent a la capacité de prendre des décisions en posant des actions. En tout temps, la situation courante est déterminée par les interactions de l'agent avec son environnement. À chaque intervalle de temps, l'agent sélectionne une action et, une fois cette action posée, l'environnement évolue vers une nouvelle situation, ce qui a pour effet de produire une notion d'utilité, assimilée à une récompense, que l'agent reçoit sous la forme d'une rétroaction. Le but de l'AR est d'amener l'agent à apprendre de ces interactions avec l'environnement et à adopter un comportement décisionnel optimal, appelé « stratégie », qui a pour effet de maximiser la somme attendue des récompenses que l'agent reçoit lorsqu'il applique cette stratégie dans son environnement. Officiellement, l'AR utilise le cadre mathématique des processus décisionnels de Markov Note de bas de page 1 pour exécuter ses algorithmes d'apprentissage.

L'environnement de simulation

Toutes les approches de modélisation épidémiologiques traditionnelles ont pour but de représenter une population et la dynamique entre les agents ou les sous-ensembles de population, appelés « compartiments », faisant partie de cette population. Dans le cadre du présent travail de recherche, un environnement de simulation a été créé à l'aide de données ouvertes recueillies par Statistique Canada (recensements et enquêtes sociales) et par l'Institut canadien d'information sur la santé Note de bas de page 2. Ces données ont été utilisées pour créer une population d'agents représentant fidèlement les Canadiens du point de vue de renseignements démographiques clés tels que l'âge, les caractéristiques des ménages, les données sur l'emploi et les caractéristiques de l'état de santé (p. ex. présence de comorbidités, centre d'hébergement pour personnes âgées). Les agents peuvent soit occuper un emploi, soit être sans emploi, soit être aux études à temps plein. Les paramètres épidémiologiques ont été fournis par l'Agence de la santé publique du Canada Note de bas de page 3 et comprennent des paramètres établis de façon empirique pour l'ensemble des aspects liés aux événements d'infection et à la progression de l'infection.

Une fois qu'une population d'agents a été créée au moyen d'un processus de génération d'échantillons, la simulation est appliquée à une période de simulation précise (p. ex. 120 jours). En bref, à chaque heure d'éveil, chaque agent doit poser une action conforme à sa stratégie parmi celles disponibles dans sa situation courante. Certaines règles logiques sont appliquées. Par exemple, si un agent occupe un emploi et se trouve au travail au moment où il doit poser une action, l'ensemble des actions disponibles pour cet agent est limité aux actions liées au travail. Les actions sont généralement liées au travail, aux études, aux activités sociales, aux activités économiques (p. ex. se rendre dans un commerce vendant de la nourriture), aux activités domestiques et à la possibilité de se soumettre à un test de dépistage de la COVID-19. Si un agent reçoit un résultat de dépistage positif, il s'isole à domicile pendant une période de deux semaines et un mécanisme de recherche des contacts est lancé. Chaque agent sélectionne ses actions en fonction de sa situation courante et de sa stratégie. La situation d'un agent fournit donc à l'agent toute l'information dont il a besoin pour choisir l'action à poser au moment où il la pose. Dans le cas présent, des renseignements tels que l'âge, l'état de santé, la question de savoir si l'agent a des symptômes ou non et l'emplacement courant de l'agent ont été combinés sous la forme d'un vecteur représentant la situation courante de l'agent. Une fois que tous les agents ont sélectionné leurs actions, l'environnement de simulation est mis à jour de façon à ce que la situation des agents le soit également en fonction des actions qu'ils ont sélectionnées. Si un agent infecté interagit avec un agent vulnérable, un événement d'infection détermine si une infection a lieu ou non.

Enfin, lorsque toutes les actions ont été posées, chaque agent reçoit une récompense numérique qui est utilisée par l'algorithme d'AR pour actualiser l'apprentissage et ainsi améliorer la stratégie de chaque agent. Chaque fois qu'un agent est infecté ou infecte un agent vulnérable, il reçoit une récompense de -1, alors que toutes les autres récompenses sont de 0. En attribuant uniquement des récompenses négatives aux événements d'infection et en combinant les solutions issues de l'AR qui convergent vers des stratégies (comportements) maximisant la somme attendue des récompenses, on obtient une stratégie optimale qui réduit la propagation de la COVID-19. Il importe de souligner que les comportements des agents ne sont aucunement codifiés et que c'est en interagissant de façon itérative avec l'environnement d'une simulation à l'autre que les agents apprennent des comportements qui ont pour effet de réduire la propagation de la COVID-19, au moyen d'un processus de type « essais et erreurs ». En donnant aux agents la « liberté » d'explorer un large éventail d'actions et de comportements, ce cadre permet aux chercheurs d'élargir le champ des solutions et les libère de l'approche plus traditionnelle consistant à modéliser un petit ensemble de scénarios précis.

Apprendre à réduire le nombre d'infections

Description de la figure 1

Les agents apprennent à réduire le nombre d'infections au fil du temps. Schéma représentant le nombre cumulatif d'infections en pourcentage de la population pour chaque période (epoch) d'essai et d'apprentissage par AR. Chaque période est représentée par un tracé légèrement plus foncé; le tracé le plus foncé de tous correspondant à la période affichant le meilleur rendement.

Une population de 50 000 agents a été constituée, et 100 simulations ont été effectuées dans le cadre de l'apprentissage par renforcement. La figure 1 représente, au moyen de tracés, le nombre cumulatif d'infections d'une simulation (période) à l'autre. Lors des premières simulations, une forte proportion de la population des agents a été infectée, mais avec le temps, les agents ont appris à réduire la propagation de la COVID-19 en améliorant leurs stratégies.

Une fois que les agents ont appris à appliquer des stratégies qui permettent de réduire le nombre d'infections, leurs comportements peuvent être analysés. La figure 2 illustre la répartition des actions que les agents travailleurs essentiels ont posées pendant leurs heures de travail (à gauche) et celles que les agents étudiants ont posées pendant leurs heures de classe (à droite), aussi bien en présence qu'en l'absence de symptômes. Une tendance commune est apparue : lorsque les agents ne présentaient pas de symptômes, ils privilégiaient nettement les actions axées sur la distanciation physique (port du masque et maintien d'une distance de deux mètres par rapport aux autres). Toutefois, en présence de symptômes, les agents ont appris à se soumettre à un test de dépistage de la COVID-19 (>38 %, >57 %; travailleurs essentiels et étudiants, respectivement) même s'ils ne recevaient aucune récompense positive pour ce faire. De plus, les travailleurs et les étudiants ont appris à rester à la maison lorsqu'ils présentaient des symptômes (~43 %, >42 %; travailleurs essentiels et étudiants, respectivement). Les comportements peuvent ainsi être explorés plus avant et portés à la connaissance des décideurs pour éclairer le choix des INP à appliquer, par exemple, comme le suggèrent ces résultats, insister sur l'importance, pour les personnes qui présentent des symptômes, de se soumettre à un test de dépistage de la COVID-19 et de rester à la maison, c'est-à-dire de ne pas se présenter au travail ni à l'école.

Description de la figure 2

Analyse des comportements appris par les agents dans le cadre des situations liées au travail et aux études. Diagramme à barres empilées représentant les stratégies apprises par les travailleurs essentiels (à gauche) et les étudiants (à droite), selon la présence ou l'absence de symptômes.

Comparaison avec les populations de référence

Les comportements appris par les agents d'AR ont ensuite été comparés avec ceux de plusieurs populations d'agents de référence. Dans le cas de la population de référence 1, les agents devaient sélectionner des actions de façon uniformément aléatoire, sans avoir la possibilité de poser des actions substitutives axées sur la distanciation physique, alors que les agents de la population de référence 2 utilisaient une approche de sélection d'actions similaire, mais avaient la possibilité de poser des actions substitutives axées sur la distanciation physique. La population de référence 3 reproduisait les conditions applicables à la population de référence 2 en plus de prévoir l'accès à des mécanismes de recherche des contacts et d'isolement obligatoire après l'obtention d'un résultat positif à la COVID-19.

 
Description de la figure 3

Schéma comparant le nombre cumulatif d'infections entre la population de référence 1 (B1), la population de référence 2 (B2), la population de référence 3 (B3), et les comportements appris (LB). Chaque expérience est répétée 50 fois et représentée par un trait de couleur pâle; la moyenne étant représentée par un trait foncé.

La figure 3 illustre le nombre cumulatif d'infections pour chaque expérience et montre que lorsque les agents ont accès à des mesures de distanciation physique et à l'isolement volontaire/la recherche des contacts, le nombre d'infections survenant dans le cadre d'une simulation diminue de façon marquée. En outre, les comportements appris par les agents d'AR s'améliorent de façon significative par rapport à chacune des populations de référence. Une analyse des événements d'infection survenus dans le cadre de chaque expérience a révélé une réduction significative des événements d'infection liés aux activités sociales, au travail, aux études et aux activités publiques (économiques) attribuables aux agents d'AR. Cependant, plus de 60 % des événements d'infection attribuables à des agents d'AR sont survenus alors qu'un agent infecté était en isolement volontaire à domicile en compagnie d'un cohabitant vulnérable après avoir obtenu un résultat positif. Ces résultats démontrent l'importance des recommandations et directives sur les mesures à prendre pour s'isoler de façon sécuritaire à domicile en présence d'autres personnes.

Représenter la non-conformité à l'intérieur du modèle

Un facteur important à prendre en considération lors de la modélisation d'INP est la lassitude face à l'obligation de se conformer ou l'érosion de la conformité – deux termes utilisés pour décrire l'observation selon laquelle les membres de la population deviennent avec le temps moins enclins à respecter les INP. De même, il convient de répartir la mesure dans laquelle les membres d'une population donnée sont susceptibles de se conformer aux INP. Nos partenaires de l'Agence de la santé publique du Canada estimaient important d'intégrer la non-conformité au cadre de modélisation. Pour cette raison, nous avons inclus des expériences comportant des variantes des agents d'AR décrites précédemment : éléments imprévisibles et érosion de la conformité. Dans le cadre des expériences intégrant les éléments imprévisibles, chaque agent pouvait aussi bien se conformer et appliquer la stratégie apprise dans la cadre de l'AR qu'adopter le comportement par défaut de l'agent. Dans le cadre des expériences intégrant l'érosion de la conformité, chaque agent affichait au départ une conformité parfaite, mais la probabilité que ceux-ci appliquent la stratégie apprise dans le cadre de l'AR diminuait ensuite chaque jour de façon stochastique, de sorte que la population finissait par revenir à ses comportements par défaut.

La figure 4 représente au moyen de tracés le nombre quotidien et le nombre cumulatif d'infections observées dans le cadre des expériences portant sur les agents d'AR et des expériences AR + éléments imprévisibles et AR + érosion de la conformité. Il est intéressant de constater que, malgré la présence d'agents imprévisibles, la population en vient tout de même à atteindre un taux d'infections quotidien quasi nul, quoiqu'un peu à retardement par rapport aux agents d'AR. À l'inverse, l'expérience intégrant l'érosion de la conformité démontre l'importance de maintenir la conformité aux INP – si les restrictions sont assouplies trop rapidement, le nombre d'infections ne se stabilise pas et continue d'augmenter. Les simulations s'étendent seulement sur une période de 120 jours, mais on estime que sur une plus longue période une « deuxième vague » serait apparue dans le cadre de l'expérience intégrant l'érosion de la conformité.

Description de la figure 4

Schémas comparant les événements d'infection quotidiens (haut) et cumulatifs (bas) observés dans le cadre des expériences portant respectivement sur les comportements appris (LB), les comportements appris (LB) + les éléments imprévisibles (WC), et les comportements appris (LB) + l'érosion de la conformité (attrition).

Les samedis et les dimanches compris dans les 50 simulations sont représentés en vert.

Des analyses plus approfondies ont révélé une certaine périodicité dans le nombre quotidien d'infections pour chacune de ces expériences (figure 4, % de la population chaque jour). On a constaté que dans le cas des agents d'AR, le nombre d'infections diminuait en semaine pour réaugmenter légèrement les week-ends. Le phénomène inverse a toutefois été observé dans le cadre des expériences intégrant les éléments imprévisibles et l'érosion de la conformité. Le nombre d'infections était supérieur en semaine et diminuait légèrement les week-ends. Une analyse a révélé que ce phénomène est attribuable aux infections liées à la fréquentation d'un établissement scolaire, ce qui démontre que, lorsque la conformité est totale (agents d'AR), le nombre d'infections dans les écoles est inférieur et celles-ci s'avèrent relativement sécuritaires, tandis que lorsque la conformité diminue (agents d'AR + éléments imprévisibles/érosion de la conformité), les écoles deviennent de hauts lieux de contamination communautaire.

L'une des caractéristiques distinctives de la COVID-19 est la prévalence des personnes asymptomatiques qui sont contagieuses et propagent le virus à leur insu. Une analyse a révélé que, comparativement à l'expérience portant seulement sur les agents d'AR, lorsque les agents d'AR sont en présence d'une érosion de la conformité, les événements d'infection attribuables à des personnes asymptomatiques sont 5,5 fois plus nombreux, ce qui confirme l'importance de se conformer aux INP même en l'absence de symptômes.

Autres applications de la simulation orientée agents

Avec la COVID-19 est venue la nécessité de disposer d'approches de modélisation permettant d'éclairer les politiques en matière de santé. La Division de la science des données de Statistique Canada a mis au point un nouveau cadre de modélisation qui utilise l'apprentissage par renforcement pour apprendre à des agents à adopter des comportements qui réduisent la propagation communautaire d'une infection au sein de populations simulées. L'AR a fourni un mécanisme qui a permis d'explorer un vaste champ de comportements et de scénarios possibles. Les chercheurs ont ainsi pu découvrir de nouveaux scénarios de réduction de la propagation des infections, car leur travail ne se limitait pas à modéliser un petit nombre défini de scénarios bien précis. Un manuscrit exposant en détail le présent travail de recherche a récemment été accepté pour publication à titre de chapitre dans un ouvrage sur la modélisation mathématique de la COVID-19 produit par le Fields Institute for Research in Mathematical Sciences qui paraîtra bientôt. L'environnement de simulation orientée agents a été conçu à l'aide de données sur la population canadienne librement accessibles, mais cette approche pourrait aussi être appliquée à des populations plus locales ainsi qu'à d'autres pays. Qui plus est, cette approche n'est pas limitée à la COVID-19; elle peut très bien être appliquée à d'autres maladies infectieuses susceptibles de se propager par transmission communautaire. Toute question ou demande de précisions sur le présent travail de recherche peut être adressée au Réseau des utilisateurs et praticiens de l'intelligence artificielle (connectez-vous à GCcollab et copiez le lien dans votre navigateur).

 
Date de modification :