Video - Apprendre des stratégies d’intervention optimales grâce à l’apprentissage par renforcement basé sur les agents

Date de diffusion :

Média
Média
Apprendre des stratégies d’intervention optimales grâce à l’apprentissage par renforcement basé sur les agents - Transcription vidéo

(Le logo de Statistique Canada, le mot-symbole du Canada ainsi que le titre : « Apprendre des stratégies d’intervention optimales grâce à l’apprentissage par renforcement basé sur les agents)

Dans la prochaine présentation on va parler de l'intelligence artificielle et comment on peut l'utiliser pour renforcer la sensibilisation, pour identifier les interventions non pharmaceutiques optimales qui réduisent la transmission de la COVID-19.

Je vais vous parler tout d'abord des objectifs du projet, ensuite, de l'apprentissage par renforcement.

Mais on voulait s'écarter finalement des modèles basés sur les scénarios et on voulait plutôt explorer d'autres scénarios et on voulait finalement étudier les agents. Et on voulait finalement apprendre des comportements pour minimiser finalement la propagation de l'infection.

L'apprentissage par renforcement, qu'est-ce que c'est? Eh bien, c'est en fait une branche de l'apprentissage par machine automatisée, donc il y a deux facteurs à nos fins. Nous avons des dizaines de milliers d'agents. Mais pour vous rendre cela très simple, disons qu'il y a un seul agent qui vit dans un environnement donné. Un environnement, c'est une simulation. C'est en fait le monde dans lequel vit l'agent et l'agent se trouve dans un état. Ça, c'est représenté par « S ». Et ça, c'est donc toutes les informations que l'agent a finalement pour se comporter, donc l'agent agit. L'agent donc a tout un ensemble d'actions. Et quand l'agent agit, et bien la vie continue, le monde progresse et l'environnement passe à une autre étape.

Comment est-ce qu'on codifie finalement l'apprentissage par renforcement? On utilise le Markov Decision Process. Il y a plusieurs formules, je vous donne une formule générale et ici « M » est composé de « S » donc ensemble d'états un état décrit toutes les informations qui sont codifiées dans l'environnement. Pour l'agent en question « A » donc ensemble d'actions, ce sont les décisions décisions que les gens peuvent prendre et ensuite il y a donc la dynamique de l'environnement. La récompense pourrait être une fonction. Ça pourrait être une distribution de récompenses, pas forcément une fonction et ensuite, il y a la notion de dynamique, une transition, donc l'agent se trouve dans un état donné et donc suite à une action, il va faire la transition à un nouvel état. Alors il y a une politique et c'est ça qui est vraiment important pour ce projet et on établit une fonction valeur. Ça veut dire que l'agent apprend à estimer la récompense cumulative. Alors maintenant, l'environnement de simulation, on a le monde dans lequel habite l'agent. Comment est-ce qu'on construit ce monde? Il y a deux objets Ici, il y a les agents et les noyaux. Les noyaux sont en fait les lieux, les agents sont en fait les acteurs. Dans le cadre de cette simulation, on utilise des données ouvertes pour construire l'environnement, alors ça fait qu'il y a des informations précise l'âge, le sexe, est-ce que la personne a une famille, habite dans une maison, un appartement, le réseau social et les notions de santé, comorbidité, etc. Ensuite il y a des noyaux, c'est à dire les lieux où les gens peuvent aller, donc leur maison, leur école et leur entreprise, le travail, si voulez. On construit donc une population d'agents, on commence avec des agents infectés. Les agents vont donc vivre à une période de 120 jours et chaque heure de la journée, donc, les agents agissent en des actions et peuvent propager donc le virus.

L'apprentissage renforcé est difficile à calculer. Il y a beaucoup d'agents, mais la séquence d'action doit être finalement calculée de façon informatisée et il faut faire les calculs très rapidement pour qu'on puisse donc avoir des résultats importants.

Alors on avait besoin de l'infrastructure pour faire ces simulations, donc on a décidé d'utiliser l'espace de travail d'analyse avancée. Nous avons utilisé l'espace de travail d'analyse avancée pour réaliser des expériences et nous sommes passés à des centaines d'UCT et des milliers d'heures d'UCT et cela n'aurait pas été possible auparavant.

Donc on a mis à l'essai les hypothèses au sujet de la population en cours pour comparer les expériences. On a pu gérer les expériences et on a passé que des dizaines de milliers d'heures d'UCT et nous avons donc pu faire toutes les expériences qu'il fallait faire pendant la période nécessaire.

On a pu finalement analyser les résultats à la fin. On a utilisé GitLab pour gérer le développement de nos simulations, la simulation a pris des semaines à faire, mais ça nous a permis de faire cela en l'espace de quelques semaines plutôt qu'en l'espace de quelques mois.

Et ça montre finalement la puissance et l'importance de ce genre de démarche.

(Le mot-symbole du Canada est à l’écran.)