La plateforme infonuagique d'analyse avancée liée à la COVID-19

Par : Allie MacIsaac, Statistique Canada

Alors que les Canadiens étaient de plus en plus préoccupés par les répercussions de la COVID-19 sur notre société et sur notre économie en mars 2020, Statistique Canada a commencé à recueillir des renseignements cruciaux pour soutenir les citoyens et les activités essentielles du gouvernement durant cette période sans précédent.

Parallèlement, les analystes, les chercheurs et les scientifiques des données de l'ensemble du gouvernement du Canada se sont heurtés à un autre problème urgent : comment pourraient-ils fournir, de manière rapide et sécuritaire, des renseignements indispensables à la population canadienne, tout en travaillant à distance et en ayant un accès limité à leurs outils et à leur infrastructure informatique habituels?

Modernisation accélérée

Alors que le besoin de capacités analytiques devenait de plus en plus urgent, une équipe de spécialistes de Statistique Canada s'est réunie pour accélérer l'Analyse des données en tant que service (ADS) et explorer des solutions de données ouvertes. L'objectif était de doter les scientifiques des données de l'environnement de travail dont ils ont besoin pour mener une analyse plus approfondie et offrir un aperçu des répercussions de la COVID-19 au Canada.

Le résultat est une plateforme infonuagique d'analyse avancée liée à la COVID-19 : un espace collaboratif virtuel conçu pour la science des données qui permet d'intégrer des données provenant de sources fiables de Statistique Canada, d'extraire des renseignements et de les présenter dans une plateforme centrale qui comprend des options de présentation et de diffusion robustes.

Non seulement cette solution répond aux besoins des scientifiques des données, mais elle fait également progresser la modernisation de l'organisme national de statistique en aidant à atteindre les objectifs stratégiques de la Stratégie de données de Statistique Canada (y compris en mettant davantage l'accent sur la science des données) à un rythme accéléré.

Une équipe spéciale multidisciplinaire qui a créé un environnement de science des données « de rêve »

La plateforme d'analyse est le résultat d'une collaboration entre la Division de la science des données de Statistique Canada, l'équipe informatique d'ADS, l'équipe d'infonuagique et des partenaires de Microsoft.

Chaque groupe avait un rôle important à jouer. L'équipe d'infonuagique a jeté les bases du travail, en fournissant une base conteneurisée robuste à l'aide de Kubernetes et de l'infrastructure sous-jacente Azure comme infrastructure en tant que service. L'équipe d'ADS a travaillé sur l'intégration des composantes de service, y compris le portail, à l'aide des services sous-jacents. L'équipe de la science des données a travaillé avec les autres équipes pour déterminer les logiciels libres à installer et pour définir les pipelines et les flux de données. En comptant sur des spécialistes de la science des données qui travaillent de concert avec des spécialistes de l'infonuagique et des plateformes, l'équipe a pu fournir une plateforme évolutive et accessible qui répond aux besoins en matière de science des données. Le résultat est un environnement doté d'une variété d'outils avancés permettant le traitement des images satellitaires ainsi que le traitement du langage naturel et l'automatisation.

En éliminant les obstacles internes et externes, l'équipe a pu créer un utilitaire cohérent en quelques semaines, tout en travaillant en sécurité depuis la maison. Cela a été rendu possible grâce à une approche axée sur l'utilisateur pour moderniser l'expérience des utilisateurs de données et mieux répondre à leurs besoins en pleine évolution, tout en leur fournissant une aide complète en matière de science des données.

« La plateforme a eu une incidence positive considérable sur notre façon de travailler. Nous sommes en mesure d'obtenir de meilleurs résultats, de travailler de manière agile et de voir les avantages de la modernisation en action », explique Sarah MacKinnon, directrice adjointe de la Division de l'exécution de projets de technologie de l'information à Statistique Canada.

À l'intérieur de l'ensemble d'utilitaires, vous trouverez une plateforme à la fine pointe de la technologie, un « environnement de science des données de rêve », précise Sevgui Erman, directrice de la Division de la science des données à Statistique Canada. « Cet environnement répond aux besoins de calcul à grande capacité des scientifiques de données tout en comblant nos besoins en matière d'environnements de travail et d'outils collaboratifs. L'ensemble d'utilitaires est muni d'outils d'intégration continue et de développement continu qui permettent des pipelines de données extensibles et faciles à reproduire, ainsi que des capacités avancées de gestion de données et de modèles. »

« Vous pouvez aussi élaborer vos flux de travail à l'aide de GitHub Actions et de Kubeflow Pipelines. Comme il comporte des modèles pour la formation, la validation, le prétraitement et le service de modèle de transfert d'état représentationnel (REST), et des intégrations à des plateformes en tant qu'offres de service comme Databricks ou les lacs de données gérées, l'espace d'analyse avancée vous donne la liberté d'utiliser les outils de votre choix, et il vous donne une couche unifiée à partir de laquelle les utiliser », ajoute Blair Drummond, analyste à la Division de la science des données de Statistique Canada et membre de l'équipe spéciale.

Coup d'œil à l'intérieur de l'ensemble d'utilitaires

L'équipe a rassemblé les meilleurs outils de source libre disponibles pour créer un ensemble d'utilitaires permettant aux utilisateurs d'accéder à distance à des données chargées par Statistique Canada, en mettant l'accent sur la COVID-19. Cet environnement puissant repose sur une suite complète d'outils de la science et de l'analyse des données, notamment :

  • Jupyter Notebooks pour les langages de programmation R et Python
  • Poste de travail à distance Linux
  • Power BI
  • QGIS
  • R Shiny
  • Pachyderm (traçabilité et pipelines des données)
  • Kubeflow Pipelines
  • MLflow pour le suivi des modèles et les applications Web personnalisées
  • Solutions de stockage partageables en libre-service

La plateforme comprend aussi des canaux de discussion de soutien servant à guider les utilisateurs et à obtenir leur rétroaction.

De cette manière, les utilisateurs de données sont mieux outillés pour analyser les répercussions de la COVID-19 et échanger leurs observations de manière sécuritaire et confidentielle.

Pourquoi utilise-t-on les logiciels libres? Comme l'explique monsieur Drummond, « les outils logiciels libres donnent aux utilisateurs plus de flexibilité et d'autonomie à l'égard de leur propre travail. Ils sont accessibles et misent sur l'approche participative, ce qui signifie que les utilisateurs peuvent également obtenir du soutien et de l'aide pour l'analyse ». De plus, les résultats sont reproductibles par leurs collègues d'autres ministères. Il s'agit donc d'une approche qui intègre des logiciels libres et qui soutient la collaboration entre les scientifiques de données, à l'avantage de tous les utilisateurs.

La plateforme en action

En tirant parti des ressources en termes de fonctionnalités de la plateforme, les scientifiques de données de Statistique Canada ont travaillé sans relâche lors de la mise en service de la plateforme.

Un exemple est le travail effectué par Kenneth Chu, méthodologiste principal à la Division de la science des données de Statistique Canada, qui a été l'un des premiers à adopter la nouvelle plateforme et à tester ses capacités en effectuant une analyse statistique massive, mise en parallèle qui, autrement, n'aurait pas été possible au moyen de l'infrastructure informatique actuellement en place.

Monsieur Chu a ajusté un modèle bayésien hiérarchique (aux séries chronologiques provinciales des dénombrements des décès attribuables à la COVID-19) qui estimait les effets des mesures de distanciation physique sur la transmissibilité de la COVID-19. Il y avait, cependant, certains paramètres d'entrée importants mais inconnus, à savoir les taux provinciaux de létalité réels par la COVID-19 (le taux étant défini comme la probabilité conditionnelle de mourir de la COVID-19 étant donné qu'une personne en est infectée). Leurs estimations, qui sont simples en théorie, sont simplement les ratios provinciaux du nombre de décès attribuables à la COVID-19 au nombre réel d'infections par la COVID-19. Malheureusement, l'absence presque totale de connaissances sur cette dernière valeur, en particulier pendant la phase initiale de la pandémie, a rendu les estimations des taux de létalité réels très incertaines.

L'analyse de sensibilité parallélisée consistait simplement à exécuter indépendamment l'analyse bayésienne un nombre suffisamment important de fois (200, pour être précis), chaque fois en sélectionnant aléatoirement les taux de létalité provinciaux parmi la gamme complète des valeurs plausibles. Chaque exécution indépendante nécessitait environ huit heures et était effectuée à l'aide de deux cœurs de calcul. L'analyse de sensibilité complète, exécutée sur ADS, a donc nécessité au total 3 200 heures de traitement informatique, ce qui aurait été impossible au moyen de l'infrastructure préexistante.

La capacité d'exécuter des flux de travail distribués et massivement mis en parallèle contribue à l'infrastructure de mégadonnées de Statistique Canada. En outre, une telle capacité de calcul permet également l'utilisation de nombreuses méthodes statistiques sans distribution (p. ex. celles fondées sur le rééchantillonnage, sur la permutation), qui, bien qu'elles exigent des capacités énormes de calcul, complètent les techniques analytiques complexes modernes de l'apprentissage automatique ou des statistiques bayésiennes.

Dans l'ensemble, les capacités informatiques accrues appuient la mission de l'organisme qui consiste à fournir des renseignements actuels et essentiels aux Canadiens qui doivent faire face aux défis sans précédent que pose la pandémie de COVID-19.

Une approche sécuritaire et progressive

Actuellement, la plateforme d'analyse liée à la COVID-19 est accessible aux employés de Statistique Canada et aux autres ministères du gouvernement du Canada ayant établi des partenariats en matière de données de recherche avec l'organisme. Si vous êtes un scientifique des données qui est intéressé par cette plateforme, veuillez communiquer avec nous pour participer et découvrir la plateforme en envoyant un courriel à statcan.analyticalplatform-platformeanalytique.statcan@statcan.gc.ca.

Cette plateforme s'inscrit dans l'approche progressive de Statistique Canada visant à accorder l'accès à la plateforme de façon sécuritaire. Pour la première phase, l'accès à la plateforme était limité aux employés internes de Statistique Canada travaillant avec des données accessibles au public seulement. La deuxième phase comprenait l'accès à des données non classifiées (données accessibles au public seulement) et l'accès à la plateforme a été rendu disponible à certains employés du gouvernement du Canada sur invitation. À la troisième phase, le portail présentera des données de type Protégé B, et une combinaison d'ensembles de données publiques et d'autres ensembles de données seront utilisés. On fera la promotion de l'accès à cette plateforme à l'extérieur de l'organisme sur le site Web de Statistique Canada. À chaque phase, les mesures de protection nécessaires, y compris des évaluations régulières de la sécurité, devront être mises en œuvre pour assurer le maintien d'un environnement sécurisé en tout temps.

Alors que ce projet continue de progresser, Statistique Canada se réjouit à l'idée de collaborer avec la communauté de la science des données et de continuer à fournir des renseignements d'importance cruciale à tous les Canadiens.

Équipe du projet et collaborateurs :

Christian Ritter, Statistique Canada; Blair Drummond, Statistique Canada

Date de modification :