Inscription 

Voici les délais d'inscription et les frais pour la Conférence des utilisateurs de données sur la santé de 2024.
  Type  Frais*  Date limite

Préinscription

Étudiant  125 $ 

20 septembre 2024 

Non-étudiant  225 $ 

Standard

Étudiant  175 $ 

1er novembre 2024 

Non-étudiant  275 $ 

*TPS/TVH en sus

Pour être admissible au tarif réduit pour les étudiants, vous devez être inscrit à temps plein dans un établissement d'enseignement postsecondaire. Une preuve d'inscription peut être demandée.

Pour vous inscrire sur notre liste d'attente, utilisez le lien suivant pour soumettre votre formulaire d'inscription : Conférence des utilisateurs de données de santé 2024 : formulaire d'inscription. Si des places se libèrent, vous en serez informé par courriel et recevrez des instructions supplémentaires.

Veuillez noter que pour les personnes qui s'inscrivent sur la liste d'attente après le 1er novembre, nous ne pouvons pas garantir que les demandes spéciales, y compris celles en lien avec des restrictions alimentaires, pourront être satisfaites.

Paiement 

Une facture sera envoyée à l'adresse courriel indiquée dans le formulaire d'inscription. Nous vous demandons de bien vouloir payer la facture dans les cinq jours ouvrables suivant sa réception par carte de crédit, dépôt direct ou chèque. Nous communiquerons avec vous pour vous donner les détails du paiement une fois que votre inscription aura été soumise. 

Politique d'annulation et de transfert 

Si vous ne pouvez pas participer à l'événement, vous pouvez : 

  1. annuler votre inscription d'ici le 18 octobre pour recevoir un remboursement complet, moins des frais administratifs de 30 $. 
  2. annuler votre inscription d'ici le 8 novembre pour recevoir un remboursement de 50 %.
  3. transférer votre inscription à quelqu'un d'autre avant le 8 novembre, sous réserve de l'approbation du comité organisateur. 

Si vous avez des questions, veuillez envoyer un courriel à l'adresse statcan.hduc-cuds.statcan@statcan.gc.ca. 

Appel de résumés

La date limite de soumission des résumés est passée. Merci à toutes les personnes qui ont transmis leur travail.

Dates à retenir

  • Début de la soumission des résumés : 8 juillet 2024
  • Fin de la soumission des résumés : 22 août 2024
  • Communication des résultats : 9 septembre 2024
  • Tenue de la conférence : 14 novembre 2024

Toutes les personnes qui présentent des affiches doivent être inscrites à la conférence. Elles doivent y assister en personne et rester près de leur affiche imprimée pendant les séances d'affichage.

Si vous avez des questions ou éprouvez des difficultés à transmettre le formulaire, veuillez envoyer un courriel à statcan.hduc-cuds.statcan@statcan.gc.ca.

Programme de la conférence

Le programme de la conférence présente des approches novatrices et collaboratives de l'utilisation des données et de la recherche pour aborder les principaux défis en matière de santé. Il est divisé en quatre thèmes : mobilisation des données durant les situations d'urgence, santé de la population, soins préventifs, et environnement et santé. Du temps est également consacré au réseautage, notamment au moyen de présentations par affiches et de kiosques d'information, qui favorisent l'interaction directe entre les utilisateurs et les fournisseurs de données.

Présidente de la conférence : Josée Bégin, statisticienne en chef adjointe, Statistique Canada

Le jeudi 14 novembre 2024 :

Heure Événement
De 8 h à 8 h 50 Inscription et installation des affiches
De 9 h à 9 h 15 Accueil et mot de bienvenue

André Loranger, statisticien en chef du Canada
Josée Bégin, statisticienne en chef adjointe, Statistique Canada

De 9 h 15 h à 10 h 30

Mobilisation des données durant les situations d'urgence

De 9 h 15 à 9 h 45

Thème central : Créer les conditions pour des communautés résilientes

Conférencière : Theresa Tam (administratrice en chef de la santé publique)

Description : Dre Theresa Tam abordera la façon dont la santé publique peut tirer parti des données pour améliorer l'équité, la résilience du système et l'intervention d'urgence. Elle présentera des stratégies de collaboration avec les communautés et les partenaires de divers secteurs afin de favoriser la santé et la résilience des communautés. Elle mettra l'accent sur le rôle de l'utilisation des données sur la santé publique pour améliorer l'équité en matière de santé, en plaçant l'équité au cœur de la science, des données probantes et de la technologie relatives à la gestion des urgences.

Introduit par : André Loranger, statisticien en chef du Canada

De 9 h 45 à 10 h

Séance 1 : L'Enquête canadienne sur les eaux usées : un nouvel outil de santé publique pour surveiller les maladies infectieuses

Conférencière : Natalie Knox (directrice, division des Pathogènes bactériens, résistance aux antimicrobiens et eaux usées, Agence de la santé publique du Canada)

Description : Natalie Knox discutera du partenariat entre l'Agence de la santé publique du Canada et Statistique Canada pour surveiller les maladies infectieuses au moyen de l'Enquête canadienne sur les eaux usées et de la façon dont elle est en train d'être élargie pour aborder les menaces en matière de santé publique existantes et à venir, comme la résistance aux antimicrobiens (RAM).

De 10 h à 10 h 15

Séance 2 : Médecins légistes et coroners : une source sous-exploitée de données dans le contexte de la crise des opioïdes et au-delà

Conférencier : Matthew Bowes (médecin légiste en chef, gouvernement de la Nouvelle-Écosse)

Description : Matthew Bowes décrira l'investigation médico-légale au Canada : la façon dont elle est habituellement menée, le type de décès faisant l'objet d'une enquête, la façon dont les pratiques varient et le type de données disponibles pour les chercheurs.

De 10 h 15 à 10 h 30

Période de questions

Animateur : Josée Bégin (statisticienne en chef adjointe, Statistique Canada)

De 10 h 30 à 11 h Pause-santé, réseautage et visionnement des affiches et des kiosques
De 11 h à 12 h

Séance plénière : l'approche relative à la santé de la population

De 11 h à 11 h 15

Partie 1 : Tirer parti des données sur la santé de Statistique Canada, une ressource clé

Conférencier : Jeff Latimer (directeur général, Direction de la statistique de la santé de Statistique Canada)

Description : Au Canada, Statistique Canada est la source fiable de renseignements actuels et exacts au sujet de la santé des Canadiens, des déterminants de la santé et de l'utilisation de ressources en matière de soins de santé. Dans cette présentation, M. Latimer donnera un aperçu de l'étendue des données hébergées à Statistique Canada, de la façon d'accéder à ces données et des services disponibles pour personnaliser et coupler des données pour vos recherches.

De 11 h 15 à 11 h 30

Partie 2 : Données désagrégées : progrès et réflexions

Conférencière : Gayatri Jayaraman (directrice générale, Direction de la statistique juridique, de la diversité et de la population de Statistique Canada)

Description : Gayatri Jayamaran discutera des progrès de Statistique Canada dans le cadre du Plan d'action sur les données désagrégées (PADD), qui vise à augmenter et à améliorer les statistiques sur diverses populations et à soutenir des méthodes de collecte de données plus représentatives dans l'ensemble de Statistique Canada.

Discussions en séance plénière : Comment les systèmes de santé peuvent-ils utiliser les données désagrégées pour aborder les disparités en matière de santé?

De 11 h 30 à 11 h 35

Commentaires : Kwame McKenzie (PDG, Wellesley Institute; professeur, Université de Toronto) partagera ses connaissances sur les progrès et les défis liés aux données sur la santé fondées sur la race.

De 11 h 35 à 11 h 40

Commentaires : Danièle Behn Smith (administratrice en chef adjointe de la santé des Autochtones, Bureau de l'administrateur en chef de la santé publique de la Colombie-Britannique) partagera ses connaissances sur les progrès et les défis liés aux données sur la santé des Autochtones.

De 11 h 40 à 12 h

Discussion ouverte

Animatrice : Josée Bégin (statisticienne en chef adjointe, Statistique Canada) 

De 12 h à 13 h Dîner, réseautage et visionnement des affiches et des kiosques
De 13 h à 14 h 30

Application des connaissances pour alléger le fardeau de la maladie

De 13 h à 13 h 20

Séance 1 : Modélisation des effets de la politique nationale de nutrition sur l'alimentation et la santé

Conférencière : Mary L'Abbé (professeure, Université de Toronto, et directrice, Centre collaborateur de l'OMS sur la politique nutritionnelle pour la prévention des maladies chroniques)

Description : Santé Canada exige que les aliments et boissons préemballés dont la teneur en sodium, en sucres ou en gras saturés dépasse les seuils établis présentent un symbole nutritionnel « Élevé en » sur le devant de l'emballage, d'ici janvier 2026. Mary L'Abbé expliquera comment elle a utilisé les données de l'Enquête sur la santé dans les collectivités canadiennes – Nutrition et de l'Enquête sur les dépenses des ménages, appariées aux données sur la composition nutritionnelle, pour modéliser les effets potentiels de ce nouvel étiquetage sur l'alimentation et la santé.

De 13 h 20 à 13 h 40

Séance 2 : Utilisation de la cartographie à petite échelle des cancers évitables pour éclairer et renforcer la prévention du cancer

Conférencière : Nathalie Saint-Jacques (épidémiologiste principale, Programme de soins contre le cancer de Santé Nouvelle-Écosse; professeure auxiliaire, Université Dalhousie; associée de recherche, Healthy Populations Institute de l'Université Dalhousie)

Description : Nathalie Saint-Jacques discutera de ses recherches sur l'analyse à petite échelle de l'incidence du cancer par rapport aux conditions environnementales, matérielles et sociales dans lesquelles vivent les personnes, démontrant la façon dont une approche axée sur la géographie peut éclairer et renforcer des activités équitables de prévention du cancer.

De 13 h 40 à 14 h

Séance 3 : Projection de l'incidence de la démence : le modèle de santé de la population pour la démence (POHEM-démence)

Conférencière : Stacey Fisher (boursière postdoctorale, Institut de recherche de l'Hôpital d'Ottawa)

Description : Stacey Fisher discutera d'un modèle de microsimulation pour la démence qui a été élaboré pour étudier l'effet des facteurs de risque modifiables sur l'incidence de la démence et pour évaluer les stratégies d'interventions potentielles et les options stratégiques.

De 14 h à 14 h 30

Discussion de groupe : Réduire le fardeau de la maladie au Canada : obstacles et possibilités

Animateur : Michael Tjepkema, Directeur adjoint, Division de l'analyse de la santé, Statistique Canada

De 14 h 30 à 15 h Pause-santé, réseautage et visionnement des affiches et des kiosques
De 15 h à 16 h 15

Environnement et santé (« Une santé unique »)

De 15 h à 15 h 30

Thème central : Prendre les devants sur la courbe des changements climatiques : la science pour soutenir l'adaptation du secteur de la santé

Conférencier : Peter Berry (analyste principal des politiques et conseiller scientifique, Bureau des changements climatiques et de la santé, Santé Canada)

Description : Peter Berry discutera de la science actuelle relative aux risques pour la santé, aux vulnérabilités et aux besoins en matière d'adaptation liés aux changements climatiques, dans l'espoir de favoriser à l'avenir les collaborations et les solutions novatrices.

Introduit par : Josée Bégin (statisticienne en chef adjointe, Statistique Canada)

De 15 h 30 à 15 h 45 

Séance 1 : Examen de l'incidence de la chaleur extrême sur la santé : surmortalité et morbidité liées à la température à venir au Canada

Conférencier : Éric Lavigne (épidémiologiste, Santé Canada; professeur auxiliaire, Université d'Ottawa)

Description : ÉricLavigne présentera son travail au moyen de l'analyse de séries chronologiques pour estimer les liens entre les températures quotidiennes et la mortalité ou les hospitalisations dans l'ensemble du Canada jusqu'en 2099, donnant un aperçu des résultats en matière de santé prévus selon divers scénarios de changements climatiques et de croissance de la population.

De 15 h 45 à 16 h

Séance 2 : Utilisation de données de biosurveillance humaine dans l'évaluation des risques pour la santé humaine des substances du Plan de gestion des produits chimiques

Conférencier : Innocent Jayawardene (évaluateur scientifique et chimiste, Santé Canada)

Description : Innocent Jayawardene parlera des points saillants d'une étude de Santé Canada mesurant 12 éléments, dont 5 métaux terreux rares, dans des échantillons de sang entiers au moyen de la biobanque de l'Enquête canadienne sur les mesures de la santé (ECMS), pour évaluer les risques pour la santé des substances du Plan de gestion des produits chimiques.

De 16 h à 16 h 15

Période de questions

Animatrice : Josée Bégin (statisticienne en chef adjointe, Statistique Canada)

De 16 h 15 à 16 h 30 Mot de la fin : Regard sur l’avenir

Josée Bégin, statisticienne en chef adjointe, Statistique Canada

16 h 30 Fin de la conférence

Conférence des utilisateurs de données sur la santé de 2024

Conférence des utilisateurs de données sur la santé de 2024 - le 14 novembre à Ottawa

Statistique Canada et l'Agence de la santé publique du Canada seront les fiers hôtes de la Conférence des utilisateurs de données sur la santé de 2024 qui se tiendra au Musée canadien de la guerre, à Ottawa, le 14 novembre.

Cet événement d'une journée en personne réunira 150 utilisateurs et utilisatrices, et fournisseurs et fournisseuses de données sur la santé, et son objectif sera d'explorer les façons novatrices et collaboratives dont les données sur la santé sont utilisées pour s'attaquer aux nouveaux problèmes de santé au Canada.

Les participants et participantes auront l'occasion :

  • d'entendre quelques-uns des principaux intervenants et intervenantes qui utilisent ou fournissent des données au Canada, y compris le statisticien en chef du Canada et l'administratrice en chef de la santé publique du Canada;
  • d'en apprendre davantage sur les données et les services de santé de Statistique Canada et sur la façon de les exploiter;
  • de participer à des discussions qui contribuent à façonner l'avenir des données sur la santé;
  • de rencontrer directement des personnes œuvrant dans tous les aspects du pipeline de données, de la conception à l'application, en passant par la collecte;
  • de présenter leurs recherches et d'échanger leurs idées.

Cette conférence s'adresse aux chercheurs et chercheuses et aux analystes de la santé, y compris la population étudiante. Elle s'adresse également aux utilisateurs finaux et aux utilisatrices finales, comme les décideurs et décideuses en matière de politiques et de programmes de santé, des organisations gouvernementales et non gouvernementales.

Si vous avez des questions ou souhaitez figurer sur notre liste de diffusion pour la conférence, veuillez envoyer un courriel à statcan.hduc-cuds.statcan@statcan.gc.ca.

Appel de résumés - Terminé

Lignes directrices et échéance pour la soumission d'un résumé en vue d'une présentation par affiches.

Programme de la conférence

Thèmes, conférenciers et déroulement de la journée.

Inscription – Terminée

Coûts, échéances et processus d'inscription.

Information à l'intention des participants

Renseignements sur l'emplacement et options d'hébergement.

Dates importantes

Résumé des principales dates.

Pour les personnes qui présentent des affiches

Renseignements pour les personnes dont les résumés d'affiches ont été acceptés.

Statistiques sur la société et la communauté

Statistiques sur la société et la communauté

Suivez :

Inscrivez-vous à Mon StatCan pour obtenir des informations en temps réel.

Réunir des données, des outils et des articles analytiques sur la société et la communauté au Canada pour vous fournir l'information la plus récente.

Statistiques sur le genre, la diversité et l'inclusion

Statistiques sur le genre, la diversité et l'inclusion

Le carrefour Statistiques sur le genre, la diversité et l'inclusion coordonne les données produites par le Centre des statistiques fondées sur le sexe, la diversité et l'inclusion de Statistique Canada.

Carrefour de la qualité de vie

Carrefour de la qualité de vie

Le Carrefour de la qualité de vie de Statistique Canada fournit d'importants renseignements sur la qualité de vie au Canada, en rassemblant des ensembles de données économiques, sociales et environnementales clés.

Centre de données municipales et locales

Centre de données municipales et locales

Le Centre de données municipales et locales permet aux Canadiens d'accéder facilement aux données sur leur localité et de mieux les comprendre, et aide les décideurs et les chercheurs à prendre de meilleures décisions à partir de ces données.

Objectifs de développement durable (ODD)

ODD Objectif 11 - Villes et communautés

ODD Objectif 11 - Villes et communautés - Faire en sorte que les villes et les établissements humains soient ouverts à tous, sûrs, résilients et durables.

Programme de la statistique de la santé buccodentaire du Canada - Rapport sommaire de la mobilisation consultative

Objectifs de la mobilisation consultative

Dans son budget de 2023, le gouvernement du Canada a annoncé la création d'un programme national de soins dentaires qui sera mis en œuvre par Santé Canada, et il s'est engagé à financer l'administration de ce programme à concurrence de plus de 13 milliards de dollars. Parallèlement, Statistique Canada s'est vu octroyer 23,1 millions de dollars sur deux ans pour « recueillir des données sur la santé buccodentaire et l'accès aux soins dentaires au Canada », qui serviront de base à la mise en œuvre du nouveau Régime canadien de soins dentaires. Avec les fonds qui lui sont versés, Statistique Canada est en train de mettre au point un programme statistique robuste qui comprend la collecte de données sur l'état de santé buccodentaire autodéclaré des Canadiens et Canadiennes et sur leurs besoins en matière de soins buccodentaires, et la collecte de données sur l'état du système canadien de soins buccodentaires. De plus, l'organisme est en train d'effectuer les investissements nécessaires à la création d'une infrastructure qui permettra de mener à bien les activités de collecte au-delà de 2025.

Le nouveau Programme de la statistique sur la santé buccodentaire (PSSD) de Statistique Canada vise à combler les besoins en données sur la santé buccodentaire au moyen d'une stratégie globale et intégrée axée sur deux activités principales : la création de nouvelles enquêtes sur la santé buccodentaire ainsi que l'acquisition et l'intégration de données administratives connexes.

Dans le cadre de la création de ce nouveau programme statistique, Statistique Canada a lancé une série de séances de consultation auprès des principales parties prenantes. L'objectif était de mieux comprendre leurs préférences en ce qui concerne l'accès aux résultats du PSSD, le format des produits de diffusion, et les utilisations possibles des données du PSSD. Cette activité visait également à sonder les différentes parties de manière informelle pour évaluer leur connaissance des sources de données sur la santé buccodentaire et les soins de santé buccodentaire.

Méthodes de mobilisation consultative

Les consultations sur le PSSD ont été menées sous la forme de séances d'information virtuelles, lesquelles comprenaient des discussions de groupe avec un large éventail de parties prenantes du milieu de la santé buccodentaire. Ainsi, des gens issus d'organismes de réglementation, d'associations professionnelles, de réseaux de recherche et d'autres groupes ont pu formuler leurs commentaires. Les séances de mobilisation consultative se sont déroulées en deux phases, l'une au cours des deux premières semaines de décembre 2023 et l'autre au cours des deux dernières semaines de janvier 2024. Ces séances ont été diffusées sur la page Consultation des Canadiens de Statistique Canada. Par ailleurs, les différentes parties ont été personnellement invitées par courriel à participer aux séances, et à partager l'invitation avec d'autres membres de leur réseau. En plus de prendre part aux séances en mode virtuel, les participants et participantes ont eu la possibilité de nous communiquer leurs commentaires au moyen de formulaires électroniques et par écrit.

Dans l'ensemble, Statistique Canada a animé 10 groupes de discussion dans les deux langues officielles et a recueilli des commentaires auprès de 115 personnes représentant un total de 61 organisations des secteurs public et privé. Ces organisations — fournisseuses ou utilisatrices potentielles de données — comprenaient des établissements d'enseignement, des administrations municipales et provinciales ainsi que des associations professionnelles provinciales et nationales de toutes les professions de la santé buccodentaire. Des professionnels et professionnelles de la santé buccodentaire (dentistes, chirurgiens/chirurgiennes-dentistes, hygiénistes et thérapeutes dentaires, assistants/assistantes dentaires, technologues et techniciens/techniciennes dentaires) ont pris part aux discussions. Des organismes fédéraux et provinciaux de réglementation des soins buccodentaires y ont également participé.

Ce que nous ont dit les parties prenantes

Les capacités et l'expérience en matière d'analyse des données de santé buccodentaire variaient grandement d'une organisation à l'autre. Il est ressorti de nos consultations que les établissements d'enseignement, les associations professionnelles et les organismes gouvernementaux ont généralement des équipes spécialisées dans l'analyse des données, tandis que les petites entités, comme les organismes de réglementation, ont généralement une faible capacité d'analyse indépendante des données.

Au sujet des difficultés rencontrées dans l'écosystème actuel des données sur la santé buccodentaire, plusieurs ont soulevé les points suivants : ressources limitées pour effectuer des analyses; obstacles à l'accès aux données; ensembles de données incomplets en raison de l'absence d'intégration des données sur les demandes de règlement avec les dossiers de santé électroniques, les données sur les admissions à l'hôpital pour des problèmes de santé buccodentaire et les données des programmes de soins dentaires provinciaux; silos organisationnels; et fatigue liée à la participation aux enquêtes qui se traduit par de faibles taux de réponse. Malgré ces difficultés, la grande majorité des participants et participantes ont cité les retombées potentielles de l'utilisation des données du PSSD pour soutenir les efforts de sensibilisation et pour éclairer la prise de décisions stratégiques. Ils ont aussi souligné l'importance de permettre l'accès à des données agrégées faciles à analyser, ainsi que de garantir la possibilité de demander des ensembles de données précis au besoin. La plupart des organisations ont notamment déclaré ne pas mener leurs propres enquêtes sur la santé buccodentaire ou ne pas tenir de dépôts de données indépendants, choisissant plutôt d'utiliser de multiples sources de données externes. En résumé, les acteurs de la santé buccodentaire recherchent activement des données complètes et exploitables pour traiter efficacement d'enjeux clés et améliorer les résultats en matière de santé buccodentaire.

Statistique Canada tient à remercier toutes les personnes et organisations participantes de leur contribution à cette initiative de mobilisation consultative. Leurs points de vue et leurs expériences seront essentiels à l'élaboration de produits et de stratégies de diffusion de données pertinentes et actuelles pour aider les utilisatrices et utilisateurs de données.

Stimuler les dons : analyse et modélisation ML pour améliorer les opérations de collecte alimentaire

Par : Uchenna Mgbaja, Nazmus Sakeef, Kendrick Moreno, Catrina Llamas et Roe Alincastre; NorQuest College

Présentation

Le projet Edmonton Food Drive (EFD) est le fruit d’une collaboration entre le NorQuest College, l’Église LDS, etc. visant à améliorer la logistique de l’une des plus grandes initiatives communautaires de dons alimentaires de l’Alberta. Le système actuel de gestion des dons alimentaires rencontre des difficultés dans la coordination des lieux de dépôt, des processus de collecte et de la planification des itinéraires. Il est nécessaire d’automatiser et d’améliorer ces processus afin de garantir la collecte des dons en temps voulu et de minimiser les complexités logistiques.

Ce projet multipartite vient en aide à plus de 40 000 personnes chaque mois en distribuant plus de 400 000 repas à des personnes dans le besoin. Ces chiffres montrent l’importance de la demande au sein de la communauté et soulignent le rôle essentiel des efforts de collaboration dans la lutte contre l’insécurité alimentaire.

L’objectif de ce projet était de développer une solution d’apprentissage automatique afin d’améliorer la gestion des activités de dons alimentaires en Alberta. Le projet vise à accroître l’efficacité et l’efficience des processus de dépôt et de collecte, à rationaliser la planification des itinéraires et à améliorer l’allocation des ressources.

Solutions proposées

Un élément clé de l’Edmonton Food Drive est le rôle joué par les paroisses et les pieux, les unités organisationnelles au sein de l’Église de Jésus-Christ des Saints des Derniers Jours (LDS), qui facilitent la participation des bénévoles et la coordination logistique.

Dans l’Église LDS, une paroisse est une congrégation locale qui dessert une zone géographique spécifique, tandis qu’un pieu est une unité administrative plus grande composée de plusieurs paroisses. Dans le cadre du projet EFD, les pieux supervisent plusieurs paroisses, fournissant un soutien organisationnel et des ressources, tandis que les paroisses coordonnent les efforts des bénévoles, la collecte des dons et la gestion des itinéraires dans leurs zones respectives.

Sur la base des objectifs du projet, les solutions suivantes ont été proposées et développées pour relever les défis identifiés :

  • Amélioration de la collecte de données :

Créer des formulaires d’acquisition de données pour collecter des données auprès des paroisses par le biais d’enquêtes structurées, permettant aux bénévoles de répondre aux questions aussi rapidement et efficacement que possible.

  • Analyse des tendances :

Utiliser la visualisation des données et des techniques statistiques pour effectuer une analyse d’une année sur l’autre, révélant les tendances critiques et les indicateurs de performance.

  • Tableaux de bord interactifs :

Créer des tableaux de bord interactifs et conviviaux qui permettent aux parties prenantes d’explorer et de comparer facilement les données, facilitant ainsi une prise de décision plus éclairée.

  • Modélisation prédictive :

Mettre en œuvre des techniques d’apprentissage automatique pour développer un modèle prédictif qui prévoit les tendances en matière de dons et identifie les nouvelles tendances.

  • Prévisions d’efficacité :

Construire un modèle prédictif pour estimer quels paroisses ou pieux auront le plus grand impact en termes d’efficacité pour 2025.

  • Application de cartographie des itinéraires :

Développer une application de numérisation des itinéraires qui génère automatiquement des cartes numérisées pour les bénévoles, améliorant ainsi l’efficacité opérationnelle. Créer une application de cartographie des itinéraires qui génère des cartes interactives pour les bénévoles, en se concentrant sur les adresses à forte demande ou les zones sensibles pour une efficacité opérationnelle à long terme.

Ces solutions proposées visaient à rationaliser les processus opérationnels, à renforcer l’engagement des parties prenantes et à tirer parti des informations prédictives pour améliorer la planification et l’exécution des futures collectes alimentaires.

Méthodologie

Collecte de données

Les données sur les volumes de dons, les itinéraires et la participation des bénévoles ont été recueillies lors de la collecte alimentaire d’Edmonton en septembre 2023 et septembre 2024. Les données ont été collectées auprès de 6 pieux et 27 paroisses. Ces données ont été systématiquement collectées auprès de centres de collecte désignés, assignés par les représentants des clients, afin de garantir une couverture précise des itinéraires et des régions spécifiques. Bien que complètes dans le cadre du champ d’application assigné, les données ne représentaient pas tous les points de collecte d’Edmonton, ce qui limitait leur applicabilité à l’ensemble de la ville.

Ensembles de données :

Nous avons commencé notre analyse sur les données collectées en 2023 auprès des paroisses. En 2024, nous avons ajouté des règles de validation des données afin de réduire les risques d’erreurs de saisie tout en veillant à ce que le temps nécessaire aux bénévoles pour remplir le formulaire reste aussi court qu’auparavant.

Formulaire de collecte de données pour la collecte alimentaire d’Edmonton 2024
Figure 1 : Formulaire de collecte de données pour la collecte alimentaire d’Edmonton 2024 Description : Cet ensemble de données comprend 653 échantillons et 31 caractéristiques, recueillis à l’aide d’un formulaire Microsoft rempli par des bénévoles. Le formulaire a été utilisé pour enregistrer les détails liés à la logistique des sacs de dons réclamés lors de la collecte alimentaire d’Edmonton 2024, fournissant des données précieuses pour l’analyse et l’optimisation des ressources.

Les données collectées en 2023 se concentraient sur les renseignements essentiels relatifs à la collecte des dons, aux bénévoles et aux itinéraires. Bien qu’elles aient fourni une base solide, elles étaient limitées en termes de validation des données et de richesse des caractéristiques. L’ensemble de données comprenait 13 caractéristiques et 454 échantillons.

Nom de la colonne Description
Date Date à laquelle la collecte alimentaire a eu lieu.
Lieu Zone ou quartier spécifique où la collecte alimentaire a été effectuée.
Pieu L’organisation ou le groupe responsable de la gestion des bénévoles dans la zone.
Nombre de bénévoles adultes Nombre de bénévoles adultes ayant participé à l’activité.
Nombre de jeunes bénévoles Le nombre de jeunes bénévoles qui ont participé à l’activité.
Sacs de dons collectés Le nombre total de sacs de dons collectés pendant l’activité.
Temps nécessaire pour terminer (min) Le temps total (en minutes) nécessaire pour terminer le ou les itinéraires assignés.
Plus d’un itinéraire parcouru Indique si plus d’un itinéraire a été parcouru (p. ex., Oui/Non).
Paroisse Paroisse municipale où la collecte alimentaire a eu lieu.
Itinéraires parcourus Nombre total d’itinéraires parcourus par les bénévoles.
Portes sur l’itinéraire Nombre total de portes couvertes dans l’itinéraire attribué.
Numéro/nom de l’itinéraire.1 Identifiant ou nom de l’itinéraire attribué aux bénévoles.
Temps passé Durée totale passée par les bénévoles pendant l’activité de collecte alimentaire.
Nombre de bénévoles adultes Nombre de bénévoles adultes ayant participé à l’activité.
Tableau 1 : Informations sur les caractéristiques de l’ensemble de données EFD 2023

Description : Cet ensemble de données comprend les données collectées au moyen d’un formulaire Google pendant la collecte alimentaire d’Edmonton 2023. Nombre de caractéristiques : 13; nombre d’échantillons : 454.

Nom de la colonne Description
Identifiant Identifiant unique attribué à chaque formulaire soumis.
Heure de début Heure à laquelle le bénévole a commencé à remplir le formulaire.
Heure de fin Heure à laquelle le bénévole a terminé de remplir le formulaire.
Courriel Adresse courriel fournie par le bénévole.
Nom Nom du bénévole.
Comment avez-vous reçu le formulaire? Méthode par laquelle le bénévole a reçu le formulaire (p. ex., courriel, lien).
Adresse courriel Adresse courriel de contact pour toute communication ultérieure.
Lieu de dépôt Lieu principal où les dons ont été déposés.
Autres lieux de dépôt Autres lieux où les dons ont été déposés.
Pieu Pieu spécifique responsable de l’organisation de la participation du bénévole.
Pieux de Bonnie Doon Indique l’implication dans le pieu de Bonnie Doon.
Pieu d’Edmonton Nord Indique l’implication dans le pieu d’Edmonton Nord.
Pieu de Gateway Indique la participation dans le pieu de Gateway.
Pieu de Riverbend Indique la participation dans le pieu de Riverbend.
Pieu de Sherwood Park Indique la participation dans le pieu de Sherwood Park.
Pieu YSA Indique la participation dans le pieu des jeunes adultes seuls (Young Single Adults; YSA).
Numéro/nom de l’itinéraire Identifiant ou nom de l’itinéraire de collecte des dons.
Temps passé à collecter les dons Temps total passé à collecter les dons pour l’itinéraire.
Nombre d’adultes bénévoles ayant participé à cet itinéraire Nombre d’adultes bénévoles ayant participé à cet itinéraire spécifique.
Nombre de jeunes bénévoles ayant participé à cet itinéraire Nombre de jeunes bénévoles ayant participé à cet itinéraire spécifique.
Nombre de portes sur l’itinéraire Nombre total de portes couvertes sur l’itinéraire.
Nombre de sacs de dons collectés Nombre total de sacs de dons collectés sur l’itinéraire.
Avez-vous effectué plus d’un itinéraire? Indique si le bénévole a effectué plus d’un itinéraire (p. ex., Oui/Non).
Combien d’itinéraires avez-vous effectués? Le nombre total d’itinéraires effectués par le bénévole.
Itinéraires supplémentaires effectués (2 itinéraires) Détails sur un deuxième itinéraire supplémentaire effectué, le cas échéant.
Itinéraires supplémentaires effectués (3 itinéraires) Détails sur un troisième itinéraire supplémentaire effectué, le cas échéant.
Itinéraires supplémentaires effectués (3 itinéraires)2 Détails concernant un troisième itinéraire supplémentaire parcouru, le cas échéant.
Itinéraires supplémentaires parcourus (plus de 3
itinéraires)
Détails concernant les itinéraires supplémentaires parcourus au-delà de trois, le cas échéant.
Itinéraires supplémentaires parcourus (plus de 3 itinéraires)2 Détails supplémentaires concernant les itinéraires parcourus au-delà de trois, le cas échéant.
Itinéraires supplémentaires parcourus (plus de 3 itinéraires)3 Détails supplémentaires concernant les itinéraires parcourus au-delà de trois, le cas échéant.
Commentaires ou retours Tout commentaire, suggestion ou retour supplémentaire fourni par le bénévole II.
Tableau 2 : renseignements sur les caractéristiques de l’ensemble de données EFD 2024

Description : Cet ensemble de données comprend les données collectées via un formulaire Microsoft pendant la collecte alimentaire d’Edmonton 2023. Nombre de caractéristiques : 31; nombre d’échantillons : 653

Extraction de renseignements géographiques : ensemble de données sur les quartiers de la ville d’Edmonton

Afin de compléter les données de la collecte alimentaire, l’ensemble de données sur les quartiers de la ville d’Edmonton [Lien] a été intégré à l’analyse. Cet ensemble de données a fourni des coordonnées géographiques et les noms des quartiers, permettant ainsi une analyse géospatiale des tendances en matière de dons et de l’efficacité des itinéraires.

Les renseignements géographiques ont été extraits de l’ensemble de données sur les évaluations foncières et fusionnées avec les données de la collecte alimentaire à l’aide des noms uniques des quartiers. Ces données ont ensuite été utilisées pour générer des cartes qui fournissent des renseignements visuels sur les modèles et les tendances en matière de dons au niveau des quartiers. Les colonnes présentées dans le tableau 3 ont été spécialement extraites à cette fin :

Nom de la colonne Description
Nom de la colonne Nom officiel du quartier dans la ville d’Edmonton.
Latitude Coordonnée géographique indiquant la position nord-sud du quartier.
Longitude Coordonnée géographique indiquant la position est-ouest du quartier.
Tableau 3 : Renseignements sur les caractéristiques de l’ensemble de données sur les quartiers de la ville d’Edmonton

Description : Les données géographiques des quartiers de la ville d’Edmonton fournissent des renseignements complets sur les limites des quartiers, la démographie, l’utilisation des sols et d’autres caractéristiques utiles pour l’urbanisme et l’analyse. Nombre de caractéristiques : 3; nombre d’échantillons : 427

Ces renseignements ont été essentiels pour créer des visualisations géospatiales interactives et des cartes numériques des itinéraires pour la collecte alimentaire d’Edmonton.

Analyse exploratoire des données

Les données collectées ont été nettoyées et préparées pour l’analyse afin d’en garantir l’exactitude et la cohérence. Des visualisations clés ont été générées afin de fournir des renseignements comparatifs, en mettant l’accent sur l’identification des tendances et des modèles en matière de volumes de dons, d’affectation des bénévoles et d’efficacité des itinéraires. Les renseignements se limitaient aux données collectées auprès des centres de collecte désignés, soulignant la nécessité d’une stratégie de collecte de données plus complète pour les futures collectes. Notre stratégie d’analyse exploratoire des données consistait à examiner chaque caractéristique individuellement et à effectuer des analyses détaillées pour chacune d’entre elles.

Nous avons procédé à une analyse complète des données de la collecte alimentaire d’Edmonton, en nous concentrant sur la mise en évidence de modèles et de relations afin d’améliorer la compréhension des variables clés et d’optimiser les efforts futurs. L’analyse a commencé par l’examen de la fréquence et de la répartition des lieux de dépôt, en explorant leur relation avec des variables telles que le nombre de sacs de dons collectés et le nombre de bénévoles impliqués. La fréquence des différentes valeurs de « pieux » a été évaluée et leur impact sur les caractéristiques numériques, notamment le nombre de portes et de sacs de dons, a été analysé de près.

En outre, nous avons exploré les aspects liés au temps, en analysant la fréquence des différentes catégories de temps et en étudiant les différences de temps passé entre les « pieux » et les « paroisses ». La répartition des données entre les paroisses a également fait l’objet d’une attention particulière, en examinant comment certaines paroisses influençaient d’autres variables, telles que le nombre de sacs de dons et d’itinéraires. La participation des bénévoles a également été analysée, en accordant une attention particulière à la corrélation entre les bénévoles adultes et d’autres caractéristiques numériques, ainsi qu’à la répartition globale des bénévoles entre les différentes zones.

La répartition du nombre de portes a été évaluée par rapport à des variables catégorielles, et le nombre moyen de portes par « pieu » a été calculé. En outre, la relation entre les sacs de dons et le nombre d’itinéraires a été analysée, en comparant les variations du nombre de sacs de dons entre les différents lieux et paroisses. Les tendances annuelles ont également été étudiées, afin d’identifier les changements dans les volumes de dons et le nombre total de bénévoles au fil du temps.

Grâce à cette analyse, nous avons découvert des renseignements précieux sur les relations entre les lieux de dépôt, les bénévoles et les tendances en matière de dons.

Affiner les données :

Pour l’ensemble de données EFD 2024, nous avons identifié les problèmes suivants et appliqué les méthodes respectives pour les résoudre.

Problèmes détectés Méthode d’affinage
Noms de colonnes trop longs Renommer les noms de colonnes pour plus de clarté
Formats de chaînes incohérents Suppression des espaces avant et après
Conversion au format titre
Suppression des caractères inutiles
Types de données incorrects et incohérents Conversion des variables aux types de données corrects
Valeurs nulles détectées Variables numériques : Imputation de la moyenne pour remplacer les valeurs nulles, en conservant la distribution de l’ensemble de données à l’aide de la moyenne de la caractéristique.
Variables catégorielles : Aucune valeur nulle détectée
Valeurs vides détectées Marquage des champs catégoriels vides avec des espaces réservés (p. ex., « Itinéraires inconnus »)
Valeurs dupliquées Suppression des valeurs et des colonnes dupliquées
Trop de données non pertinentes Suppression des colonnes non pertinentes
Identification des valeurs aberrantes Détection à l’aide de la méthode IQR et imputation à l’aide de la moyenne
Tableau 4 : Problèmes identifiés dans l’ensemble de données EFD 2024 et leurs solutions respectives

Après avoir affiné les données de l’ensemble EFD 2024, nous l’avons fusionné avec l’ensemble EFD 2023 et l’ensemble de données sur les quartiers de la ville d’Edmonton. Nous avons utilisé notre ensemble de données final nettoyé pour une analyse plus approfondie.

Visualisation des données :

Nous avons créé des visualisations interactives à l’aide de Tableau afin de rendre nos conclusions EDA faciles à comprendre. Ces visualisations permettent aux utilisateurs d’explorer les données et d’obtenir des renseignements grâce à des graphiques et des cartes dynamiques. Le tableau de bord comprend divers graphiques et cartes qui présentent les aspects clés de notre analyse de manière simple et claire. La figure 2 montre les visualisations incluses dans le tableau de bord qui viennent étayer notre analyse globale.

Tableau de bord interactif de la collecte alimentaire d’Edmonton 2024 visualisé à l’aide de Tableau
Figure 2 : Tableau de bord interactif de la collecte alimentaire d’Edmonton 2024 visualisé à l’aide de Tableau Description : Ce tableau de bord fournit un aperçu des indicateurs clés liés à la collecte alimentaire d’Edmonton, notamment les tendances en matière de dons, les données de distribution et l’engagement communautaire. Grâce aux fonctionnalités interactives de Tableau, les utilisateurs peuvent explorer les données pour obtenir des renseignements sur l’impact et les performances de la collecte alimentaire tout au long de l’année 2024.

Les principales fonctionnalités du tableau de bord sont les suivantes :

  • Carte des ICR pour les fonctionnalités clés : affiche le nombre total de sacs de dons, de maisons, d’itinéraires, de bénévoles et le temps moyen passé, en fonction des critères sélectionnés.
  • Nombre total de sacs de dons par paroisse : cette carte d’Edmonton montre la répartition des sacs de dons dans les différentes paroisses, offrant une comparaison claire de leur répartition dans la ville.
  • Les dix paroisses les plus efficaces : met en évidence les 10 paroisses les plus efficaces, en présentant leurs performances à l’aide d’indicateurs clés.
  • Nombre total de bénévoles : graphique à barres comparant le nombre de bénévoles au fil des ans, offrant un aperçu des tendances et des changements au fil du temps.
  • Principaux contributeurs par paroisse : carte thermique montrant les contributions de chaque paroisse, utilisant des dégradés de couleurs pour mettre en évidence les zones où les contributions sont les plus élevées et les plus faibles.
  • Graphique sacs de dons c. temps passé : visualisation comparant le nombre de sacs de dons au temps passé, donnant un aperçu de l’efficacité du processus de dons.

Apprentissage automatique

Avant de développer et d’évaluer des modèles d’apprentissage automatique, nous avons effectué plusieurs étapes de préparation des données afin de garantir des entrées de haute qualité.

Ingénierie des caractéristiques

Afin d’améliorer l’ensemble de données, nous avons introduit trois nouvelles caractéristiques :

  • Nombre total de bénévoles : somme du nombre total de bénévoles adultes et du nombre total de bénévoles jeunes.
  • Sacs de dons par porte : Le nombre de sacs de dons divisé par le nombre de portes.
  • Sacs de dons par itinéraire : le nombre de sacs de dons divisé par le nombre d’itinéraires.

De plus, nous avons appliqué un encodage one-hot à la caractéristique « Paroisses » afin de traiter les données catégorielles et de garantir que toutes les variables étaient correctement formatées pour la modélisation.

Division et normalisation des données

Nous avons divisé les données en ensembles d’entraînement et de test, en utilisant les données de 2023 pour l’entraînement et celles de 2024 pour le test. Cette approche nous a permis de valider les performances du modèle sur des données non vues. Afin de maintenir la cohérence entre les caractéristiques numériques, nous avons appliqué une normalisation, en veillant à ce que toutes les valeurs soient sur une échelle comparable avant de les intégrer dans les modèles.

Développement et évaluation du modèle

Après la préparation des données, nous avons mis en œuvre et testé six modèles d’apprentissage automatique différents pour deux tâches de prédiction :

  • Nombre total de sacs de dons.
  • Temps passé pour chaque paroisse.

Chaque modèle a été évalué afin d’identifier le plus précis pour chaque tâche de prédiction. Les résultats ci-dessous résument leur rendement et leur efficacité.

Modèle EMQ EMQR EAM R² ajusté
Linéaire
Régression
3393,986256 58,257929 26,828851 -0,100185 -0,168338
Régression polynomiale 49,838645 7,059649 2,388835 0,983844 1,146869
Régression par arbre de décision 2356,665557 48,545500 8,232945 0,236070 0,188747
Régression par forêt aléatoire 1990,524740 44,615297 8,457754 0,354757 0,314786
Renforcement par gradation
Régression
2144,987415 46,314009 8,164502 0,304687 0,261615
Régression des K plus proches voisins (K-Nearest Neighbors) 3092,228686 55,607811 17,474875 -0,002368 -0,064461
Tableau 5 : Indicateurs de rendement des modèles prédisant le nombre total de sacs de dons

D’après les résultats, le meilleur modèle pour prédire le nombre total de sacs de dons est la régression polynomiale, car il obtient les valeurs EMQ (7,059649) et EAM (2,388835) les plus faibles tout en atteignant le résultat R² le plus élevé (0,983844), ce qui indique un ajustement solide et une performance prédictive élevée.

Modèle EMQ EMQR EAM R² ajusté
Linéaire
Régression
1,583989 1,258566 0,917151 0,075887 2,771216
Régression polynomiale 0,708581 0,841772 0,634814 0,586608 1,014787
Régression par arbre de décision 0,192435 0,438674 0,356527 0,887732 1,215181
Régression par forêt aléatoire 0,216073 0,464836 0,377927 0,873941 1,241613
Régression par renforcement par gradation 0,256885 0,506838 0,391840 0,850131 1,287249
Régression des K plus proches voisins (K-Nearest Neighbors) 0,278344 0,527583 0,394887 0,837612 1,311244
Tableau 6 : Indicateurs de rendement pour les modèles prédisant le temps passé

Pour prédire le temps passé, le modèle de régression par arbre de décision se distingue comme le meilleur parmi les options répertoriées. Il obtient les valeurs EMQR (0,438674) et EAM (0,356527) les plus faibles, associées à un R² positif élevé (0,887732) et un R² ajusté (1,215181), ce qui indique une précision supérieure et une forte adéquation avec les données par rapport aux autres modèles.

Optimisation du modèle :

Pour le modèle de régression polynomiale utilisé pour prédire le nombre total de sacs de dons, nous avons choisi de ne pas effectuer de réglage supplémentaire afin d’éviter le risque de surajustement. Les mesures étant déjà acceptables, avec un résultat R² de 0,98, augmenter davantage la complexité du modèle pourrait entraîner une diminution de la généralisation et un surajustement des données d’apprentissage.

Analyse avancée :

Nous avons utilisé les modèles de régression polynomiale et d’arbre de décision pour prédire le nombre de sacs de dons et le temps passé par paroisse pour 2025. Vous trouverez ci-dessous quelques renseignements clés basés sur les valeurs prédites.

Nombre total prévu de sacs de dons pour 2025
Figure 3 : Nombre total prévu de sacs de dons pour 2025 Description : Cette figure visualise le nombre estimé de sacs de dons pour 2025 sur la base du modèle prédictif le plus performant.

Le nombre prévu de sacs de dons pour l’année prochaine affiche une augmentation constante. Partant de 14 817 en 2023 et 14 751 en 2024, le nombre total de sacs de dons devrait augmenter pour atteindre 16 600 en 2025.

Prévisions sur 12 mois concernant les sacs de dons : les trois pieux les plus performants et les trois moins performants
Figure 4 : Prévisions sur 12 mois concernant les sacs de dons : les trois pieux les plus performants et les trois moins performants Description : Cette figure présente le nombre prévu de sacs de dons pour les 12 prochains mois, en mettant en évidence les trois meilleurs et les trois moins bons pieux en fonction des contributions attendues. Elle permet d’identifier les zones où les dons prévus sont les plus élevés et les plus faibles, ce qui facilite la mise en place d’actions ciblées et l’allocation des ressources.

Les prévisions sur 12 mois concernant les sacs de dons révèlent les pieux les plus performants et les moins performants. Les trois pieux les plus performants, qui devraient contribuer le plus aux sacs de dons, sont Gateway, Bonnie Doon et Riverbend. En revanche, les trois pieux les moins performants, qui contribuent moins aux sacs de dons, sont YSA, Edmonton North et Riverbend.

Prévisions sur 12 mois concernant les sacs de dons : les 10 paroisses les plus performantes et les moins performantes
Figure 5 : Prévisions sur 12 mois concernant les sacs de dons : les 10 paroisses les plus performantes et les moins performantes Description : Cette figure présente le nombre prévu de sacs de dons pour les 12 prochains mois, en identifiant les 10 paroisses les plus performantes et les 10 paroisses les moins performantes sur la base des contributions prévues. Ces renseignements permettent de hiérarchiser le soutien et d’optimiser les efforts de collecte de dons dans différentes zones.

Les prévisions sur 12 mois concernant les sacs de dons révèlent les paroisses les plus performantes et les moins performantes. Les 10 paroisses qui devraient contribuer le plus en termes de sacs de dons sont Lee Ridge, Crawford Plains, Silver Berry, Clareview, Blackmud Creek, Griesbach, Londonderry, Griesbach, Ellerslie, Rabbit Hill et Terwillegar. En revanche, les 10 paroisses les moins performantes, qui devraient contribuer moins de sacs de dons, sont Mill Creek YSA, Lago Lindo, Onoway, Whitemud Creek YSA, Devon, Beaumont, Wild Rose, Wainwright, Windsor Park et Pioneer. Ces renseignements montrent une variation notable dans les contributions aux dons entre les différentes paroisses.

Perspectives d’efficacité sur 12 mois : les trois pieux les plus performants et les trois moins performants
Figure 6 : Perspectives d’efficacité sur 12 mois : les trois pieux les plus performants et les trois moins performants Description : Cette figure illustre l’efficacité prévue des efforts de collecte de dons au cours des 12 prochains mois, en mettant en évidence les trois pieux les plus performants et les trois moins performants sur la base d’indicateurs de performance. Elle fournit une comparaison des zones où l’impact prévu est le plus élevé et le plus faible, ce qui permet de concentrer les ressources là où elles sont le plus nécessaires.

Les trois pieux les plus efficaces (c’est-à-dire celles qui devraient générer le plus grand nombre de sacs de dons par unité de temps consacré) sont Gateway, Riverbend et Bonnie Doon. À l’inverse, les trois pieux les moins efficaces, c’est-à-dire celles qui devraient générer le moins de sacs de dons par unité de temps consacré, sont YSA, Edmonton North et Riverbend.

Perspectives d’efficacité sur 12 mois : les 10 paroisses les plus performantes et les moins performantes
Figure 7 : Perspectives d’efficacité sur 12 mois : les 10 paroisses les plus performantes et les moins performantes Description : Cette figure présente l’efficacité prévue des efforts de collecte de dons au cours des 12 prochains mois, en mettant en évidence les 10 paroisses les plus performantes et les 10 paroisses les moins performantes sur la base de mesures de performance. Elle offre des renseignements précieux sur les endroits où les efforts de collecte de dons devraient être les plus efficaces et les moins efficaces, ce qui permet d’orienter les stratégies ciblées.

Les 10 paroisses les plus efficaces, c’est-à-dire celles qui devraient générer le plus grand nombre de sacs de dons par unité de temps passé, sont Lee Ridge, Silver Berry, Clareview, Rio Vista, Woodbend, Coronation Park, Londonderry, Greenfield, Clareview, Blackmud Creek et Griesbach. Ces paroisses devraient être plus efficaces pour convertir le temps passé en sacs de dons.

À l’inverse, les 10 paroisses les moins efficaces, c’est-à-dire ceux qui devraient générer le moins de sacs de dons par unité de temps passé, sont Mill Creek YSA, Lago Lindo Branch, Onoway, Whitemud Creek YSA, Devon, Beaumont, Strathcona Married Student, Wild Rose, Namao et Forest Heights. Ces paroisses devraient nécessiter plus de temps pour atteindre un nombre similaire de sacs de dons, ce qui reflète une moindre efficacité dans leurs efforts de collecte.

Déploiement

L’application finale a été divisée en six sections : la page de renseignements, la page du tableau de bord, la page des tendances, la page de prévision des sacs de dons, la page de prévision du temps passé et la page de l’application de cartographie des itinéraires. Chaque page possède une fonctionnalité distincte conçue pour fournir des renseignements spécifiques et utiles à ses utilisateurs, garantissant ainsi une expérience complète. Ensemble, ces sections permettent aux utilisateurs de naviguer facilement entre les différentes fonctionnalités, rendant les décisions basées sur les données plus accessibles et plus efficaces. La figure 8 montre la page du tableau de bord de l’application.

Tableau de bord interactif de l’application déployée pour la collecte alimentaire à Edmonton
Figure 8 : Tableau de bord interactif de l’application déployée pour la collecte alimentaire à Edmonton Description : Cette figure présente l’interface interactive de l’application pour la collecte alimentaire à Edmonton, développée pour améliorer la logistique des dons alimentaires à Edmonton. L’application intègre l’apprentissage automatique et des outils conviviaux, permettant aux parties prenantes d’optimiser la collecte des dons et la coordination des bénévoles.

L’application a été déployée sur Tableau, où des visualisations interactives ont été créées pour représenter les tendances en matière de dons, la participation des bénévoles et les renseignements sur la cartographie des itinéraires.

  • La cartographie des itinéraires a été encore améliorée grâce à Gradio de Hugging Face, qui a permis aux utilisateurs d’explorer de manière interactive les itinéraires de dons.
  • Un robot conversationnel , également intégré à l’aide de Gradio, a fourni aux utilisateurs des réponses rapides aux questions relatives aux itinéraires et aux processus de dons.

Application de cartographie des itinéraires :

L’application de cartographie des itinéraires a été développée en réponse aux difficultés récurrentes du client pour générer des cartes précises et efficaces pour les itinéraires des bénévoles. Le processus précédent consistait à imprimer manuellement des parties de la carte d’Edmonton, à surligner les itinéraires à la main, puis à distribuer les cartes aux bénévoles, ce qui prenait beaucoup de temps et était source d’erreurs. Cette approche manuelle ralentissait non seulement les opérations, mais augmentait également le risque d’erreurs susceptibles d’affecter l’efficacité du processus de collecte des dons. Notre application simplifie et automatise la génération et la visualisation des itinéraires, améliorant ainsi l’efficacité globale, la précision et la facilité d’utilisation pour les bénévoles. Vous trouverez ci-dessous des images des cartes imprimées manuellement qui étaient utilisées auparavant, soulignant la nécessité d’une solution plus efficace.

Example of Manually Printed Maps Used for Volunteer Allocation
Figure 9 : Exemple de cartes imprimées manuellement utilisées pour l’affectation des bénévoles Description : Cette figure présente un exemple de cartes imprimées manuellement utilisées pour l’affectation des bénévoles lors de la collecte alimentaire d’Edmonton.  Annotées avec les limites des itinéraires et les points de repère clés, ces cartes ont été créées pour guider les bénévoles dans la navigation efficace dans les zones qui leur ont été attribuées. Ces cartes marquées manuellement soulignent la nécessité d’une planification claire des itinéraires et mettent en évidence les améliorations potentielles qui peuvent être apportées grâce à des outils de génération automatique de cartes.
Avant et après : comparaison de la génération de cartes à l’aide du mode fixe.
Figure 10 : Avant et après : comparaison de la génération de cartes à l’aide du mode fixe. Description : Contrairement au mode personnalisé, le mode fixe est conçu pour la cartographie des itinéraires en se concentrant sur des itinéraires prédéfinis spécifiques. Le processus consiste à identifier les adresses des zones sensibles, à saisir les paramètres requis dans l’application, à générer la carte, à la télécharger et à la distribuer aux bénévoles. Les adresses des zones sensibles font référence aux foyers qui font régulièrement des dons, ce qui les rend cruciales pour rationaliser le processus de collecte des dons et optimiser les efforts des bénévoles.

L’application propose deux modes : le mode fixe et le mode personnalisé. Le mode fixe vise à numériser le processus de génération de cartes pour notre client, afin de rationaliser son flux de travail. Le mode personnalisé, quant à lui, est conçu pour la planification à long terme, générant des cartes basées sur les zones sensibles identifiées afin d’améliorer l’efficacité des itinéraires.

Pour générer des cartes en mode fixe, le client n’a qu’à sélectionner la paroisse et l’itinéraire souhaités, cliquer sur « Soumettre », télécharger la carte générée, puis l’envoyer facilement par courriel aux bénévoles. Ce processus simplifié élimine le besoin de créer manuellement des cartes, ce qui permet de gagner du temps et d’économiser des efforts. L’image fournie montre les résultats avant et après la génération de cartes à l’aide du mode fixe, soulignant l’efficacité et la facilité de la nouvelle approche.

Avant et après : comparaison de la génération de cartes à l’aide du mode personnalisé
Figure 11 : Avant et après : comparaison de la génération de cartes à l’aide du mode personnalisé Description : L’image compare les processus de génération de cartes manuels et automatisés. Les épingles représentent les adresses des zones sensibles des itinéraires 1, 2 et 3. Auparavant, le client devait saisir manuellement ces six adresses, mais désormais, l’application calcule l’ordre optimal des itinéraires en fonction de la distance qui les sépare. Cela garantit que les bénévoles suivent le chemin le plus efficace, ce qui permet de gagner du temps. Les bénévoles n’ont plus besoin de couvrir les trois itinéraires; ils peuvent désormais se concentrer sur des portions spécifiques de chaque itinéraire, ce qui améliore considérablement l’efficacité et rationalise le processus de collecte des dons.

Cette méthodologie met non seulement en évidence les points forts de l’analyse, mais montre également les domaines à améliorer en matière de collecte et de couverture des données afin d’optimiser les futurs processus décisionnels.

Résultats et conclusions

Le projet Edmonton Food Drive a permis d’obtenir plusieurs renseignements précieux et résultats pratiques grâce à l’analyse et à la modélisation des données collectées. Ces conclusions sont classées en plusieurs domaines clés d’amélioration opérationnelle : collecte de données, analyse de données, modélisation prédictive et déploiement d’applications.

Collecte de données

Observations clés :

Les données ont révélé des tendances notables d’une année sur l’autre, certaines paroisses affichant des schémas de dons constants, tandis que d’autres présentaient une variabilité importante dans les volumes de dons.

La paroisse de Belmead, bien qu’il ait fait l’objet d’une analyse détaillée, a mis en évidence les limites de l’exhaustivité des données, car tous les itinéraires n’ont pas été pris en compte en raison de la granularité des données rapportées par les bénévoles.

Analyse des données

Points forts de l’EFD 2024 par rapport à 2023
Figure 12 : Points forts de l’EFD 2024 par rapport à 2023 Description : Cette figure compare les indicateurs clés et les résultats de la collecte alimentaire d’Edmonton en 2024 et 2023, en soulignant les améliorations et les différences en matière de collecte de dons et de coordination des bénévoles entre les deux années. La comparaison donne un aperçu de l’efficacité des nouvelles stratégies et des nouveaux outils mis en œuvre en 2024.

Par rapport à la collecte alimentaire de 2023, les résultats de 2024 ont montré une diminution de plusieurs indicateurs clés : le nombre de sacs de dons, le nombre de bénévoles, le nombre de maisons et le temps moyen passé par itinéraire ont diminué respectivement de 0,4 %, 38,17 %, 38,17 % et 6,67 %.

Les trois pieux les plus et les moins efficaces de 2023 et 2024
Figure 13 : Les trois pieux les plus et les moins efficaces de 2023 et 2024 Description : Cette figure compare les trois pieux les plus et les moins efficaces résultats de la collecte alimentaire d’Edmonton en 2023 et 2024, mettant en évidence les changements dans les niveaux de dons et les performances des différents pieux. La comparaison permet d’identifier les domaines à améliorer et souligne l’impact des nouvelles stratégies mises en œuvre en 2024.

Les meilleurs pieux en 2024 sont restés largement similaires à ceux de 2023, Gateway, Bonnie Doon, Riverbend, Edmonton North et YSA occupant les premières places du classement. Cependant, Riverbend et Bonnie Doon ont échangé leurs positions, ce qui indique un léger changement dans leur rendement relatif entre les deux années.

Les cinq paroisses les plus et les moins efficaces en 2023 et 2024
Figure 14 : Les cinq paroisses les plus et les moins efficaces en 2023 et 2024 Description : Ce graphique compare les cinq paroisses les plus et les moins efficaces pour la collecte alimentaire d’Edmonton en 2023 et 2024, mettant en évidence les changements dans les habitudes de dons et les efforts des bénévoles dans différentes zones. L’analyse fournit des renseignements sur les paroisses qui ont connu les améliorations les plus significatives et ceux qui pourraient nécessiter une attention particulière.

En 2024, Crawford Plains est resté dans le top 5, tout comme en 2023. De nouvelles paroisses, tels que Terwillegar Park et Griesbach, ont rejoint le haut du classement. En revanche, des paroisses tels que Coronation Park, Drayton Valley et Pioneer se sont retrouvés parmi les cinq derniers en 2024, remplaçant les paroisses en queue de peloton de l’année dernière, tels que Devon et Mill Creek YSA.

Modélisation prédictive

Prévision du nombre total de sacs de dons

Nous avons développé six modèles d’apprentissage automatique pour prédire le nombre total de sacs de dons pour chaque paroisse en 2025. Les principales conclusions de l’évaluation des modèles sont résumées ci-dessous :

Meilleur modèle : la régression polynomiale s’est révélée être le modèle le plus efficace, avec les valeurs EMQR (7,0596) et EAM (2,3888) les plus faibles, associées au score R² le plus élevé (0,9838). Ce modèle a su trouver un équilibre efficace entre simplicité et performance.

Observations clés : la régression polynomiale a surpassé les autres modèles, tels que la forêt aléatoire et le renforcement par gradation, grâce à sa capacité à saisir efficacement les relations non linéaires dans les données.

Prévision du temps passé

Six modèles ont été évalués pour prévoir le temps nécessaire pour effectuer les itinéraires de collecte. Les conclusions suivantes ont été tirées :

Meilleur modèle : la régression par arbre de décision a fourni les prévisions les plus précises, avec les valeurs EMQR (0,4387) et EAM (0,3565) les plus faibles, ainsi qu’un score R² élevé (0,8877) et un R² ajusté (1,2152). Ce modèle a su trouver un équilibre efficace entre simplicité et performance.

Observations clés : la régression par arbre de décision a surpassé la régression polynomiale et le gradient boosting pour cette tâche en raison de sa flexibilité dans le traitement des variations des données, telles que la complexité des itinéraires et les différences entre les bénévoles.

De plus, une analyse géospatiale a été intégrée pour concevoir des cartes numériques des itinéraires de collecte, identifiant les zones présentant le plus fort potentiel de dons. Cette tâche visait à rationaliser la logistique et à optimiser l’allocation des ressources lors des prochaines collectes.

Nous avons procédé à un réglage des hyperparamètres du modèle de régression décisionnelle pour prédire le temps passé, mais cela n’a pas donné lieu à des améliorations significatives. Le modèle ajusté a atteint une erreur moyenne quadratique (EMQ) de 0,2041, une erreur quadratique moyenne racine (EQMR) de 0,4517, une erreur absolue moyenne (EAM) de 0,3652, un R² de 0,8810 et un R² ajusté de 1,2282.

Visualisation du comportement de la régression polynomiale
Figure 15 : Visualisation du comportement de la régression polynomiale Description : Cette figure présente les principales visualisations issues du processus d’évaluation du modèle d’apprentissage automatique utilisé pour prédire les volumes de dons pour la collecte alimentaire d’Edmonton. Les graphiques fournissent des renseignements sur les performances du modèle, le comportement résiduel et la progression de l’apprentissage. Graphique résiduel (en haut à gauche) : représente les résidus (différences entre les valeurs réelles et prédites) par rapport aux valeurs prédites; valeurs réelles c. valeurs prévues (en haut à droite) : compare les volumes de dons prévus aux valeurs réelles. La plupart des prévisions correspondent étroitement aux valeurs réelles le long de la ligne diagonale, ce qui indique une bonne performance du modèle, à l’exception de quelques valeurs aberrantes. Distribution des résidus (en bas à gauche) : montre la distribution des résidus afin d’évaluer leur normalité. Courbe d’apprentissage (en bas à droite) : affiche les résultats d’entraînement et de validation croisée en fonction de la taille de l’entraînement. La convergence rapide des résultats d’entraînement et de validation croisée avec une erreur minimale suggère que le modèle est bien entraîné avec une faible variance.

Ces visualisations issues de l’évaluation du modèle mettent en évidence les points forts du modèle, tels que ses faibles taux d’erreur et ses performances prédictives élevées pour la plupart des prédictions, tout en identifiant les domaines, comme les biais résiduels, qui pourraient être optimisés pour obtenir de meilleurs résultats.

Les modèles ont réussi à prédire à la fois les volumes de dons et le temps passé, permettant aux parties prenantes de prendre des décisions éclairées pour les futures collectes alimentaires.

Déploiement de l’application

L’application a été déployée afin de fournir aux parties prenantes une plateforme interactive et conviviale permettant de prédire les résultats des dons et d’améliorer la logistique. Le modèle le plus performant a été déployé sur Gradio de Hugging Face et intégré à Tableau afin de faciliter la prise de décision pour les futures collectes alimentaires.

Interface utilisateur du module de prédiction des sacs de dons
Figure 16 : Interface utilisateur du module de prédiction des sacs de dons Description : Cette figure représente l’interface utilisateur de l’application Edmonton Food Drive, un outil interactif conçu pour prédire les résultats des dons en fonction de paramètres d’entrée spécifiques. L’application fournit une plateforme accessible aux parties prenantes pour prévoir les volumes de dons, ce qui permet une allocation plus efficace des ressources et une meilleure prise de décision.

Paramètres d’entrée de l’application pour la prédiction :

Paroisse : sélectionne la paroisse spécifique pour lequel des prédictions sont nécessaires.
Temps passé (minutes) : saisit le temps estimé que les bénévoles passent à parcourir les itinéraires.
Nombre de portes : saisit le nombre total de portes couvertes dans la paroisse sélectionnée.
Nombre d’itinéraires : permet aux utilisateurs de spécifier le nombre d’itinéraires inclus dans l’analyse.
Année : permet de faire des prévisions pour les futures collectes alimentaires, de 2025 à 2030.
Nombre total de bénévoles : spécifie le nombre de bénévoles affectés à la tâche.

L’application utilise les données fournies pour générer une valeur prévisionnelle du nombre total de sacs de dons. Cette prévision aide les parties prenantes à évaluer l’efficacité de leur planification et de leur allocation de ressources pour les collectes à venir.

Défis rencontrés :

Le projet de collecte alimentaire d’Edmonton a rencontré plusieurs défis qui ont eu un impact sur la collecte de données, l’analyse et la précision des prévisions. Ces défis, bien que importants, ont fourni des renseignements précieux pour améliorer les futures collectes alimentaires.

Limites de la collecte de données :

En raison de contraintes de ressources, les données n’ont été collectées qu’à partir de certains points de collecte à Bearspaw, Londonderry, Riverbend, Gateway et Bonnie Doon. Cette couverture limitée a donné lieu à des ensembles de données incomplets qui ne représentaient pas entièrement toutes les zones participantes à Edmonton.

Le fait que plusieurs bénévoles géraient le même itinéraire et déposaient un grand nombre de sacs de dons a entraîné des entrées de données incomplètes ou dupliquées, ce qui a compliqué davantage la précision des données collectées.

Incohérences dans la structure des ensembles de données :

Les ensembles de données pour 2023 et 2024 contenaient des divergences dues aux adaptations apportées au nouveau formulaire afin d’améliorer les saisies des utilisateurs. Bien que ces changements visaient à améliorer la convivialité, ils ont introduit des différences dans la structure des fonctionnalités, ce qui a nécessité des efforts importants pour harmoniser et normaliser les données en vue de leur analyse. De plus, l’absence de normes uniformes de saisie des données dans les différentes paroisses a contribué à des incohérences, créant des difficultés supplémentaires lors du prétraitement.

Écarts dans les prévisions :

Les chiffres prévisionnels de croissance des dons basés sur les données collectées ne correspondaient pas aux rapports internes du client, qui indiquaient une augmentation globale des dons en 2024 par rapport à 2023.

Pour remédier à cet écart, les données ont été réactualisées afin d’ajuster les chiffres de 2024 et de les rapprocher des tendances réelles.

Difficultés opérationnelles :

La granularité des renseignements sur les itinéraires a rendu difficile la standardisation des saisies de données dans plusieurs paroisses. L’absence d’un système centralisé de saisie des données a entraîné des variations dans la manière dont les données étaient enregistrées et soumises, ce qui a compliqué davantage l’analyse.

Conclusions et recommandations :

Afin d’améliorer l’efficacité globale, il convient d’envisager une répartition plus équilibrée des bénévoles, en mettant l’accent à la fois sur l’amélioration des performances des zones les moins performantes et sur le maintien de la dynamique dans les paroisses et les pieux les plus performants. Les recommandations suivantes sont proposées :

  • La régression polynomiale est recommandée pour prévoir les volumes de dons, en particulier lorsqu’il s’agit de saisir des modèles complexes dans les données historiques.
  • La régression par arbre de décision est idéale pour prédire le temps passé, fournissant des renseignements exploitables pour l’optimisation des itinéraires et la répartition des bénévoles.

Ces prévisions peuvent guider la planification et la répartition des ressources en identifiant les paroisses susceptibles de générer les volumes de dons les plus élevés et en estimant le temps nécessaire aux bénévoles pour parcourir efficacement les itinéraires, améliorant ainsi la coordination logistique.

L’amélioration continue des processus de collecte de données (p. ex., la normalisation des données sur les bénévoles et la numérisation des renseignements sur les itinéraires) renforcera encore la précision des prévisions et l’utilité de ces modèles.

En combinant les renseignements tirés des données et la modélisation prédictive, ce projet fournit des recommandations exploitables pour améliorer la logistique de l’initiative Edmonton’s Food Drive.

Le projet a atteint avec succès ses objectifs en recommandant des améliorations dans le processus de dons alimentaires de l’Edmonton Food Drive. Des outils permettant de prévoir les tendances en matière de dons et le temps nécessaire ont été mis en place, aidant les bénévoles et les organisateurs à mieux planifier. L’application de cartographie des itinéraires simplifie la coordination des bénévoles et permet de gagner un temps considérable par rapport aux processus manuels traditionnels. De plus, des tableaux de bord interactifs permettent aux parties prenantes de comprendre et d’analyser plus facilement les données, ce qui facilite la prise de décision. Dans l’ensemble, le projet rationalise les opérations et contribue à rendre la collecte de dons alimentaires plus efficace et plus efficiente.

Meet the Data Scientist

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontrez les scientifiques des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à l'événement Rencontrez les scientifiques des données. À bientôt!

Références

Efforts de collecte de fonds de la banque alimentaire d’Edmonton. (n.d.). Edmonton Journal.
https://edmontonjournal.com/news/local-news/edmontons-food-bank-fundraising (en anglais seulement)

Où construire des banques alimentaires : une approche basée sur l’apprentissage automatique. (n.d.). Université Purdue.
https://docs.lib.purdue.edu/cgi/viewcontent.cgi?article=1661&context=jpur (en anglais seulement)

Banque alimentaire d’Edmonton. (2024) Winter Gleanings 2024.
https://www.edmontonsfoodbank.com/documents/267/Winter_Gleanings_2024_-_Final.pdf (en anglais seulement)

Logiciel Web pour la gestion des banques alimentaires. (n.d.). Gao Group, Université Cornell.
https://gao.cee.cornell.edu/software-2/food-bank-operations-web-based-software/ (en anglais seulement)

Des chercheurs utilisent l’apprentissage automatique pour aider les banques alimentaires publiques à distribuer leurs denrées (2022). Salle de presse de l’université d’Auburn.
https://ocm.auburn.edu/newsroom/news_articles/2022/10/070927-researchers-machine-assists-food- pantries.php (en anglais seulement)

Où construire des banques alimentaires et des banques alimentaires : une approche d’apprentissage automatique à deux niveaux. (n.d.). arXiv. https://arxiv.org/pdf/2410.15420 (en anglais seulement)

Automatisation de la distribution alimentaire : le pouvoir de deux choix pour une allocation alimentaire dynamique et équitable. (2024). arXiv. https://arxiv.org/abs/2406.06363 (en anglais seulement)

Tableau de bord de la collecte alimentaire d’Edmonton. (2024). Tableau Public.
https://public.tableau.com/app/profile/kendrick.kent.moreno/viz/EFD2024Dashboard/EFDDashboard-Principal (en anglais seulement)

Gouvernement de l’Alberta. (n.d.). Évaluations foncières : région d’Edmonton. Tableau de bord régional de l’Alberta.
https://regionaldashboard.alberta.ca/region/edmonton/property-assessments/#/?from=2018&to=2022 (en anglais seulement)

Automatisation des pipelines de déploiement dans Azure Data Factory

Par : Divita Narang, Agence de la consommation en matière financière du Canada

Introduction

À l’ère moderne, l’intégration continue et le déploiement continu (CI/CD) sont des pratiques essentielles de génie logiciel et d’ingénierie des données qui permettent de simplifier le développement et la livraison grâce à l’automatisation. Ces méthodologies jouent un rôle clé dans l’atteinte de la maturité technique et dans la mise à l’échelle des projets (passage d’un environnement de validation de principe à un environnement de production).

Lorsque ces pratiques sont mises en application dans l’écosystème d’Azure (Azure Data Factory [ADF] et Azure DevOps) ou d’un autre fournisseur de boîte à outils ou d’infonuagique de votre choix, elles permettent aux équipes d’automatiser le déploiement de pipelines de données, de jeux de données, de variables, et de ressources connexes, ce qui permet de faire des mises à jour plus rapides, de gérer les versions et d’assurer l’uniformité des environnements tout au long du cycle de vie du développement.

Azure Data Factory (ADF) est un service d’infonuagique géré qui est conçu pour les processus complexes (extraction-transformation-chargement [ETL], extraction-chargement-transformation [ELT], et intégration de données). Ce service aide les utilisateurs à orchestrer les mouvements de données à vaste échelle au moyen d’un large éventail de fonctionnalités et de connecteurs intégrés tout en garantissant la sécurité grâce à des groupes Microsoft Entra (en anglais seulement) intégrés. ADF est conçu pour répondre efficacement aux besoins des organisations, par exemple déplacer des données d’un point A vers un point B tout en apportant des changements comme appliquer des formats et des types de données et bien plus encore. Par exemple, ADF peut ingérer les données d’une application frontale destinée aux clients et les intégrer dans une base de données. Ce point de terminaison peut ensuite être utilisé pour divers cas d’utilisation en aval, par exemple pour les rapports, les analyses, l’apprentissage automatique, l’intelligence artificielle, etc.

Azure DevOps est la suite complète d’outils de Microsoft pour la gestion des versions, l’automatisation, et la gestion de projet. Ce logiciel peut stocker les référentiels Git dans Azure Repos et activer l’intégration continue et le déploiement continu (CI/CD) au moyen d’Azure Pipelines, qui est utilisé pour le déploiement de projets de code. Azure Pipelines combine l’intégration continue, la mise à l’essai continue et la livraison continue pour concevoir, tester et livrer le code à de multiples environnements de destination.

À l’Agence de la consommation en matière financière du Canada (ACFC), nous utilisons largement ADF et Azure Pipelines pour gérer l’intégration et le déploiement des ressources de données à destination et à partir de points de terminaison comme Microsoft Dataverse, API Microsoft Graph et les bases de données SQL Server. Notre équipe de données en pleine croissance explore constamment des approches innovantes pour l’exécution des processus d’ingénierie des données.

Récemment, nous avons relevé le défi d’automatiser les pipelines de déploiement pour ADF. Antérieurement, les processus manuels associés aux déploiements prenaient généralement beaucoup de temps, soit entre deux et quatre heures pour un référentiel de code de taille moyenne. Le code ne pouvait être téléversé dans le nouvel environnement que manuellement ou à l’aide de scripts PowerShell, le téléchargement pouvant durer jusqu’à quelques minutes pour chaque fichier. De plus, le code devait être nettoyé et préparé manuellement pour les nouveaux environnements. Nous nous attendions à ce que le temps nécessaire pour exécuter ces tâches augmente en raison de la croissance, au fil du temps, de la taille des bases de code au sein des projets. Veuillez noter que le temps de déploiement peut varier considérablement, ce qui dépend de la taille de la base de code et de divers autres facteurs (en anglais seulement).

Même si ces efforts d’automatisation nous facilitent la tâche, il convient de noter que les processus manuels peuvent toujours être utilisés comme solution de remplacement en cas d’indisponibilité de membres de l’équipe, ou d’échec de processus automatisés ne pouvant pas être rapidement rétablis.

Même si l’éventail des pratiques CI/CD est vaste, pour le reste du présent article, nous allons mettre l’accent sur l’intégration continue et le déploiement continu dans le contexte du déplacement de ressources d’Azure Data Factory d’un environnement de niveau inférieur, comme un environnement de développement, vers un environnement de niveau supérieur, comme un environnement de simulation ou de production. Les pipelines peuvent être exécutés manuellement, en fonction d’un calendrier, ou être déclenchés par une modification du référentiel, comme une validation et fusion (commit/merge) à une branche particulière.

Aperçu de la solution

Dans cet article, nous allons mettre l’accent sur la solution illustrée dans l’architecture suivante :

Diagramme de l’architecture de la solution.

Figure 1 : Diagramme de l’architecture de la solution.

Description - Figure 1 : Diagramme de l’architecture de la solution.

Cette image montre l’architecture des composants Azure utilisés dans la solution, y compris Azure DevOps, Azure Data Factory, Azure Pipelines, et différents environnements (par exemple, un environnement de simulation, un environnement d’essais d’acceptation par les utilisateurs ou un environnement de production).

Remarque : Dans Azure Data Factory, le code est fondé sur les modèles Azure Resource Manager (ARM). Il s’agit essentiellement de l’infrastructure en tant que code dans le format JavaScript Object Notation (JSON) (en anglais seulement). Ces fichiers définissent l’infrastructure et la configuration pour les ressources d’Azure. Tout comme le code d’application, le code d’infrastructure peut être stocké et versionné dans un référentiel source.

Prérequis de la solution

  1. Contrôle de code source avec Git, fondé sur Azure DevOps
  2. Parallélisme d’agent de pipeline activé pour le projet Azure DevOps (formulaire de demande de parallélisme)
  3. Connexions de service sur Azure DevOps avec accès à des groupes de ressources pertinents où l’usine de données se trouve
  4. Services liés dans Azure Data Factory et autres données d’authentification pertinentes stockées sous forme de secrets dans Azure Key Vault
  5. Compte de stockage blob avec un accès en mode lecture et écriture pour stocker les modèles ARM

Intégration continue :

Les modifications aux codes sont publiées en utilisant le bouton de publication dans l’interface utilisateur d’ADF une fois le développement terminé sur la branche de collaboration et la demande de tirage exécutée sur la branche principale.

Lors de la publication, ADF prend en charge le processus de génération et de validation des modèles ARM. Les modèles générés contiennent toutes les ressources d’usine à données comme les pipelines, les jeux de données, les services liés, les environnements d’exécution d’intégration, les déclencheurs et plus encore. Toutes ces ressources sont susceptibles d’avoir des paramètres qui varient d’un environnement à l’autre. Ces paramètres doivent être attentivement validés, faute de quoi ils peuvent causer des erreurs de déploiement ou pire : un déploiement réussi avec des références incorrectes à des paramètres comme des données d’authentification inexactes pour un service lié (serveur SQL). Une bonne partie du temps consacré au développement a été utilisée pour trouver des solutions à ces difficultés, comme nous le verrons plus en détail dans les sections suivantes.

Configuration pour un pipeline de conception :

Pour la configuration d’un pipeline de conception, plusieurs tâches accessibles dans Azure Pipelines sont utilisées. Voici les étapes découplées :

  1. Obtenez des ressources dans le pipeline de votre référentiel (repo) d’Azure DevOps et (ce qui est très important) sélectionnez « adf_publish » comme branche par défaut.
  2. Utilisez la tâche « Publish Artifact » (publier l’artefact) pour déposer les artefacts à utiliser par le pipeline.
  3. Utilisez la tâche « PowerShell Script » pour exécuter un script afin de remplacer tous les paramètres, ce qui vise à assurer leur compatibilité avec l’environnement cible. Par exemple, si le nom de la base de données de développement est « Dev-DB » dans le code source et que l’environnement cible est un environnement de simulation avec un nom de base de données comme « Stg-DB », le script PowerShell peut exécuter un remplacement de chaîne dans tous les fichiers pour toutes les références à des variables afin de veiller à ce que la bonne base de données cible y soit reflétée. Veuillez consulter cet exemple de code (en anglais seulement) pour en savoir plus.  
    Conseil de pro : Les premiers modèles ARM comprennent beaucoup de paramètres, mais il est préférable d’exécuter le script sur chaque fichier de modèle ARM. Il existe également une méthode permettant de modifier les paramètres en utilisant la fonction « Override Parameters » (outrepasser les paramètres) dans la section de mise en production du pipeline, un sujet que nous aborderons plus loin dans cet article.
  4. Utilisez la tâche « Azure File Copy » (copie de fichier Azure) pour copier tous les modèles du dossier « linkedTemplates » de votre référentiel dans un compte de stockage. Le stockage de modèles ARM dans le stockage blob crée une redondance pour le stockage d’un code modifié à l’étape 3, ce qui est souhaitable. Il s’agit également d’une pratique requise pour les bases de code de grande taille.

Conseil de pro : Nettoyez le conteneur de stockage avant de copier les modèles. De plus, créez des conteneurs distincts pour différents types d’environnements (simulation, essais d’acceptation par les utilisateurs, production, etc.), ce qui vous aidera à rester organisé et à réduire les risques de déploiement erroné.

Après la configuration, le pipeline aura à peu près l’air de ce qui suit :

Screenshot of Pipeline components in Azure DevOps.

Figure 2 : Capture d’écran des composants du pipeline dans Azure DevOps (en anglais seulement)

Description - Figure 2 : Capture d’écran des composants du pipeline dans Azure DevOps

Cette image présente une section d’une interface de pipeline dans Azure DevOps. Elle comprend plusieurs étapes du pipeline de conception pour la solution décrite dans cet article. Ces étapes comprennent les suivantes : une tâche de dépôt — publication d’artefact (Publish Artifact: drop), deux tâches de script PowerShell et une tâche de copie de fichier Blob Azure.

Configuration pour un pipeline de mise en production :

  1. Créez une tâche vide en sélectionnant l’option « Empty job » dans la section « Releases » d’Azure DevOps.
  2. Ajoutez les artefacts du référentiel traités par le pipeline de conception créé précédemment.
  3. Cherchez et créez une tâche « PowerShell ». Indiquez le chemin d’accès au script de prédéploiement et de postdéploiement. Ce script est utilisé pour arrêter les déclencheurs avant le déploiement et les redémarrer après. Il est fourni par Microsoft : Scripts de prédéploiement et de postdéploiement CI/CD — Azure Data Factory | Microsoft Learn. Vous pouvez télécharger le script dans le référentiel du projet pour l’utiliser plus facilement.
  4. Cherchez et créez une tâche « ARM Template Deployment » (déploiement de modèle ARM) et remplissez les champs en fonction du pipeline précédent et de la configuration du projet.
    1. Dans la section « Override template parameters » (outrepasser les paramètres du modèle), des paramètres sont déjà téléchargés en fonction du fichier « ArmTemplateParameters_master.json » qui fait partie des artefacts du projet. Ces paramètres peuvent être personnalisés davantage en fonction du fichier de configuration « arm-template-parameters-definition.json » dans Azure Data Factory : Utiliser des paramètres personnalisés avec le modèle Resource Manager — Azure Data Factory | Microsoft Learn.

Si vous choisissez cette option, vous n’avez pas besoin d’exécuter l’étape 3 dans la configuration du pipeline de conception. Voici un exemple d’utilisation de paramètres personnalisés pour Stockage Blob Azure, Azure SQL Database et Dataverse (services de données communs pour les applications).

Screenshot of code sample in user interface of Azure Data Factory.

Figure 3 : Capture d’écran d’un exemple de code dans l’interface utilisateur d’Azure Data Factory

Description - Figure 3 : Capture d’écran d’un exemple de code dans l’interface utilisateur d’Azure Data Factory

Cette image présente un exemple de code dans le fichier « arm-template-parameters-definition.json » de l’instance Azure Data Factory. Il contient la configuration pour des ressources comme Stockage Blob Azure, Azure SQL Database et les services de données communs pour les applications, chacune ayant des propriétés et paramètres imbriqués, ce qui comprend un champ de valeur par défaut (« defaultValue »).

Cette approche pourrait ne pas être adaptée s’il y a plus de 256 paramètres, car il s’agit du nombre maximal permis. Si la refactorisation du code est une possibilité pour votre projet, prenez en considération les solutions de rechange suivantes :

  • Réduisez le nombre de paramètres en utilisant des paramètres globaux dans la mesure du possible.
  • Prenez note des paramètres qui sont implicitement hérités et retirez-les lorsqu’ils sont redondants. Par exemple, les paramètres de jeux de données sont hérités des services liés et il pourrait ne pas être nécessaire de les ajouter aux jeux de données s’ils sont déjà présents dans les services liés.
  • Si vous ne jugez pas que cela va compliquer la maintenance et la création de nouvelles ressources, divisez la solution en de multiples usines de données pour les solutions de grande taille.
  • Utilisez des scripts PowerShell pour nettoyer et préparer le code pour les différents environnements utilisés dans cette solution.

Après la configuration, le pipeline de mise en production aura l’air à peu près de ce qui suit :
Notez bien que la tâche de prédéploiement utilise le même script que la tâche de postdéploiement, mais que les arguments de script sont différents.

Screenshot of Pipeline components in Azure DevOps.

Figure 4 : Capture d’écran des composants du pipeline dans Azure DevOps (en anglais seulement)

Description - Figure 4 : Capture d’écran des composants du pipeline dans Azure DevOps

Cette image présente les différentes étapes du pipeline de mise en production dans Azure DevOps, lesquelles comprennent les tâches de script de prédéploiement et de postdéploiement de PowerShell ainsi qu’une tâche de déploiement de modèle ARM.

Dépannage, mise à l’essai et quelques autres conseils de pro :

  1. Pour commencer à mettre à l’essai la nouvelle solution, il peut être utile de créer une usine de données test et de la déployer dans Azure Data Factory pour s’assurer que tous les paramètres sont copiés correctement et que les connexions de services liés et de jeux de données fonctionnent bien.
  2. Pendant et après les déploiements : surveillez la journalisation au niveau du groupe de ressources dans l’onglet « Deployments » (déploiements) du portail Azure d’Azure Data Factory afin de vérifier la progression et obtenir des journaux d’erreurs plus descriptifs.
  3. Si les champs temporels dans les déclencheurs de la fenêtre bascule (tumbling window) ne sont pas compatibles avec l’environnement cible, le déploiement va échouer. Une solution simple consiste à assurer la concordance des champs temporels avec les déclencheurs dans les environnements de déploiement cibles.
  4. Les environnements d’exécution d’intégration peuvent également être incompatibles dans différents environnements. Une solution rapide consiste à supprimer ou à mettre à jour les références aux environnements d’exécution d’intégration en utilisant le script PowerShell à l’étape 2 du pipeline de conception.
  5. Utilisez un correctif (hotfix) si l’usine de données déployée comporte un bogue qui doit être corrigé dès que possible.  
  6. Si les paramètres globaux sont spécifiques à chaque environnement, la case « Include global parameters » (inclure les paramètres globaux) peut être décochée dans la section de configuration du modèle ARM dans ADF. De cette manière, il y aura moins de paramètres à personnaliser lors du déploiement.
  7. Les déclencheurs d’intégration continue peuvent être activés à la fois dans le pipeline et dans le niveau de mise en production en fonction des calendriers, des demandes de tirage ou des artefacts.
  8. Pour les déploiements critiques, les approbations préalables aux déploiements peuvent également être configurées au niveau de mise en production, par exemple pour les déploiements dans un environnement de production.
  9. Déterminez à l’avance si vous allez choisir le mode de déploiement incrémentiel ou complet, surtout s’il y a différences dans la façon dont les environnements utilisés stockent les ressources.  
  10. Durant la phase de mise à l’essai, les modèles ARM peuvent être manuellement exportés vers un espace de stockage local et les scripts PowerShell créés pour la gestion des paramètres peuvent être exécutés localement afin d’accélérer les essais et le dépannage.

Évaluation

C’est une façon parmi d’autres de procéder aux déploiements automatisés dans Azure Data Factory pour différents environnements. Nous avons choisi de concevoir cette solution en utilisant les services Azure, car c’est le fournisseur de services d’infonuagique choisi par l’Agence. Ce processus nous a aidés à explorer les solutions de données pour l’automatisation de l’intégration continue et du déploiement continu. De plus, il démontre qu’il est possible d’économiser beaucoup de temps dans le cadre des déploiements. Par ailleurs, en raison de la courbe d’apprentissage, comme c’est le cas pour tout nouveau processus, nous avons constaté des erreurs et avons passé beaucoup de temps à résoudre les problèmes, ce qui nous a amenés à découvrir des singularités dans le processus, qui font l’objet de conseils de pro ci-dessus. Ces conseils peuvent s’avérer très utiles et vous faire gagner du temps et des efforts en vous aidant à éviter les pièges les plus courants et à simplifier vos processus de déploiement fondés sur Azure.

Conclusion

Nous sommes déterminés à améliorer notre environnement opérationnel pour les déploiements itératifs en perfectionnant continuellement nos processus d’intégration continue et de déploiement continu. De plus, nous recueillons activement les commentaires des membres de notre équipe afin de déterminer les points à améliorer dans le cadre de nos mises à jour.

Compte tenu du rythme rapide de l’innovation et de la disponibilité croissante de fonctionnalités intégrées dans les produits de données de Microsoft, nous recommandons également aux lecteurs de consulter les ressources suivantes : Publication automatisée pour CI/CD, Déployer des modèles ARM liés à VSTS et Déploiements dans Microsoft Fabric.

Restez à l’affût pour obtenir de plus amples renseignements et des mises à jour sur ces sujets dans nos prochains articles!

Meet the Data Scientist

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontrez les scientifiques des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à l'événement Rencontrez les scientifiques des données.  À bientôt!

Conception d’un système d’intelligence artificielle générative : leçons apprises et recommandations découlant de l’agent conversationnel d’AgriGuichet

Par Andy Fan, Rafael Moraes; Agriculture et Agroalimentaire Canada

Introduction

Après le dévoilement de l’équipe gagnante du premier Défi des données de la fonction publique canadienne, nous avons eu l’incroyable chance de bâtir l’agent conversationnel AgriGuichet, un outil de recherche assisté par l’intelligence artificielle (IA) générative qui fournit des renseignements agricoles fédéraux, provinciaux et territoriaux utiles aux Canadiens. Accessible sur le site Web AgriGuichet.ca, cet outil donne aux visiteurs un autre moyen d’accéder à des renseignements utiles sur l’agriculture canadienne. Il est le résultat d’un incroyable effort de collaboration interfonctionnelle entre l’industrie, le milieu universitaire et d’autres ministères pour améliorer la prestation de services à la population canadienne.

Dans le présent article, nous nous concentrons sur l’échange des enseignements tirés des aspects techniques et politiques de la mise en œuvre d’AgriGuichet. Voici quelques-unes de nos principales conclusions et recommandations : l’utilisation de l’adaptation par enrichissement contextuel (AEC) pour améliorer la précision de l’IA, la nécessité de garde-fous pour garantir des interactions éthiques et sûres avec l’IA et le rôle d’une solide gouvernance des données et de la conformité aux politiques dans la création de systèmes d’IA responsables.

Rédactique

La rédactique (en anglais seulement) est un domaine fascinant et complexe au confluent de l’expertise humaine et de l’IA. Son principal objectif est de peaufiner les requêtes de manière à obtenir les réponses les plus précises, impartiales et pertinentes de la part des systèmes d’IA, en particulier ceux qui font appel à des modèles linguistiques. Cette discipline est très importante, car contrairement aux interfaces habituelles, les systèmes de langage naturel dépendent beaucoup des subtilités, des nuances et de la complexité du langage humain. La conception d’invites efficaces tient donc à la fois de l’art et de la science, et exige non seulement une compréhension profonde des technologies d’IA sous-jacentes, mais aussi des caractéristiques propres au langage et à la cognition humains.

Il s’agit également d’un processus continu et itératif qui porte sur l’essai et la mise au point d’invites pour s’assurer que les systèmes d’IA génèrent des réponses précises, impartiales et pertinentes. Une telle mise au point incessante est essentielle pour éviter d’introduire des préjugés involontaires, puisque même de subtiles modifications dans la formulation peuvent avoir des répercussions considérables sur le comportement de l’IA. L’évaluation périodique et un équilibre judicieux des éléments techniques et linguistiques contribuent à maintenir la fiabilité et l’impartialité des résultats de l’IA.

Il est important de reconnaître que chaque grand modèle de langage (GML) aura sa propre invite optimale qui suscitera la meilleure performance, différents modèles pouvant répondre différemment à la même invite en raison de variations dans leur architecture et leurs données d’entraînement. Cependant, le processus de découverte de cette invite optimale reste cohérent d’un modèle à l’autre. Il comporte le même cycle itératif d’expérimentation, d’évaluation et de mise au point pour s’assurer que les invites amènent l’IA à produire des résultats précis et impartiaux.

Technique de l’adaptation par enrichissement contextuel

L’adaptation par enrichissement contextuel (AEC) est un cadre qui réunit la recherche de données à partir d’une source de connaissances – une base de données ou un ensemble de documents, par exemple – et les capacités génératives d’un modèle de langage. Sans AEC, même les GML soigneusement perfectionnés produisent des « hallucinations » lorsqu’on les interroge sur des sujets rarement abordés dans les ensembles de données ayant servi à leur apprentissage. Pour qu’un système d’IA donne des renseignements plus précis, l’AEC doit être intégrée à la rédactique. La figure 1 ci-dessous illustre le processus d’AEC. Si l’on veut créer un système d’AEC sans partir de zéro, on peut aussi exploiter des bibliothèques de source ouverte comme Langchain (en anglais seulement) ou Llama Index (en anglais seulement), ou encore des solutions exclusives (comme Azure Cognitive Search). Dans le cas de l’agent conversationnel d’AgriGuichet, nous avons choisi de créer notre propre système d’AEC. Cela a donné une solution plus souple qui répond à nos propres besoins.

A diagram of a software Description automatically generated with medium confidence

Figure 1 source : Exemple de processus d’adaptation par enrichissement contextuel (AEC) (en anglais seulement)

Description - Figure 1: Exemple de processus d’adaptation par enrichissement contextuel (AEC)

Cette image illustre le processus d’adaptation par enrichissement contextuel de freecodecamp. Le diagramme se compose de plusieurs éléments interconnectés :

  • Entrée (requête). Une question de l’utilisateur, par exemple « Comment peut-on expliquer que le PDG d’OpenAI, Sam Altman, a été soudainement licencié par le conseil d’administration en seulement trois jours, pour être ensuite réembauché par l’entreprise, ce qui ressemble à une version réelle de la série télévisée « Game of Thrones » en termes de dynamique du pouvoir? ».
  • Indexation. Le système indexe les documents en blocs ou vecteurs à l’aide d’emboîtements.
  • Récupération. Les documents pertinents sont récupérés en fonction de la requête. Par exemple :
    • Bloc 1 : « Sam Altman revient à OpenAI en tant que PDG, le drame de la Silicon Valley ressemble à la comédie « Zhen Huan ».
    • Bloc 2 : « Le drame est-il fini? Sam Altman redevient PDG d’OpenAI; le conseil d’administration se restructure. »
    • Bloc 3 : « L’agitation au sein de l’OpenAI touche à sa fin : qui a gagné et qui a perdu? »
  • Génération.
    • Sans l’AEC, le système fournit une réponse générique sans renseignements précis, comme : « Je ne suis pas en mesure de fournir des commentaires sur des événements à venir. Je ne dispose pour le moment d’aucune information concernant le licenciement et la réembauche du PDG d’OpenAI... ».
    • À l’aide de l’AEC, le système combine le contexte des documents et des invites récupérés pour générer une réponse plus détaillée et plus pertinente, comme : « Cela suggère des désaccords internes importants au sein d’OpenAI concernant la direction future de l’entreprise et les décisions stratégiques. Tous ces rebondissements reflètent les luttes intestines et les problèmes de gouvernance de l’entreprise chez OpenAI... ».
  • Sortie. La réponse finale générée repose sur la méthode de recherche sélectionnée (à l’aide de l’AEC ou sans cette méthode), ce qui met en évidence la différence pour ce qui est des précisions et de l’exactitude de la réponse.

L’AEC fonctionne habituellement comme suit :

  • Récupération. À partir de l’historique d’une conversation, le système d’AEC récupère tout d’abord les documents ou les éléments d’information pertinents dans une base de données ou un corpus. Il repose la plupart du temps sur un modèle d’extraction ou un algorithme de recherche optimisé pour trouver rapidement le contenu le plus pertinent dans un vaste corpus d’informations.
  • Augmentation. Les documents récupérés servent ensuite à augmenter les données d’entrées introduites dans le modèle génératif. Cela veut dire que le modèle de langage reçoit comme contexte tant l’historique de la conversation que le contenu de ces documents.
  • Génération. Un modèle linguistique génératif produit ensuite une réponse à partir de cet apport augmenté. Le modèle produit à l’aide de ces données supplémentaires des réponses plus précises, plus détaillées et plus adaptées au contexte.

Les cadres d’AEC sont particulièrement utiles si la tâche d’un modèle de langage consiste à consulter des renseignements externes ou à répondre à des questions fondées sur des faits qui ne sont pas nécessairement stockés dans ses paramètres. Répondre à des questions portant sur des domaines ouverts et vérifier des faits sont deux exemples de telles tâches. L’étape de la récupération permet au système d’extraire des renseignements à jour ou particuliers auxquels le modèle linguistique seul n’aurait pas accès à partir des données d’entraînement.

Garde-fous

Les garde-fous sont des règles ou des contraintes préétablies mises en place pour empêcher un système d’IA de générer un contenu inapproprié, partial ou déséquilibré. Ils agissent de deux façons : d’une part, ils éloignent le processus de génération de certains sujets ou phrases; et d’autre part, ils traitent à leur tour les données de sortie de l’IA pour supprimer ou réviser le contenu problématique. Ces garde-fous sont essentiels pour plusieurs raisons expliquées ci-dessous.

  1. Contrôle du contenu. Les garde-fous empêchent la création d’un contenu inapproprié, offensant ou préjudiciable, notamment des propos haineux, du matériel explicite et tout autre contenu susceptible de ne pas convenir à tous les publics.
  2. Principes d’éthique. Les garde-fous veillent à ce que les GML et les agents conversationnels adhèrent à des règles d’éthique. Ils peuvent empêcher l’approbation d’activités illicites ou susceptibles de porter préjudice aux utilisateurs et utilisatrices ou à des tiers.
  3. Atténuation des préjugés. Malgré tous les efforts de leurs créateurs et créatrices, les GML peuvent parfois perpétuer sinon amplifier les préjugés présents dans leurs données d’apprentissage. On peut concevoir des garde-fous qui relèvent et atténuent ces préjugés. Ainsi, les interactions sont plus justes et équilibrées.
  4. Sûreté. En imposant des restrictions au comportement d’un système d’IA, ces garde-fous renforcent la sécurité de l’utilisateur ou de l’utilisatrice, car ils empêchent le système de donner des réponses dangereuses ou erronées. Ils s’avèrent particulièrement importants dans des domaines où les risques sont élevés, comme les soins de santé ou les conseils juridiques, où tout renseignement inexact peut avoir de graves conséquences.
  5. Confiance des utilisateurs et conformité Garantir que le système agit de façon prévisible et en conformité avec des normes socialement acceptables contribue à renforcer la confiance des utilisateurs. Les garde-fous permettent aussi de satisfaire à diverses normes réglementaires et exigences juridiques, un aspect incontournable du déploiement d’agents conversationnels dans plusieurs secteurs économiques.
  6. Prévention des abus. Les garde-fous jouent un autre rôle important, celui d’empêcher les utilisateurs et utilisatrices de manipuler ou de « tromper » le système d’AI pour l’amener à se comporter autrement que prévu, comme générer du contenu malveillant ou participer à des pratiques trompeuses.
  7. Interactions ciblées. Les garde-fous aident le système à rester pertinent et à s’adapter à l’intention de l’utilisateur ou de l’utilisatrice, ce qui rehausse l’expérience de l’utilisateur ou de l’utilisatrice, puisqu’ils empêchent l’agent conversationnel de produire des réponses non pertinentes ou aberrantes.

Pour intégrer ces garde-fous de manière efficace, il faut d’abord cerner les vulnérabilités susceptibles d’inciter le modèle à devenir partial et comprendre le contexte dans lequel l’impartialité pourrait être compromise. Par exemple, si un modèle d’IA génère des résumés d’actualités objectifs, il doit traiter objectivement des entités et des sujets variés et ne pas exprimer une opinion. Dans ce scénario, les garde-fous pourraient aller du plus simple, soit éliminer certains mots chargés d’opinion, au plus complexe, c’est-à-dire mettre en œuvre des contrôles plus sophistiqués d’analyse des sentiments qui signalent tout langage, excessivement positif ou négatif, articulé autour de certains sujets précis. Enfin, s’assurer qu’un outil d’IA ne réponde qu’aux invites pertinentes est une question de discrimination et d’orientation claire dans le système de garde-fous. L’IA doit faire la différence entre les questions auxquelles elle peut répondre et les questions non pertinentes, inappropriées ou qui dépassent le cadre de ses fonctions. Ici encore, les garde-fous jouent un rôle essentiel. Si on lui donne des directives précises et des exemples clairs sur ce qui constitue une requête pertinente, l’IA peut esquiver toute question qui ne répond pas à ces critères ou simplement refuser d’y répondre.

Par exemple, dans le cadre de la mise en place de l’agent conversationnel AgriGuichet, seules les requêtes ne portant que sur des renseignements sur l’agriculture canadienne contenus dans ce système seraient pertinentes. Il a donc fallu établir des garde-fous pour fournir des réponses complètes et ciblées aux questions portant sur l’agriculture, tout en évitant ou en redirigeant celles qui ont trait à d’autres données sans rapport. Un exemple simplifié de la mise en œuvre a été l’inclusion du message suivant dans l’invite du système : « Ne pas répondre aux questions sans rapport avec les données fournies par le système AgriGuichet ».

En pratique, les garde-fous peuvent revêtir de nombreuses formes. Selon notre expérience de la mise en place d’AgriGuichet, nous recommandons au moins :

  • des systèmes de filtrage qui détectent et bloquent les types de contenus indésirables;
  • des fonctions de limite du débit pour éviter toute utilisation abusive du système;
  • des listes d’invites explicites de « choses à ne pas dire » ou des règles de comportement;
  • des processus d’examen ou des mécanismes d’interventions humaines (comme enregistrer puis analyser les invites et les réponses des utilisateurs et des utilisatrices). Microsoft propose un bel exemple d’invite garde-fous :
Screens screenshot of a black screen Description automatically generated
Description - Figure 2 : Exemple de méta-invite (ou invite contextuelle) garde-fous (en anglais seulement)

Saisie d’un exemple par Microsoft de méta-invite garde-fous pour l’agent conversationnel d’une boutique de crème glacée. La méta-invite consiste en :

## Agent conversationnel, nom de code Dana :

  • Dana est un agent conversationnel chez Crème Glacée Gourmet inc.
  • L’équipe marketing de Crème glacée Gourmet se sert de Dana pour être plus efficace dans son travail.
  • Dana connaît le catalogue de produits uniques de Crème glacée Gourmet, l’emplacement des magasins et l’objectif stratégique de l’entreprise, c’est-à-dire cibler le marché haut de gamme.

## Profil et capacités générales de Dana :

  • Les réponses de Dana doivent être utiles et logiques.
  • Le raisonnement logique de Dana doit être rigoureux, intelligent et défendable.

## Capacité de Dana à rassembler et à présenter les renseignements :

  • Pour générer ses réponses, Dana a accès à la base de données du catalogue de produits, celle des emplacements des magasins et, par le nuage Microsoft, à Microsoft 365, ce qui lui donne tout le CONTEXTE voulu.

## Sécurité :

  • Dana doit modérer ses réponses pour qu’elles soient sûres et sans danger et qu’elles évitent la controverse.

Invite :

Créez un slogan pour notre boutique de crème glacée.

Réponse :

Des cornets paradisiaques en plein cœur de Phoenix!

La mise en œuvre de garde-fous dans les systèmes d’IA est cruciale, mais difficile. Il faut les concevoir avec soin pour qu’ils puissent traiter diverses entrées sans perdre leur précision. Une maintenance constante est également nécessaire pour que les garde-fous demeurent efficaces alors que les modèles linguistiques et le contenu évoluent. Malgré ces difficultés, les garde-fous sont essentiels pour garantir des interactions sûres et responsables avec l’IA.

Gestion et gouvernance des données

Les résultats d’un modèle génératif appuyé par l’AEC dépendent directement de la qualité des données sous-jacentes qu’il consulte (en anglais seulement). AgriGuichet est le fruit d’années de gestion de données et de pratiques de gouvernance rigoureuses de la part de l’équipe responsable de cet agent conversationnel. Ces pratiques ont mené à la création d’une base de données de haute qualité et clairement organisée sur les programmes et les services d’agriculture, accessibles depuis le site Web d’AgriGuichet. Dans ce contexte, de bonnes pratiques de gestion et de gouvernance des données peuvent améliorer la précision et la pertinence des textes générés, puisqu’elles garantissent que les sources de données sont fiables, uniformes et à jour. Voici quelques recommandations qui aideront à exploiter tous les avantages de la gestion et de la gouvernance des données :

  • Établir une stratégie de données claire et exhaustive qui énonce la vision, les objectifs et les principes de la gestion et de la gouvernance des données.
  • Mettre en œuvre une architecture de données robuste et souple qui prend en charge l’intégration, l’interopérabilité et l’accessibilité de diverses sources de données.
  • Adopter un cadre de qualité des données (voir l’orientation connexe du Secrétariat du Conseil du Trésor) qui assure que les sources de données sont valides, exhaustives, à jour et exactes.
  • Appliquer un modèle de sécurité des données qui protège la confidentialité, l’intégrité et la disponibilité des sources de données et des réponses générées.
  • Créer une structure de gouvernance des données qui attribue les rôles, les responsabilités et les obligations de rendre compte en matière de gestion et gouvernance des données.
  • Contrôler et évaluer le rendement et les résultats de la gestion et de la gouvernance des données et apporter des améliorations continues en fonction des commentaires reçus et des pratiques exemplaires.

Facteurs d’ordre politique à prendre en considération

Au moment de la création d’applications d’IA dans le contexte du secteur public fédéral, outre les politiques et les lignes directrices existantes (Directive sur la prise de décisions automatisée, Portée de la directive, Guide sur l’utilisation de l’intelligence artificielle générative), certains facteurs d’ordre politique doivent être pris en compte pour s’assurer que les applications sont créées de manière responsable et éthique. Nous avons constaté que ces facteurs ont joué un rôle crucial dans l’élaboration de notre conception et de notre approche du développement d’AgriGuichet, et nous recommandons vivement de les consulter au cours de la phase de conception.
Les facteurs d’ordre politique plus généraux dont on doit tenir compte à cet égard sont les suivants :

  • Conformité. S’assurer de concevoir et de déployer l’agent conversationnel conformément aux politiques et aux lois applicables et suivre les différentes pratiques exemplaires, observer les conseils d’autres autorités publiques et se conformer aux règlements propres à l’industrie. Veiller également à ce que toutes les politiques et lignes directrices internes ou du ministère ou de l’organisme soient respectées. Outre la conformité, s’assurer que des mesures appropriées sont en place pour atténuer les risques juridiques et réglementaires. Pour ce faire, demander des conseils juridiques, mettre en œuvre des processus de conformité et se tenir au courant de l’évolution du paysage juridique et réglementaire.
  • Évaluation des risques. Évaluer et traiter les menaces à la cybersécurité potentielles, les préjugés, les atteintes à la vie privée et les risques de générer des hallucinations ou des renseignements erronés. Si le système est accessible à la population, tenir compte de son opinion ou des événements en cours qui pourraient avoir une incidence sur la perception de l’outil.
  • Mobilisation des partenaires. Collaborer le plus tôt possible de manière proactive avec des partenaires clés, comme les conseillers juridiques, les experts en protection de la vie privée et en sécurité, les agents de coordination de l’analyse comparative entre les sexes plus (ACS+), les représentants de la diversité, de l’équité et de l’inclusion, d’autres partenaires (p. ex. ceux issus des collectivités autochtones) et les autorités chargées des processus internes (architecture d’entreprise, gouvernance de projet, etc.) pour assurer une démarche coordonnée, conforme et holistique.
  • Transparence. Afin d’éviter toute confusion ou tout malentendu, il est vital d’informer les utilisateurs et utilisateurs qu’ils communiquent avec un outil d’IA et non avec une personne humaine. Donner plus de renseignements sur le système, comme une description de son fonctionnement, des données qu’il utilise et des mesures prises pour garantir sa qualité, peut aussi contribuer à rehausser la confiance.
  • Surveillance des préjugés et de la discrimination. Surveiller le rendement des outils d’IA pour prévenir les préjugés et la discrimination, ce qui assure que cette technologie soit utilisée de manière responsable et équitable. Saisir les interactions entre les utilisateurs et le système afin de les passer périodiquement en revue tout au long du cycle de vie.
  • Éducation. Donner aux utilisateurs des directives claires sur la meilleure façon d’interagir avec l’agent conversationnel, et les conseiller sur la formulation de leurs invites ou de leurs requêtes et sur les renseignements à donner à l’agent. Veiller à former les développeurs et développeuses de l’agent conversationnel et à leur donner les ressources nécessaires pour les aider à bien exploiter cette technologie et à comprendre clairement ses capacités, ses limites et les pratiques exemplaires de son utilisation responsable.
  • Développement itératif. Comprendre la nécessité d’améliorer sans cesse l’outil pour qu’il évolue au fil des changements réglementaires et des percées technologiques. L’une des façons d’y parvenir serait d’adopter une approche agile.
  • Durabilité. Veiller à ce que la conception et la mise en œuvre des outils d’IA soient guidées par un engagement en faveur de la durabilité environnementale afin de soutenir la viabilité à long terme et d’atténuer toute incidence négative sur l’environnement ou sur les populations et les collectivités.

Conclusion

La rédactique, en tant que discipline, est cruciale, puisqu’elle permet de s’assurer que les systèmes d’IA donnent à leurs utilisateurs et utilisatrices des réponses non seulement exactes et conformes aux faits, mais aussi impartiales, éthiques et adaptées au contexte. L’adaptation par enrichissement contextuel (AEC) est une grande percée en ce sens, puisque ce mécanisme procure aux systèmes d’IA un accès dynamique à des données externes qui peuvent ainsi les intégrer à leurs réponses. Ces systèmes sont ainsi plus fiables et plus solidement ancrés sur les faits, particulièrement s’ils doivent puiser dans un vaste corpus de connaissances en constante évolution.

La mise en place de garde-fous éthiques et de pratiques rigoureuses en gestion des données, ainsi que la conformité envers les politiques, les lois et les règlements en vigueur, peut aider les systèmes d’IA à mieux tenir compte des normes sociales et à inspirer la confiance des utilisateurs et utilisatrices, favorisant ainsi des interactions plus fructueuses entre les parties concernées.

Les recherches liées à AgriGuichet et les améliorations qui seront apportées à cet agent conversationnel pourraient être axées sur la mise au point des techniques de rédactique pour améliorer la pertinence contextuelle, l’élargissement du champ d’application de l’AEC, pour intégrer plus dynamiquement les données, et l’amélioration de l’évolutivité et de l’efficacité de l’IA pour offrir de meilleurs services aux utilisateurs et utilisatrices tout en préservant la sécurité et la fiabilité.

Comme l’IA est en constante évolution et qu’elle s’intègre de plus en plus aux environnements personnels et professionnels, les efforts déployés en rédactique façonneront sûrement en profondeur les interactions entre l’humain et l’IA. Pour adhérer aux principes d’exactitude, d’impartialité et de pertinence, il faudra veiller à ce que les techniques de rédactique suivent l’évolution des modèles d’IA. L’application adéquate de la rédactique et de garde-fous à l’IA permettra à celle-ci d’atteindre son plein potentiel à titre d’outil qui élargit les connaissances, facilite la prise de décision et améliore la productivité sans compromettre les principes d’éthique ou la confiance des utilisateurs.

Meet the Data Scientist

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontrez les scientifiques des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à l'événement Rencontrez les scientifiques des données.  À bientôt!

Bibliographie

Agriculture et Agroalimentaire Canada (2024). Récupéré sur AgPal: https://agpal.ca/fr/accueil

Aslanyan, V. (2024, 11 juin). Next-Gen Large Language Models: The Retrieval-Augmented Generation (RAG) Handbook. Récupéré sur freeCodeCamp: https://www.freecodecamp.org/news/retrieval-augmented-generation-rag-handbook/#heading-11-what-is-rag-an-overview (en anglais seulement)

Gao, Y. (2024). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv. Récupéré sur https://arxiv.org/abs/2312.10997 (en anglais seulement)

Forum mondial des gouvernements. (2023). Quatre de vos idées ont atteint la finale. Récupéré sur Défi des données de la fonction publique: https://canada.governmentdatachallenge.com/fr/

Gouvernement du Canada. (2023, 16 août). Garde-fous canadiens pour l'IA générative : un code de pratique. Récupéré sur ISED-ISDE: https://ised-isde.canada.ca/site/isde/fr/consultation-lelaboration-dun-code-pratique-canadien-pour-systemes-dintelligence-artificielle/garde-fous-canadiens-pour-lia-generative-code-pratique

Gouvernement du Canada. (2024, 1 février ). Orientation sur la qualité des données. Récupéré sur Canada.ca: https ://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/gestion-information/orientation-qualite-donnees

Gouvernement du Canada. (2024, 26 juillet). Guide sur l’utilisation de l’intelligence artificielle générative. Récupéré sur Canada.ca: https://www.canada.ca/fr/gouvernement/systeme/gouvernement -numerique/innovations-gouvernementales-numeriques/utilisation-responsable-ai/guide-utilisation-intelligence-artificielle-generative.html

IBM. (2024). What is prompt engineering? Récupéré sur IMB Topics: https://www.ibm.com/topics/prompt-engineering (en anglais seulement)

LangChain. (s.d.). LangChain Main Page. Récupéré sur LangChain: https://www.langchain.com/ (en anglais seulement)

LlamaIndex. (2024). Turn your enterprise data into production-ready LLM applications. Récupéré sur LlamaIndex: https://www.llamaindex.ai (en anglais seulement)

Sajid, H. (2024, 18 mars). Data Strategy Roadmap: Creating a Data Strategy Framework For Your Organization. Récupéré sur Zuar: https://www.zuar.com/blog/data-strategy-roadmap-creating-a-data-strategy-framework/#:~:text=Hence%2C%20a%20data%20strategy%20framework%20is%20a%20long-term%2C,to%20make%20informed%20decisions%20and%20achieve%20business%20goals. (en anglais seulement).

Secrétariat du Conseil du Trésor du Canada. (2023, 25 avril). Directive sur la prise de décisions automatisée. Récupéré sur TBS-SCT: https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=32592

Application des algorithmes de forêts aléatoires pour améliorer les prévisions de dépenses dans les programmes de subventions et de contributions gouvernementales

Par Pierre Zwiller-Panicz, Margarita Novikova, Kirsten Gaudreau, Matthew Paslawski, Logement, Infrastructures et Collectivités Canada.

Sommaire

La présente étude vise à élaborer et à mettre en œuvre un modèle d’apprentissage automatique pour prévoir les dépenses dans les programmes de subventions et de contributions de Logement, Infrastructures et Collectivités Canada, en étant axée sur les demandes de remboursement. Une analyse comparative des algorithmes a permis de déterminer que la forêt aléatoire était la plus performante, celle-ci aboutissant à un R au carré (R²) de 39 %. Intégré à un tableau de bord Power BI, le modèle permet une analyse des dépenses en temps réel, une visualisation des tendances et une comparaison entre les prévisions et les dépenses réelles. Sa mise en œuvre a réduit le temps de prévision de trois mois à un seul, ce qui a permis d’améliorer la planification financière et l’engagement des parties prenantes.

Le modèle a eu une incidence opérationnelle considérable, en facilitant les discussions entre les conseillers en gestion financière et les responsables de programmes, tout en fournissant des données en temps réel favorisant une meilleure prise de décision. Bien que son applicabilité soit limitée aux programmes comportant des projets établis et qu’il donne de moins bons résultats pour les programmes à base de répartition, il s’est avéré très efficace pour les demandes de remboursement comptant 30 projets actifs ou plus.
Fort de ce succès, le modèle constitue une avancée précieuse dans le domaine de la prévision financière. Sa mise en œuvre ouvre la voie à d’autres améliorations, ce qui favorise une adoption plus large et des améliorations continues en matière d’exactitude prédictive et d’applicabilité des programmes.

1. Introduction

Logement, Infrastructures et Collectivités Canada (LICC) joue un rôle essentiel dans le financement et le soutien de projets d’infrastructure qui contribuent à bâtir des collectivités durables, inclusives et résilientes face aux changements climatiques. Les programmes de subventions et de contributions (S et C) du ministère nécessitent des prévisions financières détaillées et pluriannuelles afin d’assurer une répartition efficace des fonds publics. Toutefois, la nature imprévisible des projets d’infrastructure conduit souvent à des estimations de flux de trésorerie surestimées, ce qui donne lieu à des fonds non dépensés et des inefficacités budgétaires. Alors que les programmes de S et C de LICC continuent de croître, le besoin d’une solution de prévision évolutive et fondée sur les données est devenu de plus en plus évident.

Pour relever ces défis, LICC a mis en œuvre un modèle de prévision fondé sur l’apprentissage automatique (AA) en mai 2024. Cet outil novateur s’appuie sur des analyses avancées pour améliorer les prévisions des dépenses, renforcer la précision de la planification financière et optimiser l’allocation budgétaire. En intégrant ce modèle à l’ensemble des outils de prévision existants de LICC, le ministère vise à réduire les inefficacités, à appuyer la prise de décisions fondée sur les données et à renforcer sa capacité à financer des initiatives d’infrastructure essentielles.

Le présent article porte sur l’élaboration et la mise en œuvre du modèle de prévision des dépenses en S et C basé sur l’AA. Il débute par un aperçu du contexte et des objectifs du projet, suivi du développement technique du modèle et de son intégration dans les processus de prévision financière de LICC. Les résultats obtenus et leur incidence sur la planification financière sont ensuite analysés. L’article se termine par des recommandations d’améliorations futures et d’applications potentielles du modèle.

2. Contexte du modèle de prévision par apprentissage automatique

2.1. Contexte et évolution des initiatives

Au cours des exercices financiers 2016-2017 et 2017-2018, environ 64 % des autorisations prévues de Logement, Infrastructures et Collectivités Canada (LICC) en matière de subventions et de contributions (S et C) sont arrivés à expiration, ce qui a entraîné une demande des organismes centraux de la prévisibilité du profil financier des programmes d’infrastructure. En réponse à cette situation, LICC a entrepris plusieurs initiatives :

  • 2019-2020 : Création d’une équipe ministérielle spéciale chargée d’examiner tous les aspects de la gestion du financement sous forme de contributions, afin de mieux harmoniser les crédits avec les dépenses réelles.
  • 2020-2022 : Mise en place d’un centre d’expertise en subventions et contributions (CES et C) doté de compétences axées sur les finances pour remédier à ces enjeux.

2.2. Défis des prévisions actuelles en matière de subventions et de contributions

Depuis sa création, le CES et C a élaboré une série de méthodes et de processus de prévision qui ont contribué à réduire le financement sous forme de contributions et de subventions inutilisées à l’échelle du ministère. Toutefois, ces méthodes ont engendré une charge de travail importante pour les conseillers en gestion financière (CGF), en raison du manque de normalisation entre les différents programmes et de la complexité liée à la production de prévisions précises.

2.3. Objectif et finalité du modèle

Pour combler ces lacunes, les partenaires du centre d’expertise en subventions et contributions collaborent avec le Bureau du dirigeant principal des données afin d’étudier une approche fondée sur les données, laquelle pourrait compléter et renforcer l’ensemble existant de méthodes de prévision de LICC. Cette approche vise à fournir une base plus fiable pour les prévisions des CGF, tout en allégeant leur charge de travail.

L’objectif principal du modèle d’apprentissage automatique est d’améliorer les prévisions des S et C à LICC, en mettant au point un outil automatisé fondé sur les données historiques de S et C. Ce modèle est conçu pour s’adapter aux programmes actuels et futurs, améliorant ainsi l’efficacité globale du processus de prévision pluriannuelle des S et C au sein du ministère.

3. Élaboration et mise en œuvre du modèle de prévision par apprentissage automatique

La présente section porte sur l’élaboration du modèle de prévision par apprentissage automatique (AA), depuis ses sources de données jusqu’à l’outil interactif définitif. Elle fournit des prévisions sur la façon dont le modèle a été conçu, intégré et déployé pour fournir aux CGF des renseignements en temps réel.

Figure 1:  Data Pipeline
Figure 1 : Pipeline des données (en anglais seulement)

L’image illustre un pipeline de données : le Système de gestion de l’information sur les programmes stocke les données brutes et historiques, qui sont extraites, nettoyées et prétraitées en Python avant d’être transférées vers Azure. La plateforme de données unifiée gère l’entraînement du modèle, son déploiement ainsi que le stockage des données traitées. Enfin, Power BI se connecte à la base de données pour visualiser les résultats.

3.1. Sources de données

La première étape de l’élaboration du modèle de prévision par apprentissage automatique a consisté à extraire les données du Système de gestion de l’information sur les programmes (PIMS) de LICC, comme l’illustre la figure 1 – Pipeline de données. Le PIMS fournissait des renseignements détaillés sur le financement et les dépenses des programmes à trois niveaux : les programmes, les ententes de contribution et les projets. Les variables clés comprenaient ce qui suit :

Variable Définition Données-échantillons
Numéro d’identification du projet Identifiant unique pour chaque projet 13176
Numéro d’identification de l’entente de contribution Identifiant unique liant le projet à une entente de financement précise 2
Exercice financier Exercice financier associé aux dépenses et flux de trésorerie du projet 2007-2008
Flux de trésorerie du projet Rentrée ou sortie de fonds prévue ou réelle pour le projet 500 000
Dépenses du projet Montant dépensé pour le projet durant une période donnée 500 000
Montant total par entente de contribution Budget total alloué dans le cadre d’une entente précise 2 000 000
Montant total par contribution au programme Financement global attribué au programme concernant plusieurs ententes 2 000 000
Statut du projet Indique l’état actuel du projet (p. ex. actif, terminé, en attente) Terminé

3.2 Prétraitement des données

3.2.1. Nettoyage et transformation

Le processus de nettoyage des données a débuté par l’identification et la suppression des entrées vides qui ne concernaient pas le modèle de prévision financière. L’ensemble de données définitif ne comprenait que les projets ayant les statuts « fermé », « terminé » et « en cours de mise en œuvre », garantissant ainsi une évaluation complète à toutes les étapes du cycle de vie des projets, ce qui a renforcé la robustesse et l’adaptabilité du modèle.

Ensuite, des manipulations ont été effectuées afin de générer des variables clés comme les dépenses moyennes, les dépenses antérieures, les montants restants et les valeurs des ententes de contribution. Un processus de désagrégation a enfin permis d’uniformiser les données à un niveau de granularité cohérent. Initialement structurées à plusieurs niveaux — projet, entente de contribution et programme — les données ont finalement été consolidées au niveau du projet afin de correspondre au cadre analytique du modèle de prévision.

Pour améliorer la capacité du modèle à cerner les contraintes financières et à surveiller les plafonds de dépenses, plusieurs variables dérivées ont été créées à partir des variables existantes. Ces variables comprennent le montant total du projet, le montant cumulatif du projet, les dépenses cumulatives antérieures, les dépenses récentes, la durée de vie du projet, la moyenne des dépenses précédentes, les fonds restants et les fonds restants au début de chaque exercice financier. En intégrant ces variables, on a enrichi l’ensemble de données d’analyses financières supplémentaires, ce qui a permis d’assurer une représentation plus précise des dynamiques de dépenses des projets.

Nouvelles variables Définition
Montant total du projet Le budget total alloué à un projet pour toute sa durée. Il s’agit de la somme de toutes les dépenses prévues pour le projet.
Montant cumulatif du projet Le montant total dépensé pour le projet depuis son lancement jusqu’à l’exercice financier en cours. Cela permet de suivre le pourcentage du budget déjà utilisé.
Dépenses cumulatives précédentes La somme des dépenses de tous les exercices précédents avant l’exercice en cours. Cette variable exclut les dépenses de l’année en cours, mais fournit un contexte financier historique.
Dépenses récentes Les dépenses de l’exercice financier le plus récent, ce qui reflète les tendances de dépenses actuelles.
Cycle de vie du projet Le nombre total d’années pendant lesquelles le projet est censé être actif, de son année de début à son achèvement prévu.
Dépenses moyennes précédentes Le montant moyen dépensé par année lors des exercices précédents. Ce montant est calculé comme suit : dépenses cumulatives précédentes / (année en cours-année de début).
Fonds restants Le budget total du projet moins les dépenses cumulatives. Cela représente les fonds encore disponibles pour les années futures.
Fonds restants au début de chaque exercice financier Le montant d’argent non dépensé au début d’un nouvel exercice financier, avant que de nouvelles dépenses ne soient effectuées.
Montant Une variable dérivée utilisée pour améliorer la précision des prévisions. Étant donné que les dépenses futures sont initialement de 0, le modèle a tendance à prédire des valeurs irréalistes. La variable Montant remplace les dépenses futures manquantes par les flux de trésorerie prévus (décaissements futurs prévus), tout en conservant les dépenses antérieures inchangées.

3.2.2. Segmentation

Une fois l’ensemble de données nettoyé et transformé, l’étape suivante a consisté à analyser la distribution des dépenses de projet afin d’orienter la méthodologie de modélisation. Comme l’illustre la figure 2 – Distribution des montants des projets, l’ensemble de données présentait une forte hétérogénéité : 95 % des projets ne représentaient que 5 % de la contribution financière totale du ministère, tandis que les 5 % restants représentaient 95 % des dépenses.

Figure 2: Project Amount Distribution
Figure 2 : Distribution des montants des projets (en anglais seulement)

Le nuage de points illustre la relation entre le coût total des projets et le nombre de projets. La majorité des points est regroupée vers le bas de l’échelle des coûts, ce qui signifie que de nombreux projets ont un coût total relativement faible. Cependant, quelques points s’étendent loin vers la droite, indiquant que certains projets ont des coûts très élevés. Cela crée une distribution asymétrique vers la droite, où la majorité des projets se situent dans la tranche des faibles coûts, mais un petit nombre de projets à coût élevé allongent la distribution.

Compte tenu des disparités importantes dans les dépenses de projets, nos collègues des finances ont initialement recommandé une approche de segmentation. Leur classification manuelle reposait sur les montants des projets afin de tenir compte de ce déséquilibre. Pour affiner cette approche, nous avons étudié une méthodologie de segmentation plus avancée. Plutôt que de segmenter selon le montant du projet, notre analyse a montré que la durée du projet offrait une meilleure différenciation. En effet, lors de la comparaison des résultats, la durée du projet a permis d’obtenir une plus grande homogénéité au sein des groupes, ce qui a donné lieu à des segmentations plus cohérentes et à une meilleure performance prédictive. Au cours de la phase d’élaboration, le passage du critère de segmentation du coût total du projet à la durée du projet a permis de réduire l’erreur absolue moyenne (EAM) du modèle de forêt aléatoire d’au moins 300 000. Cette première catégorisation des projets en importance relative élevée (> 5 ans) et en importance relative faible (< 5 ans) a entraîné une amélioration mesurable de la performance du modèle.

3.2.3. Analyse en composantes principales

Pour traiter la multicolinéarité entre les variables clés, nous avons intégré une analyse en composantes principales (ACP). Une analyse du facteur d’inflation de la variance a révélé une forte colinéarité, comme l’illustre la figure 3, notamment entre les variables financières comme le montant total du projet, le montant cumulé du projet et les fonds restants. Cette redondance présentait un risque de distorsion des prédictions, en particulier pour les programmes de grande envergure comme le Programme d’infrastructure Investir dans le CanadaNote de bas de page 1.

Figure 3: Correlation Matrix – overview of multicollinearity among variables
Figure 3 : Matrice de corrélation : aperçu de la multicolinéarité entre les variables (en anglais seulement)

La matrice de corrélation fournit un aperçu des relations entre toutes les variables du modèle. Chaque cellule représente le coefficient de corrélation entre deux variables, allant de -1 (forte corrélation négative) à 1 (forte corrélation positive). Les variables fortement corrélées indiquent une redondance potentielle, tandis qu’une corrélation faible ou inexistante indique des variables indépendantes. Les valeurs diagonales sont toujours égales à 1, car chaque variable est parfaitement corrélée avec elle-même. Cette matrice aide à identifier la multicolinéarité, à sélectionner les variables les plus pertinentes et à comprendre les interactions entre les variables de l’ensemble de données.

En appliquant l’ACP, nous avons transformé les variables d’origine en composantes orthogonales, ce qui rend bien compte de la variance maximale dans un espace de dimension réduite. L’analyse de la variance expliquée a montré que cinq composantes conservaient environ 90 % de la variance totale, préservant ainsi la majeure partie de l’information de l’ensemble de données tout en réduisant la dimensionnalité. Ce compromis permet d’atténuer la multicolinéarité tout en maintenant le pouvoir prédictif des variables clés.

Figure 4:  Variance by number of component
Figure 4 : Variance selon le nombre de composantes (en anglais seulement)

Le graphique illustre la variance expliquée en fonction du nombre de composantes principales (CP). La courbe montre une forte augmentation initiale, indiquant que les premières composantes saisissent la majorité de la variance de l’ensemble de données. Dotée de cinq composantes principales, la variance expliquée cumulée atteint 90 %, ce qui sous-entend que ces composantes conservent l’essentiel de l’information tout en réduisant la dimensionnalité. Au-delà de ce point, les composantes supplémentaires n’apportent qu’une contribution marginale à la variance totale, soulignant l’efficacité de l’utilisation de cinq CP pour représenter les données.

L’ACP a été utilisée pour réduire la multicolinéarité parmi les variables financières tout en préservant les caractéristiques les plus informatives. La figure 5 : Résultats de l’analyse en composantes principales illustre les charges de cette méthode, qui représentent la force avec laquelle chaque variable d’origine contribue à une composante principale donnée.

Figure 5: PCA results
Figure 5: Résultats de l’analyse en composantes principales (en anglais seulement)

La carte thermique des charges de l’analyse en composantes principales représente visuellement la contribution de chaque variable d’origine aux composantes principales, mettant en évidence les dimensions clés des dépenses de projet. Chaque composante principale a été dérivée pour refléter un aspect financier distinct des projets. Le financement et l’échelle du projet sont principalement influencés par le montant total de la contribution au programme, le montant total du projet et le montant cumulé du projet, ce qui rend compte de la portée financière globale. Les ressources restantes donnent une bonne représentation des fonds non dépensés, dominés par des variables liées aux valeurs budgétaires restantes. Les ressources initiales sont axées sur l’enveloppe financière initiale : elles ont des contributions modérées provenant des contributions totales au programme et des montants totaux du projet. La durée du projet est fortement associée à la durée de vie du projet, indiquant son rôle dans la prise en compte des aspects temporels. Enfin, les contributions au cycle de vie représentent les tendances historiques des dépenses grâce à des variables comme le montant cumulé du projet, les dépenses précédentes et les dépenses moyennes antérieures. Cette approche de réduction de la dimensionnalité atténue la multicolinéarité, ce qui garantit la stabilité du modèle tout en conservant le pouvoir explicatif des prédicteurs financiers.

Pour améliorer l’interprétabilité, les composantes principales ont été renommées en fonction de leurs charges dominantes.

  • Composante principale 1 : Financement et échelle du projet – Cette composante est influencée par le montant total de la contribution au programme (TOTAL_PROGRAM_CONTRIBUTION_AMT [0,41]), le montant total du projet (project_total_amount [0,41]) et le montant cumulatif du projet (cumulative_project_amount) [0,37]. Elle représente la portée financière globale d’un projet, en mettant l’accent sur le financement total disponible.
  • Composante principale 2 : Ressources restantes – Cette composante représente la disponibilité des fonds non dépensés, principalement déterminée par les fonds restants (Remaining [0,46]) et les fonds restants au début de l’exercice (Remaining_start_year [0,41]). Elle indique que des fonds sont encore accessibles pour les projets en cours.
  • Composante principale 3 : Ressources initiales – Cette composante est relativement influencée par le montant total de la contribution au programme (TOTAL_PROGRAM_CONTRIBUTION_AMT [0,21]), le montant total du projet (project_total_amount [0,10]) et le montant cumulatif du projet (cumulative_project_amount [0,04]), ce qui sous-entend qu’elle est liée à l’allocation initiale des ressources financières au début d’un projet.
  • Composante principale 4 : Durée du projet – Cette composante est fortement corrélée avec la durée de vie du projet (project_lifetime [0,70]), indiquant qu’elle prend en compte la longévité du projet et son lien avec les tendances de dépenses antérieures.
  • Composante principale 5 : Contributions au cycle de vie – Cette composante représente l’équilibre financier tout au long du cycle de vie d’un projet, la durée de vie du projet (project_lifetime [0,61]) et les dépenses antérieures (previous_spend [0,26]) constituant une contribution importante.

En intégrant l’ACP dans notre pipeline de modélisation, nous avons efficacement résolu les problèmes de colinéarité présents dans l’ensemble de données d’origine, tout en améliorant la stabilité et l’interprétabilité du modèle.

L’analyse a également fait ressortir un point important : si la majorité de la variance n’est pas prise en compte dans un petit nombre de composantes, cela peut indiquer une structure de données complexe ou des relations non linéaires. Dans ce cas, des méthodes comme l’ACP à noyaux, la méthode t-SNE ou la méthode UMAP pourraient être plus adaptées. Cependant, puisque L’ACP à cinq composantes permet de conserver 90 % de la variance, elle reste un choix pertinent pour la réduction de la dimensionnalité dans ce contexte. De futurs travaux pourraient porter sur des méthodes d’encodage non linéaires pour déterminer si une autre approche pourrait offrir de meilleures performances.

4. Élaboration du modèle de prévision par apprentissage automatique pour les subventions et les contributions

Une fois la phase de prétraitement terminée, l’étape suivante a consisté à construire un modèle de prévision robuste. Cela a supposé la sélection d’un algorithme approprié, l’ajustement des hyperparamètres et l’évaluation des performances afin de garantir une précision adaptée à des projets de tailles variées. Étant donné la complexité des données financières, notre approche a mis l’accent sur l’interprétabilité, la stabilité et l’harmonisation avec les besoins opérationnels.

4.1. Ensemble de données définitif

Variable Définition Données-échantillons
Numéro d’identification du projet Identifiant unique attribué à chaque projet. 13176
Numéro d’identification de l’entente de contribution Identifiant unique liant le projet à une entente de financement précise. 2
Exercice financier Exercice financier associé aux dépenses et aux flux de trésorerie du projet. 2007-2008
Flux de trésorerie du projet Flux de trésorerie projeté ou réel (rentrées et sorties) du projet. 500 000
Dépenses du projet Montant dépensé pour le projet au cours d’une période donnée. 500 000
Montant total par entente de contribution Budget total alloué dans le cadre d’une entente précise. 2 000 000
Statut du projet État actuel du projet (p. ex. actif, terminé, en attente). Terminé
Montant Variable dérivée utilisée pour améliorer la précision des prévisions. Variable cible. 500 000
Composante principale 1 Financement et échelle du projet : représente la portée financière globale du projet, en mettant l’accent sur le financement total disponible. -0.68
Composante principale 2 Ressources restantes : indique que des fonds sont encore accessibles pour les projets en cours. 0.97
Composante principale 3 Ressources initiales : relatif à l’allocation initiale des ressources financières au début du projet. -1.34
Composante principale 4 Durée du projet : reflète la longévité du projet et son lien avec les tendances de dépenses antérieures. -0.19
Composante principale 5 Contributions au cycle de vie : représente l’équilibre financier tout au long du cycle de vie du projet, la durée de vie et les dépenses antérieures constituant un apport important. -0.08

Remarque : Étant donné que la segmentation faisait partie des scénarios de test, nous avons initialement conservé deux ensembles de données distincts (df_matérialité_élevée et df_matérialité_faible [df_high and df_low]) en regroupant les projets en fonction de leur seuil d’importance relative (matérialité).

4.2. Entraînement du modèle

L’ensemble de données a été structuré sous forme de série chronologique, couvrant les exercices financiers de 2003-2004 à 2023-2024. Il a été divisé en un ensemble d’entraînement (75 %) et un ensemble de tests (25 %), en veillant à utiliser les données antérieures pour prévoir les dépenses à venir. Une fois entraîné, le modèle a été utilisé pour prédire les dépenses de l’exercice financier en cours (2024-2025) pour réaliser des projections pour les trois années suivantes. Le processus d’entraînement était itératif, ce qui a permis de peaufiner les modèles pour optimiser les performances tout en maintenant leur stabilité.

4.3. Comparaison des modèles

Plusieurs modèles ont été évalués, notamment le modèle de forêt aléatoire, l’amplification du gradient (Gradient Boosting) et l’arbre de décision à gradient amplifié extrême (XGBoost), en fonction de leur précision prédictive et de leur capacité à bien rendre compte des schémas présents dans les données financières. Étant donné que les dépenses suivent une évolution séquentielle dans le temps, les modèles devaient prendre en compte les dépendances temporelles et les tendances sous-jacentes.

Chaque modèle présente des caractéristiques distinctes :

  • Laforêt aléatoire, une méthode d’ensemble, a permis de représenter efficacement des interactions complexes, ce qui en fait un bon candidat pour la prévision financière.
  • L’amplification du gradient a permis d’affiner les prédictions grâce à un apprentissage itératif, améliorant ainsi la précision.
  • L’arbre de décision à gradient amplifié extrême, une version optimisée de l’amplification du gradient, a offert une précision accrue tout en limitant le surapprentissage.

Les performances des modèles ont été évaluées à l’aide de deux mesures clés :

  • R² (coefficient de détermination) : mesure dans quelle mesure le modèle explique la variance des dépenses.
  • EAM (erreur absolue moyenne) : quantifie l’erreur moyenne de prédiction, fournissant une mesure claire de la précision financière.

4.4. Évaluation des performances du modèle

La section qui suit présente les mesures utilisées pour comparer les différents modèles. L’objectif était de trouver un équilibre entre précision prédictive, stabilité et interprétabilité, tout en tenant compte de la complexité des données financières.

Scénarios Caractéristiques Meilleure performance du modèle (mesures)
Scénario 1
  • Sans segmentation
  • Analyse en composantes principales (ACP)
Forêt aléatoire (EAM : 137 570 ; R² : 93 %)
Surapprentissage
Scénario 2
  • Sans segmentation
  • ACP
  • Limite des valeurs aberrantes
Forêt aléatoire (EAM : 852 243 ; R² : 36 %)
Scénario 3
  • Sans segmentation
  • ACP
  • Limite des valeurs aberrantes
  • estimateurs n = 100, profondeur maximale = 10, nombre minimal d’échantillons par feuille = 5, état aléatoire = 42
Forêt aléatoire (EAM : 888 558 ; R² : 37 %)
Scénario 4
  • Sans segmentation
  • ACP
  • Limite des valeurs aberrantes
  • Pondération pour les années plus récentes
  • estimateurs n = 100, profondeur maximale = 10, nombre minimal d’échantillons par feuille = 5, état aléatoire = 42
Forêt aléatoire (EAM : 888 526 ; R² : 81 %)
Scénario 5
  • Sans segmentation
  • ACP
  • Limite des valeurs aberrantes
  • Optimisation automatique des hyperparamètres
Forêt aléatoire (EAM : 758 012 ; R² : 40 %)

4.5. Évaluation de la performance du modèle – Éléments à prendre en considération

Afin d’optimiser la performance du modèle, plusieurs découpages d’ensembles de données ont été évalués, notamment des séparations de 25 % à 30 % ainsi que des découpages automatisés. Chaque scénario a été testé pour analyser la façon dont les différentes partitions des données d’entraînement et d’essais influaient sur la précision et la généralisabilité du modèle. L’approche de découpage automatisé a également été envisagée afin de garantir la robustesse du modèle face à divers types de partitionnement. Cette vérification exhaustive a permis de déterminer la configuration de découpage la plus efficace pour améliorer les capacités prédictives du modèle.

Après optimisation du découpage, nous avons évalué l’incidence de la segmentation et de l’ACP sur les performances du modèle. Bien que la segmentation ait été initialement prévue pour améliorer la précision, les tests ont démontré que la supprimer tout en conservant l’ACP permettait d’obtenir des prévisions plus stables et plus précises. Au départ, la segmentation avait conduit à la création de deux ensembles de données distincts, regroupant les projets selon des critères prédéfinis. Cependant, une analyse plus poussée a révélé qu’un ensemble de données unifié offrait une meilleure cohérence, facilitait la mise en œuvre du modèle et améliorait l’extensibilité. Cette découverte a mis en évidence l’efficacité de la réduction de la dimension pour saisir les principales tendances tout en minimisant le bruit. Par conséquent, la priorité a été accordée à l’ACP comme technique principale pour gérer la complexité des données et garantir un modèle de prévision plus robuste et généralisable.

Enfin, nous avons effectué un réglage des hyperparamètres à la fois manuellement et par optimisation automatique. Toutefois, ce réglage n’a pas toujours donné lieu à des améliorations importantes. Par exemple, un modèle de forêt aléatoire optimisé a permis d’obtenir une EAM légèrement inférieure (811 547) et un R² supérieur (39 %), mais ce gain marginal ne justifiait pas la complexité supplémentaire. Dans certains cas, le réglage des hyperparamètres a même introduit un surapprentissage, renforçant ainsi la fiabilité de la configuration par défaut plus simple.

4.6. Meilleurs Résultats du modèle

Notre analyse a révélé que le modèle de forêt aléatoire dominait systématiquement les autres en équilibrant précision prédictive et cohérence avec les prévisions financières. Parmi les configurations testées, le meilleur modèle était le modèle de forêt aléatoire (EAM : 852 243, R² : 36 %), lequel a permis d’estimer les dépenses à 4,8 milliards pour 2024-2025 et à 5,2 milliards pour 2025-2026, ce qui le rendait le plus proche des prévisions du centre d’expertise en subventions et contributions. La formule utilisée pour calculer la précision est la suivante :

Figure 6: Accuracy computation
Figure 6 : Calcul de la précision du modèle (en anglais seulement)

Le modèle d’apprentissage automatique a démontré un taux de précision de 94,98 % pour l’exercice financier 2021-2022 et de 99,20 % pour l’exercice 2022-2023. Ce niveau de précision est prometteur et a conduit à l’adoption des modèles par les conseillers en gestion financière dans le cadre de leur processus de prévision des dépenses pour les exercices financiers 2024-2025 à 2026-2027.

4.7. Limites du modèle de prévision par apprentissage automatique

Malgré des résultats prometteurs, le modèle de prévision basé sur l’apprentissage automatique (AA) présente plusieurs limites qui doivent être prises en compte. Les programmes sans enregistrements de projet dans le système ne peuvent pas être modélisés, car le modèle doit connaître l’existence d’un projet pour générer une prévision. De plus, le modèle a été conçu pour prévoir les demandes de remboursement dans le cadre des programmes à exécution directe. Il est donc moins précis lorsqu’il s’agit d’autres types de paiements, comme les subventions, les avances ou les paiements basés sur des jalons. Le modèle donne également des résultats moins précis pour les programmes de subventions et de contributions (S et C) fondés sur l’allocation ou le transfert. Enfin, la précision du modèle diminue pour ce qui est des projets individuels, lesquels peuvent présenter des comportements de dépenses atypiques.

Ces limites signifient que le modèle donne actuellement les meilleurs résultats pour les programmes à exécution directe comptant 30 projets actifs ou plus dans le système et pour lesquels la majorité des demandes sont basées sur des remboursements.

5. Résultats pour les opérations

5.1. Façon de mettre l’apprentissage automatique à la disposition des équipes opérationnelles

Pour améliorer l’interprétation des résultats du modèle, les dépenses prévues ont été intégrées dans un tableau de bord existant utilisé par les conseillers en gestion financière (CGF) (figure 7). Ce tableau de bord présente visuellement les tendances de dépenses, ce qui permet de comparer les dépenses réelles, les prévisions générées manuellement par les CGF et celles du modèle d’apprentissage automatique (AA).

Figure 7: PowerBI Results Visualization
Figure 7 : Visualisation des résultats dans PowerBI (en anglais seulement)

Cette capture d’écran est présentée à titre illustratif uniquement et ne contient pas de données réelles de Logement, Infrastructures, et Collectivités Canada. Elle montre un graphique en courbes où la ligne orange représente les dépenses, la ligne bleue représente les flux de trésorerie, et la ligne verte représente les prévisions du modèle de forêt aléatoire, ce qui facilite la visualisation des tendances historiques et des projections futures. Sous le graphique, un tableau de données fournit des précisions à l’échelle des projets, ce qui permet une analyse plus approfondie. À gauche, un panneau de filtres permet aux CFG d’affiner leur recherche en sélectionnant des critères précis, ce qui garantit une présentation ciblée et personnalisée des données. Le graphique et le tableau s’ajustent de façon dynamique en fonction de ces filtres, améliorant ainsi l’utilisabilité et la génération de renseignements.

Le tableau de bord interactif comprend également des fonctionnalités de rapports personnalisés, ce qui permet aux utilisateurs d’adapter leur affichage en sélectionnant des critères précis, comme la province, le programme ou l’exercice financier. Cette flexibilité garantit que les utilisateurs peuvent adapter l’exploration des données à leurs besoins d’analyse particuliers. De plus, la nature interactive de la visualisation permet aux utilisateurs de survoler un point de la courbe pour afficher les valeurs exactes de chaque exercice, offrant une exploration des données plus intuitive et détaillée. Cette combinaison de rapports dynamiques et de visualisations interactives permet une analyse approfondie et facilite la prise de décisions basées sur les résultats du modèle d’AA.

5.2. Répercussions sur les activités

Le modèle d’AA a été mis en œuvre en mai 2024 pour prévoir les dépenses des programmes de subventions et de contributions (S et C) pour les exercices 2024-2025 à 2027-2028. Il a généré des prévisions pluriannuelles pour neuf des programmes de S et C du ministère, ce qui représente environ 80 % du financement total de ces programmes. La précision du modèle sera évaluée en avril 2025 et en avril 2026, à la fin des exercices 2024-2025 et 2025-2026, respectivement.

La mise en œuvre du modèle a permis de rationaliser le processus de prévision, réduisant le temps requis de trois mois à un mois. Cela a été rendu possible en fournissant aux CGF une prévision de référence, générée par le modèle d’AA, ce qui a facilité les discussions avec leurs programmes respectifs et permis d’harmoniser les attentes avant le processus de collecte des flux de trésorerie des bénéficiaires.

De plus, le tableau de bord intégré soutient les discussions continues avec les parties prenantes en s’appuyant sur des données à jour dans le cadre de la préparation des rapports réguliers du ministère.

6. Conclusion et prochaines étapes

En conclusion, la présente étude met en évidence le potentiel considérable de la mise en œuvre d’un modèle de prévision basé sur l’AA dans le cadre de la prédiction des dépenses pour les programmes de S et C de Logement, Infrastructures, et Collectivités Canada. Le modèle démontre un haut niveau de précision lorsqu’il est comparé aux dépenses historiques et est actuellement mis à l’essai par rapport aux dépenses réelles au cours des deux prochaines années, dans l’espoir d’optimiser le financement des subventions et des contributions, de réduire les crédits inutilisés dans les comptes publics et de rationaliser les processus financiers. Malgré les défis et les limites évoqués, les résultats globaux sont prometteurs quant à l’amélioration de la prise de décision financière et de l’efficacité opérationnelle.

Le succès de cette initiative a été officiellement reconnu en décembre 2024, lorsque le projet a reçu le prix de l’innovation 2024 du contrôleur général, soulignant son incidence considérable sur la gestion financière. Depuis, le modèle a suscité l’intérêt de plusieurs ministères, ce qui a donné lieu à des consultations en vue de son application à plus grande échelle. Les efforts continus en vue de promouvoir son adoption témoignent d’une reconnaissance croissante du potentiel des solutions basées sur l’AA pour améliorer les prévisions financières et l’allocation des ressources dans le secteur public.

En outre, le projet a été présélectionné pour l’édition 2025-2026 du Défi des données de la fonction publique. Cette reconnaissance met en lumière l’intérêt croissant de plusieurs ministères pour l’adoption de cet outil de prévision basé sur l’AA. Les efforts constants pour favoriser son adoption soulignent la reconnaissance croissante du potentiel des solutions d’apprentissage automatique pour améliorer les prévisions financières et optimiser l’allocation des ressources dans le secteur public.

Meet the Data Scientist

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontrez les scientifiques des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à l'événement Rencontrez les scientifiques des données.  À bientôt!

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.