Application des algorithmes de forêts aléatoires pour améliorer les prévisions de dépenses dans les programmes de subventions et de contributions gouvernementales
Par Pierre Zwiller-Panicz, Margarita Novikova, Kirsten Gaudreau, Matthew Paslawski
Sommaire
La présente étude vise à élaborer et à mettre en œuvre un modèle d’apprentissage automatique pour prévoir les dépenses dans les programmes de subventions et de contributions de Logement, Infrastructures et Collectivités Canada, en étant axée sur les demandes de remboursement. Une analyse comparative des algorithmes a permis de déterminer que la forêt aléatoire était la plus performante, celle-ci aboutissant à un R au carré (R²) de 39 %. Intégré à un tableau de bord Power BI, le modèle permet une analyse des dépenses en temps réel, une visualisation des tendances et une comparaison entre les prévisions et les dépenses réelles. Sa mise en œuvre a réduit le temps de prévision de trois mois à un seul, ce qui a permis d’améliorer la planification financière et l’engagement des parties prenantes.
Le modèle a eu une incidence opérationnelle considérable, en facilitant les discussions entre les conseillers en gestion financière et les responsables de programmes, tout en fournissant des données en temps réel favorisant une meilleure prise de décision. Bien que son applicabilité soit limitée aux programmes comportant des projets établis et qu’il donne de moins bons résultats pour les programmes à base de répartition, il s’est avéré très efficace pour les demandes de remboursement comptant 30 projets actifs ou plus.
Fort de ce succès, le modèle constitue une avancée précieuse dans le domaine de la prévision financière. Sa mise en œuvre ouvre la voie à d’autres améliorations, ce qui favorise une adoption plus large et des améliorations continues en matière d’exactitude prédictive et d’applicabilité des programmes.
1. Introduction
Logement, Infrastructures et Collectivités Canada (LICC) joue un rôle essentiel dans le financement et le soutien de projets d’infrastructure qui contribuent à bâtir des collectivités durables, inclusives et résilientes face aux changements climatiques. Les programmes de subventions et de contributions (S et C) du ministère nécessitent des prévisions financières détaillées et pluriannuelles afin d’assurer une répartition efficace des fonds publics. Toutefois, la nature imprévisible des projets d’infrastructure conduit souvent à des estimations de flux de trésorerie surestimées, ce qui donne lieu à des fonds non dépensés et des inefficacités budgétaires. Alors que les programmes de S et C de LICC continuent de croître, le besoin d’une solution de prévision évolutive et fondée sur les données est devenu de plus en plus évident.
Pour relever ces défis, LICC a mis en œuvre un modèle de prévision fondé sur l’apprentissage automatique (AA) en mai 2024. Cet outil novateur s’appuie sur des analyses avancées pour améliorer les prévisions des dépenses, renforcer la précision de la planification financière et optimiser l’allocation budgétaire. En intégrant ce modèle à l’ensemble des outils de prévision existants de LICC, le ministère vise à réduire les inefficacités, à appuyer la prise de décisions fondée sur les données et à renforcer sa capacité à financer des initiatives d’infrastructure essentielles.
Le présent article porte sur l’élaboration et la mise en œuvre du modèle de prévision des dépenses en S et C basé sur l’AA. Il débute par un aperçu du contexte et des objectifs du projet, suivi du développement technique du modèle et de son intégration dans les processus de prévision financière de LICC. Les résultats obtenus et leur incidence sur la planification financière sont ensuite analysés. L’article se termine par des recommandations d’améliorations futures et d’applications potentielles du modèle.
2. Contexte du modèle de prévision par apprentissage automatique
2.1. Contexte et évolution des initiatives
Au cours des exercices financiers 2016-2017 et 2017-2018, environ 64 % des autorisations prévues de Logement, Infrastructures et Collectivités Canada (LICC) en matière de subventions et de contributions (S et C) sont arrivés à expiration, ce qui a entraîné une demande des organismes centraux de la prévisibilité du profil financier des programmes d’infrastructure. En réponse à cette situation, LICC a entrepris plusieurs initiatives :
- 2019-2020 : Création d’une équipe ministérielle spéciale chargée d’examiner tous les aspects de la gestion du financement sous forme de contributions, afin de mieux harmoniser les crédits avec les dépenses réelles.
- 2020-2022 : Mise en place d’un centre d’expertise en subventions et contributions (CES et C) doté de compétences axées sur les finances pour remédier à ces enjeux.
2.2. Défis des prévisions actuelles en matière de subventions et de contributions
Depuis sa création, le CES et C a élaboré une série de méthodes et de processus de prévision qui ont contribué à réduire le financement sous forme de contributions et de subventions inutilisées à l’échelle du ministère. Toutefois, ces méthodes ont engendré une charge de travail importante pour les conseillers en gestion financière (CGF), en raison du manque de normalisation entre les différents programmes et de la complexité liée à la production de prévisions précises.
2.3. Objectif et finalité du modèle
Pour combler ces lacunes, les partenaires du centre d’expertise en subventions et contributions collaborent avec le Bureau du dirigeant principal des données afin d’étudier une approche fondée sur les données, laquelle pourrait compléter et renforcer l’ensemble existant de méthodes de prévision de LICC. Cette approche vise à fournir une base plus fiable pour les prévisions des CGF, tout en allégeant leur charge de travail.
L’objectif principal du modèle d’apprentissage automatique est d’améliorer les prévisions des S et C à LICC, en mettant au point un outil automatisé fondé sur les données historiques de S et C. Ce modèle est conçu pour s’adapter aux programmes actuels et futurs, améliorant ainsi l’efficacité globale du processus de prévision pluriannuelle des S et C au sein du ministère.
3. Élaboration et mise en œuvre du modèle de prévision par apprentissage automatique
La présente section porte sur l’élaboration du modèle de prévision par apprentissage automatique (AA), depuis ses sources de données jusqu’à l’outil interactif définitif. Elle fournit des prévisions sur la façon dont le modèle a été conçu, intégré et déployé pour fournir aux CGF des renseignements en temps réel.

Figure 1 : Pipeline des données (en anglais seulement)
L’image illustre un pipeline de données : le Système de gestion de l’information sur les programmes stocke les données brutes et historiques, qui sont extraites, nettoyées et prétraitées en Python avant d’être transférées vers Azure. La plateforme de données unifiée gère l’entraînement du modèle, son déploiement ainsi que le stockage des données traitées. Enfin, Power BI se connecte à la base de données pour visualiser les résultats.
3.1. Sources de données
La première étape de l’élaboration du modèle de prévision par apprentissage automatique a consisté à extraire les données du Système de gestion de l’information sur les programmes (PIMS) de LICC, comme l’illustre la figure 1 – Pipeline de données. Le PIMS fournissait des renseignements détaillés sur le financement et les dépenses des programmes à trois niveaux : les programmes, les ententes de contribution et les projets. Les variables clés comprenaient ce qui suit :
Variable | Définition | Données-échantillons |
---|---|---|
Numéro d’identification du projet | Identifiant unique pour chaque projet | 13176 |
Numéro d’identification de l’entente de contribution | Identifiant unique liant le projet à une entente de financement précise | 2 |
Exercice financier | Exercice financier associé aux dépenses et flux de trésorerie du projet | 2007-2008 |
Flux de trésorerie du projet | Rentrée ou sortie de fonds prévue ou réelle pour le projet | 500 000 |
Dépenses du projet | Montant dépensé pour le projet durant une période donnée | 500 000 |
Montant total par entente de contribution | Budget total alloué dans le cadre d’une entente précise | 2 000 000 |
Montant total par contribution au programme | Financement global attribué au programme concernant plusieurs ententes | 2 000 000 |
Statut du projet | Indique l’état actuel du projet (p. ex. actif, terminé, en attente) | Terminé |
3.2 Prétraitement des données
3.2.1. Nettoyage et transformation
Le processus de nettoyage des données a débuté par l’identification et la suppression des entrées vides qui ne concernaient pas le modèle de prévision financière. L’ensemble de données définitif ne comprenait que les projets ayant les statuts « fermé », « terminé » et « en cours de mise en œuvre », garantissant ainsi une évaluation complète à toutes les étapes du cycle de vie des projets, ce qui a renforcé la robustesse et l’adaptabilité du modèle.
Ensuite, des manipulations ont été effectuées afin de générer des variables clés comme les dépenses moyennes, les dépenses antérieures, les montants restants et les valeurs des ententes de contribution. Un processus de désagrégation a enfin permis d’uniformiser les données à un niveau de granularité cohérent. Initialement structurées à plusieurs niveaux — projet, entente de contribution et programme — les données ont finalement été consolidées au niveau du projet afin de correspondre au cadre analytique du modèle de prévision.
Pour améliorer la capacité du modèle à cerner les contraintes financières et à surveiller les plafonds de dépenses, plusieurs variables dérivées ont été créées à partir des variables existantes. Ces variables comprennent le montant total du projet, le montant cumulatif du projet, les dépenses cumulatives antérieures, les dépenses récentes, la durée de vie du projet, la moyenne des dépenses précédentes, les fonds restants et les fonds restants au début de chaque exercice financier. En intégrant ces variables, on a enrichi l’ensemble de données d’analyses financières supplémentaires, ce qui a permis d’assurer une représentation plus précise des dynamiques de dépenses des projets.
Nouvelles variables | Définition |
---|---|
Montant total du projet | Le budget total alloué à un projet pour toute sa durée. Il s’agit de la somme de toutes les dépenses prévues pour le projet. |
Montant cumulatif du projet | Le montant total dépensé pour le projet depuis son lancement jusqu’à l’exercice financier en cours. Cela permet de suivre le pourcentage du budget déjà utilisé. |
Dépenses cumulatives précédentes | La somme des dépenses de tous les exercices précédents avant l’exercice en cours. Cette variable exclut les dépenses de l’année en cours, mais fournit un contexte financier historique. |
Dépenses récentes | Les dépenses de l’exercice financier le plus récent, ce qui reflète les tendances de dépenses actuelles. |
Cycle de vie du projet | Le nombre total d’années pendant lesquelles le projet est censé être actif, de son année de début à son achèvement prévu. |
Dépenses moyennes précédentes | Le montant moyen dépensé par année lors des exercices précédents. Ce montant est calculé comme suit : dépenses cumulatives précédentes / (année en cours-année de début). |
Fonds restants | Le budget total du projet moins les dépenses cumulatives. Cela représente les fonds encore disponibles pour les années futures. |
Fonds restants au début de chaque exercice financier | Le montant d’argent non dépensé au début d’un nouvel exercice financier, avant que de nouvelles dépenses ne soient effectuées. |
Montant | Une variable dérivée utilisée pour améliorer la précision des prévisions. Étant donné que les dépenses futures sont initialement de 0, le modèle a tendance à prédire des valeurs irréalistes. La variable Montant remplace les dépenses futures manquantes par les flux de trésorerie prévus (décaissements futurs prévus), tout en conservant les dépenses antérieures inchangées. |
3.2.2. Segmentation
Une fois l’ensemble de données nettoyé et transformé, l’étape suivante a consisté à analyser la distribution des dépenses de projet afin d’orienter la méthodologie de modélisation. Comme l’illustre la figure 2 – Distribution des montants des projets, l’ensemble de données présentait une forte hétérogénéité : 95 % des projets ne représentaient que 5 % de la contribution financière totale du ministère, tandis que les 5 % restants représentaient 95 % des dépenses.

Figure 2 : Distribution des montants des projets (en anglais seulement)
Le nuage de points illustre la relation entre le coût total des projets et le nombre de projets. La majorité des points est regroupée vers le bas de l’échelle des coûts, ce qui signifie que de nombreux projets ont un coût total relativement faible. Cependant, quelques points s’étendent loin vers la droite, indiquant que certains projets ont des coûts très élevés. Cela crée une distribution asymétrique vers la droite, où la majorité des projets se situent dans la tranche des faibles coûts, mais un petit nombre de projets à coût élevé allongent la distribution.
Compte tenu des disparités importantes dans les dépenses de projets, nos collègues des finances ont initialement recommandé une approche de segmentation. Leur classification manuelle reposait sur les montants des projets afin de tenir compte de ce déséquilibre. Pour affiner cette approche, nous avons étudié une méthodologie de segmentation plus avancée. Plutôt que de segmenter selon le montant du projet, notre analyse a montré que la durée du projet offrait une meilleure différenciation. En effet, lors de la comparaison des résultats, la durée du projet a permis d’obtenir une plus grande homogénéité au sein des groupes, ce qui a donné lieu à des segmentations plus cohérentes et à une meilleure performance prédictive. Au cours de la phase d’élaboration, le passage du critère de segmentation du coût total du projet à la durée du projet a permis de réduire l’erreur absolue moyenne (EAM) du modèle de forêt aléatoire d’au moins 300 000. Cette première catégorisation des projets en importance relative élevée (> 5 ans) et en importance relative faible (< 5 ans) a entraîné une amélioration mesurable de la performance du modèle.
3.2.3. Analyse en composantes principales
Pour traiter la multicolinéarité entre les variables clés, nous avons intégré une analyse en composantes principales (ACP). Une analyse du facteur d’inflation de la variance a révélé une forte colinéarité, comme l’illustre la figure 3, notamment entre les variables financières comme le montant total du projet, le montant cumulé du projet et les fonds restants. Cette redondance présentait un risque de distorsion des prédictions, en particulier pour les programmes de grande envergure comme le Programme d’infrastructure Investir dans le CanadaNote de bas de page 1.

Figure 3 : Matrice de corrélation : aperçu de la multicolinéarité entre les variables (en anglais seulement)
La matrice de corrélation fournit un aperçu des relations entre toutes les variables du modèle. Chaque cellule représente le coefficient de corrélation entre deux variables, allant de -1 (forte corrélation négative) à 1 (forte corrélation positive). Les variables fortement corrélées indiquent une redondance potentielle, tandis qu’une corrélation faible ou inexistante indique des variables indépendantes. Les valeurs diagonales sont toujours égales à 1, car chaque variable est parfaitement corrélée avec elle-même. Cette matrice aide à identifier la multicolinéarité, à sélectionner les variables les plus pertinentes et à comprendre les interactions entre les variables de l’ensemble de données.
En appliquant l’ACP, nous avons transformé les variables d’origine en composantes orthogonales, ce qui rend bien compte de la variance maximale dans un espace de dimension réduite. L’analyse de la variance expliquée a montré que cinq composantes conservaient environ 90 % de la variance totale, préservant ainsi la majeure partie de l’information de l’ensemble de données tout en réduisant la dimensionnalité. Ce compromis permet d’atténuer la multicolinéarité tout en maintenant le pouvoir prédictif des variables clés.

Figure 4 : Variance selon le nombre de composantes (en anglais seulement)
Le graphique illustre la variance expliquée en fonction du nombre de composantes principales (CP). La courbe montre une forte augmentation initiale, indiquant que les premières composantes saisissent la majorité de la variance de l’ensemble de données. Dotée de cinq composantes principales, la variance expliquée cumulée atteint 90 %, ce qui sous-entend que ces composantes conservent l’essentiel de l’information tout en réduisant la dimensionnalité. Au-delà de ce point, les composantes supplémentaires n’apportent qu’une contribution marginale à la variance totale, soulignant l’efficacité de l’utilisation de cinq CP pour représenter les données.
L’ACP a été utilisée pour réduire la multicolinéarité parmi les variables financières tout en préservant les caractéristiques les plus informatives. La figure 5 : Résultats de l’analyse en composantes principales illustre les charges de cette méthode, qui représentent la force avec laquelle chaque variable d’origine contribue à une composante principale donnée.

Figure 5: Résultats de l’analyse en composantes principales (en anglais seulement)
La carte thermique des charges de l’analyse en composantes principales représente visuellement la contribution de chaque variable d’origine aux composantes principales, mettant en évidence les dimensions clés des dépenses de projet. Chaque composante principale a été dérivée pour refléter un aspect financier distinct des projets. Le financement et l’échelle du projet sont principalement influencés par le montant total de la contribution au programme, le montant total du projet et le montant cumulé du projet, ce qui rend compte de la portée financière globale. Les ressources restantes donnent une bonne représentation des fonds non dépensés, dominés par des variables liées aux valeurs budgétaires restantes. Les ressources initiales sont axées sur l’enveloppe financière initiale : elles ont des contributions modérées provenant des contributions totales au programme et des montants totaux du projet. La durée du projet est fortement associée à la durée de vie du projet, indiquant son rôle dans la prise en compte des aspects temporels. Enfin, les contributions au cycle de vie représentent les tendances historiques des dépenses grâce à des variables comme le montant cumulé du projet, les dépenses précédentes et les dépenses moyennes antérieures. Cette approche de réduction de la dimensionnalité atténue la multicolinéarité, ce qui garantit la stabilité du modèle tout en conservant le pouvoir explicatif des prédicteurs financiers.
Pour améliorer l’interprétabilité, les composantes principales ont été renommées en fonction de leurs charges dominantes.
- Composante principale 1 : Financement et échelle du projet – Cette composante est influencée par le montant total de la contribution au programme (TOTAL_PROGRAM_CONTRIBUTION_AMT [0,41]), le montant total du projet (project_total_amount [0,41]) et le montant cumulatif du projet (cumulative_project_amount) [0,37]. Elle représente la portée financière globale d’un projet, en mettant l’accent sur le financement total disponible.
- Composante principale 2 : Ressources restantes – Cette composante représente la disponibilité des fonds non dépensés, principalement déterminée par les fonds restants (Remaining [0,46]) et les fonds restants au début de l’exercice (Remaining_start_year [0,41]). Elle indique que des fonds sont encore accessibles pour les projets en cours.
- Composante principale 3 : Ressources initiales – Cette composante est relativement influencée par le montant total de la contribution au programme (TOTAL_PROGRAM_CONTRIBUTION_AMT [0,21]), le montant total du projet (project_total_amount [0,10]) et le montant cumulatif du projet (cumulative_project_amount [0,04]), ce qui sous-entend qu’elle est liée à l’allocation initiale des ressources financières au début d’un projet.
- Composante principale 4 : Durée du projet – Cette composante est fortement corrélée avec la durée de vie du projet (project_lifetime [0,70]), indiquant qu’elle prend en compte la longévité du projet et son lien avec les tendances de dépenses antérieures.
- Composante principale 5 : Contributions au cycle de vie – Cette composante représente l’équilibre financier tout au long du cycle de vie d’un projet, la durée de vie du projet (project_lifetime [0,61]) et les dépenses antérieures (previous_spend [0,26]) constituant une contribution importante.
En intégrant l’ACP dans notre pipeline de modélisation, nous avons efficacement résolu les problèmes de colinéarité présents dans l’ensemble de données d’origine, tout en améliorant la stabilité et l’interprétabilité du modèle.
L’analyse a également fait ressortir un point important : si la majorité de la variance n’est pas prise en compte dans un petit nombre de composantes, cela peut indiquer une structure de données complexe ou des relations non linéaires. Dans ce cas, des méthodes comme l’ACP à noyaux, la méthode t-SNE ou la méthode UMAP pourraient être plus adaptées. Cependant, puisque L’ACP à cinq composantes permet de conserver 90 % de la variance, elle reste un choix pertinent pour la réduction de la dimensionnalité dans ce contexte. De futurs travaux pourraient porter sur des méthodes d’encodage non linéaires pour déterminer si une autre approche pourrait offrir de meilleures performances.
4. Élaboration du modèle de prévision par apprentissage automatique pour les subventions et les contributions
Une fois la phase de prétraitement terminée, l’étape suivante a consisté à construire un modèle de prévision robuste. Cela a supposé la sélection d’un algorithme approprié, l’ajustement des hyperparamètres et l’évaluation des performances afin de garantir une précision adaptée à des projets de tailles variées. Étant donné la complexité des données financières, notre approche a mis l’accent sur l’interprétabilité, la stabilité et l’harmonisation avec les besoins opérationnels.
4.1. Ensemble de données définitif
Variable | Définition | Données-échantillons |
---|---|---|
Numéro d’identification du projet | Identifiant unique attribué à chaque projet. | 13176 |
Numéro d’identification de l’entente de contribution | Identifiant unique liant le projet à une entente de financement précise. | 2 |
Exercice financier | Exercice financier associé aux dépenses et aux flux de trésorerie du projet. | 2007-2008 |
Flux de trésorerie du projet | Flux de trésorerie projeté ou réel (rentrées et sorties) du projet. | 500 000 |
Dépenses du projet | Montant dépensé pour le projet au cours d’une période donnée. | 500 000 |
Montant total par entente de contribution | Budget total alloué dans le cadre d’une entente précise. | 2 000 000 |
Statut du projet | État actuel du projet (p. ex. actif, terminé, en attente). | Terminé |
Montant | Variable dérivée utilisée pour améliorer la précision des prévisions. Variable cible. | 500 000 |
Composante principale 1 | Financement et échelle du projet : représente la portée financière globale du projet, en mettant l’accent sur le financement total disponible. | -0.68 |
Composante principale 2 | Ressources restantes : indique que des fonds sont encore accessibles pour les projets en cours. | 0.97 |
Composante principale 3 | Ressources initiales : relatif à l’allocation initiale des ressources financières au début du projet. | -1.34 |
Composante principale 4 | Durée du projet : reflète la longévité du projet et son lien avec les tendances de dépenses antérieures. | -0.19 |
Composante principale 5 | Contributions au cycle de vie : représente l’équilibre financier tout au long du cycle de vie du projet, la durée de vie et les dépenses antérieures constituant un apport important. | -0.08 |
Remarque : Étant donné que la segmentation faisait partie des scénarios de test, nous avons initialement conservé deux ensembles de données distincts (df_matérialité_élevée et df_matérialité_faible [df_high and df_low]) en regroupant les projets en fonction de leur seuil d’importance relative (matérialité).
4.2. Entraînement du modèle
L’ensemble de données a été structuré sous forme de série chronologique, couvrant les exercices financiers de 2003-2004 à 2023-2024. Il a été divisé en un ensemble d’entraînement (75 %) et un ensemble de tests (25 %), en veillant à utiliser les données antérieures pour prévoir les dépenses à venir. Une fois entraîné, le modèle a été utilisé pour prédire les dépenses de l’exercice financier en cours (2024-2025) pour réaliser des projections pour les trois années suivantes. Le processus d’entraînement était itératif, ce qui a permis de peaufiner les modèles pour optimiser les performances tout en maintenant leur stabilité.
4.3. Comparaison des modèles
Plusieurs modèles ont été évalués, notamment le modèle de forêt aléatoire, l’amplification du gradient (Gradient Boosting) et l’arbre de décision à gradient amplifié extrême (XGBoost), en fonction de leur précision prédictive et de leur capacité à bien rendre compte des schémas présents dans les données financières. Étant donné que les dépenses suivent une évolution séquentielle dans le temps, les modèles devaient prendre en compte les dépendances temporelles et les tendances sous-jacentes.
Chaque modèle présente des caractéristiques distinctes :
- Laforêt aléatoire, une méthode d’ensemble, a permis de représenter efficacement des interactions complexes, ce qui en fait un bon candidat pour la prévision financière.
- L’amplification du gradient a permis d’affiner les prédictions grâce à un apprentissage itératif, améliorant ainsi la précision.
- L’arbre de décision à gradient amplifié extrême, une version optimisée de l’amplification du gradient, a offert une précision accrue tout en limitant le surapprentissage.
Les performances des modèles ont été évaluées à l’aide de deux mesures clés :
- R² (coefficient de détermination) : mesure dans quelle mesure le modèle explique la variance des dépenses.
- EAM (erreur absolue moyenne) : quantifie l’erreur moyenne de prédiction, fournissant une mesure claire de la précision financière.
4.4. Évaluation des performances du modèle
La section qui suit présente les mesures utilisées pour comparer les différents modèles. L’objectif était de trouver un équilibre entre précision prédictive, stabilité et interprétabilité, tout en tenant compte de la complexité des données financières.
Scénarios | Caractéristiques | Meilleure performance du modèle (mesures) |
---|---|---|
Scénario 1 |
|
Forêt aléatoire (EAM : 137 570 ; R² : 93 %)
Surapprentissage |
Scénario 2 |
|
Forêt aléatoire (EAM : 852 243 ; R² : 36 %) |
Scénario 3 |
|
Forêt aléatoire (EAM : 888 558 ; R² : 37 %) |
Scénario 4 |
|
Forêt aléatoire (EAM : 888 526 ; R² : 81 %) |
Scénario 5 |
|
Forêt aléatoire (EAM : 758 012 ; R² : 40 %) |
4.5. Évaluation de la performance du modèle – Éléments à prendre en considération
Afin d’optimiser la performance du modèle, plusieurs découpages d’ensembles de données ont été évalués, notamment des séparations de 25 % à 30 % ainsi que des découpages automatisés. Chaque scénario a été testé pour analyser la façon dont les différentes partitions des données d’entraînement et d’essais influaient sur la précision et la généralisabilité du modèle. L’approche de découpage automatisé a également été envisagée afin de garantir la robustesse du modèle face à divers types de partitionnement. Cette vérification exhaustive a permis de déterminer la configuration de découpage la plus efficace pour améliorer les capacités prédictives du modèle.
Après optimisation du découpage, nous avons évalué l’incidence de la segmentation et de l’ACP sur les performances du modèle. Bien que la segmentation ait été initialement prévue pour améliorer la précision, les tests ont démontré que la supprimer tout en conservant l’ACP permettait d’obtenir des prévisions plus stables et plus précises. Au départ, la segmentation avait conduit à la création de deux ensembles de données distincts, regroupant les projets selon des critères prédéfinis. Cependant, une analyse plus poussée a révélé qu’un ensemble de données unifié offrait une meilleure cohérence, facilitait la mise en œuvre du modèle et améliorait l’extensibilité. Cette découverte a mis en évidence l’efficacité de la réduction de la dimension pour saisir les principales tendances tout en minimisant le bruit. Par conséquent, la priorité a été accordée à l’ACP comme technique principale pour gérer la complexité des données et garantir un modèle de prévision plus robuste et généralisable.
Enfin, nous avons effectué un réglage des hyperparamètres à la fois manuellement et par optimisation automatique. Toutefois, ce réglage n’a pas toujours donné lieu à des améliorations importantes. Par exemple, un modèle de forêt aléatoire optimisé a permis d’obtenir une EAM légèrement inférieure (811 547) et un R² supérieur (39 %), mais ce gain marginal ne justifiait pas la complexité supplémentaire. Dans certains cas, le réglage des hyperparamètres a même introduit un surapprentissage, renforçant ainsi la fiabilité de la configuration par défaut plus simple.
4.6. Meilleurs Résultats du modèle
Notre analyse a révélé que le modèle de forêt aléatoire dominait systématiquement les autres en équilibrant précision prédictive et cohérence avec les prévisions financières. Parmi les configurations testées, le meilleur modèle était le modèle de forêt aléatoire (EAM : 852 243, R² : 36 %), lequel a permis d’estimer les dépenses à 4,8 milliards pour 2024-2025 et à 5,2 milliards pour 2025-2026, ce qui le rendait le plus proche des prévisions du centre d’expertise en subventions et contributions. La formule utilisée pour calculer la précision est la suivante :

Figure 6 : Calcul de la précision du modèle (en anglais seulement)
Le modèle d’apprentissage automatique a démontré un taux de précision de 94,98 % pour l’exercice financier 2021-2022 et de 99,20 % pour l’exercice 2022-2023. Ce niveau de précision est prometteur et a conduit à l’adoption des modèles par les conseillers en gestion financière dans le cadre de leur processus de prévision des dépenses pour les exercices financiers 2024-2025 à 2026-2027.
4.7. Limites du modèle de prévision par apprentissage automatique
Malgré des résultats prometteurs, le modèle de prévision basé sur l’apprentissage automatique (AA) présente plusieurs limites qui doivent être prises en compte. Les programmes sans enregistrements de projet dans le système ne peuvent pas être modélisés, car le modèle doit connaître l’existence d’un projet pour générer une prévision. De plus, le modèle a été conçu pour prévoir les demandes de remboursement dans le cadre des programmes à exécution directe. Il est donc moins précis lorsqu’il s’agit d’autres types de paiements, comme les subventions, les avances ou les paiements basés sur des jalons. Le modèle donne également des résultats moins précis pour les programmes de subventions et de contributions (S et C) fondés sur l’allocation ou le transfert. Enfin, la précision du modèle diminue pour ce qui est des projets individuels, lesquels peuvent présenter des comportements de dépenses atypiques.
Ces limites signifient que le modèle donne actuellement les meilleurs résultats pour les programmes à exécution directe comptant 30 projets actifs ou plus dans le système et pour lesquels la majorité des demandes sont basées sur des remboursements.
5. Résultats pour les opérations
5.1. Façon de mettre l’apprentissage automatique à la disposition des équipes opérationnelles
Pour améliorer l’interprétation des résultats du modèle, les dépenses prévues ont été intégrées dans un tableau de bord existant utilisé par les conseillers en gestion financière (CGF) (figure 7). Ce tableau de bord présente visuellement les tendances de dépenses, ce qui permet de comparer les dépenses réelles, les prévisions générées manuellement par les CGF et celles du modèle d’apprentissage automatique (AA).

Figure 7 : Visualisation des résultats dans PowerBI (en anglais seulement)
Cette capture d’écran est présentée à titre illustratif uniquement et ne contient pas de données réelles de Logement, Infrastructures, et Collectivités Canada. Elle montre un graphique en courbes où la ligne orange représente les dépenses, la ligne bleue représente les flux de trésorerie, et la ligne verte représente les prévisions du modèle de forêt aléatoire, ce qui facilite la visualisation des tendances historiques et des projections futures. Sous le graphique, un tableau de données fournit des précisions à l’échelle des projets, ce qui permet une analyse plus approfondie. À gauche, un panneau de filtres permet aux CFG d’affiner leur recherche en sélectionnant des critères précis, ce qui garantit une présentation ciblée et personnalisée des données. Le graphique et le tableau s’ajustent de façon dynamique en fonction de ces filtres, améliorant ainsi l’utilisabilité et la génération de renseignements.
Le tableau de bord interactif comprend également des fonctionnalités de rapports personnalisés, ce qui permet aux utilisateurs d’adapter leur affichage en sélectionnant des critères précis, comme la province, le programme ou l’exercice financier. Cette flexibilité garantit que les utilisateurs peuvent adapter l’exploration des données à leurs besoins d’analyse particuliers. De plus, la nature interactive de la visualisation permet aux utilisateurs de survoler un point de la courbe pour afficher les valeurs exactes de chaque exercice, offrant une exploration des données plus intuitive et détaillée. Cette combinaison de rapports dynamiques et de visualisations interactives permet une analyse approfondie et facilite la prise de décisions basées sur les résultats du modèle d’AA.
5.2. Répercussions sur les activités
Le modèle d’AA a été mis en œuvre en mai 2024 pour prévoir les dépenses des programmes de subventions et de contributions (S et C) pour les exercices 2024-2025 à 2027-2028. Il a généré des prévisions pluriannuelles pour neuf des programmes de S et C du ministère, ce qui représente environ 80 % du financement total de ces programmes. La précision du modèle sera évaluée en avril 2025 et en avril 2026, à la fin des exercices 2024-2025 et 2025-2026, respectivement.
La mise en œuvre du modèle a permis de rationaliser le processus de prévision, réduisant le temps requis de trois mois à un mois. Cela a été rendu possible en fournissant aux CGF une prévision de référence, générée par le modèle d’AA, ce qui a facilité les discussions avec leurs programmes respectifs et permis d’harmoniser les attentes avant le processus de collecte des flux de trésorerie des bénéficiaires.
De plus, le tableau de bord intégré soutient les discussions continues avec les parties prenantes en s’appuyant sur des données à jour dans le cadre de la préparation des rapports réguliers du ministère.
6. Conclusion et prochaines étapes
En conclusion, la présente étude met en évidence le potentiel considérable de la mise en œuvre d’un modèle de prévision basé sur l’AA dans le cadre de la prédiction des dépenses pour les programmes de S et C de Logement, Infrastructures, et Collectivités Canada. Le modèle démontre un haut niveau de précision lorsqu’il est comparé aux dépenses historiques et est actuellement mis à l’essai par rapport aux dépenses réelles au cours des deux prochaines années, dans l’espoir d’optimiser le financement des subventions et des contributions, de réduire les crédits inutilisés dans les comptes publics et de rationaliser les processus financiers. Malgré les défis et les limites évoqués, les résultats globaux sont prometteurs quant à l’amélioration de la prise de décision financière et de l’efficacité opérationnelle.
Le succès de cette initiative a été officiellement reconnu en décembre 2024, lorsque le projet a reçu le prix de l’innovation 2024 du contrôleur général, soulignant son incidence considérable sur la gestion financière. Depuis, le modèle a suscité l’intérêt de plusieurs ministères, ce qui a donné lieu à des consultations en vue de son application à plus grande échelle. Les efforts continus en vue de promouvoir son adoption témoignent d’une reconnaissance croissante du potentiel des solutions basées sur l’AA pour améliorer les prévisions financières et l’allocation des ressources dans le secteur public.
En outre, le projet a été présélectionné pour l’édition 2025-2026 du Défi des données de la fonction publique. Cette reconnaissance met en lumière l’intérêt croissant de plusieurs ministères pour l’adoption de cet outil de prévision basé sur l’AA. Les efforts constants pour favoriser son adoption soulignent la reconnaissance croissante du potentiel des solutions d’apprentissage automatique pour améliorer les prévisions financières et optimiser l’allocation des ressources dans le secteur public.

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontrez les scientifiques des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Inscrivez-vous à l'événement Rencontrez les scientifiques des données. À bientôt!
Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.