Un nouvel indicateur des mouvements hebdomadaires d'aéronefs

Par : Krishna Chaitanya Gopaluni, Statistique Canada

L'an dernier, lorsque la pandémie de COVID-19 a frappé le Canada, le gouvernement fédéral a imposé des restrictions concernant les voyages non essentiels dans l'ensemble du pays pour aider à limiter la propagation du virus. Des restrictions frontalières sont également entrées en vigueur le 18 mars 2020 pour les voyages transfrontaliers entre le Canada et les États-Unis de même que pour les autres voyages internationaux. L'équipe de l'aviation du Centre canadien de la statistique du tourisme et du transport (CCSTT) de Statistique Canada publie des statistiques mensuelles détaillées sur les mouvements d'aéronefs deux mois après la période de référence, mais ces statistiques n'étaient pas suffisamment actuelles pour mesurer l'évolution rapide de la situation.

Parmi les nombreuses sources de données utilisées par le CCSTT pour produire ces statistiques mensuelles figurent les données qu'il reçoit des tours de contrôle de la circulation aérienne de NAV CANADA. L'équipe de la CCSTT connaissait le potentiel des données, mais elle n'avait ni les compétences ni le temps nécessaires pour produire efficacement des estimations préliminaires de qualité. Par conséquent, elle a collaboré avec l'équipe de l'opérationnalisation de la science des données (OSD), qui fait partie de la Division de la science des données de Statistique Canada. Ensemble, les équipes ont entrepris un projet visant à produire un nouvel indicateur des mouvements hebdomadaires d'aéronefs au Canada afin d'évaluer l'incidence des restrictions sur les aéroports canadiens dotés de tours de contrôle de la circulation aérienne de NAV CANADA.

L'équipe de l'OSD a travaillé avec le CCSTT pour produire une application sur mesure et simple, qui produit des estimations des mouvements d'aéronefs à partir de fichiers de données brutes déclarées dans le cadre du programme mensuel sur les statistiques relatives aux mouvements des aéronefs. Cette application est utilisée par les analystes de l'équipe de l'aviation pour produire des fichiers de sortie de données hebdomadaires, qui sont ensuite chargés dans le tableau Mouvements itinérants intérieurs et internationaux d'aéronefs pour diffusion au public. Les données sont mises à jour chaque semaine et publiées 12 jours après la semaine de référence.

Les estimations hebdomadaires permettent à Statistique Canada de fournir un indicateur avancé du niveau de circulation aérienne dans l'ensemble du pays en temps très opportun. Cette mesure s'est révélée utile, car la circulation aérienne a été durement touchée par la pandémie.

Automatisation du déroulement des opérations

Étant donné qu'il s'agissait d'une nouvelle initiative entreprise pendant la pandémie, il a fallu la mettre en œuvre d'une manière qui nécessitait peu de temps et d'efforts afin de suivre l'évolution de la situation dans l'aviation. Les analystes de l'équipe de l'aviation du CCSTT n'étaient pas certains de la façon optimale de produire des estimations hebdomadaires. Bien qu'ils aient accès aux fichiers bruts de NAV CANADA, il n'est pas facile de les traiter pour obtenir les bons renseignements, car les données sont semi-structurées. En vue d'accélérer ce processus, l'équipe de l'OSD a mis au point une approche automatisée pour estimer les mouvements hebdomadaires des aéronefs, afin que les analystes puissent facilement publier les chiffres.

Les renseignements extraits Mouvements itinérants intérieurs et internationaux d'aéronefs, total de tous les aéroports dotés d'une tour de contrôle de NAV CANADA, hebdomadaire, ont été agrégés chaque semaine pour les voyages intérieurs, transfrontaliers et internationaux.

Une représentation des étapes que franchissent les données pendant leur traitement

Figure 1 – Étapes du réseau de données

Description - Figure 1

Une représentation des étapes que franchissent les données pendant leur traitement. Progression de l'appariement du modèle vers l'extraction de la position du texte apparié, l'identification des aéroports intérieurs et la conversion en table de données. La table de données structurée est ensuite classée en catégories et des agrégats hebdomadaires sont créés.

À première vue, l'automatisation de ce processus semblait difficile; toutefois, l'équipe de l'OSD a mis en place une solution fondée sur Python, qui s'est révélée utile. Elle a utilisé une technique simple d'appariement de formes utilisant des expressions régulières et la bibliothèque intégrée de traitement de chaînes de caractères de Python pour extraire du texte à partir d'une position donnée dans les données semi-structurées. Pour ce faire, l'équipe a d'abord recueilli les données de NAV CANADA auprès des intervenants et a utilisé des techniques de reconnaissance des motifs pour récupérer les entrées liées à 41 aéroports intérieurs et des renseignements sur les mouvements intérieurs, les mouvements transfrontaliers et les autres mouvements internationaux. Ensuite, les données ont été transformées en données structurées et stockées dans une table de données. À l'étape suivante de l'exécution, l'application a classé chaque entrée selon les catégories « voyages intérieurs », « voyages transfrontaliers » ou « autres voyages internationaux », en fonction des métadonnées. Enfin, les chiffres correspondant à chaque catégorie ont été regroupés en mouvements hebdomadaires. La bibliothèque Python d'analyse de données Pandas a également été utilisée pour créer des agrégations hebdomadaires complexes. L'agrégation hebdomadaire dépend de la date de début fournie par l'utilisateur.

Résultats après l'automatisation du déroulement des opérations

Lors de la première diffusion du 18 mars 2020, les analystes ont utilisé l'approche automatisée pour diffuser les estimations agrégées des mouvements d'aéronefs. Les résultats ont montré une diminution du nombre de vols provenant de ces 41 aéroports. Pendant l'analyse des résultats d'un processus automatisé , il est souvent difficile de connaître la qualité de ces résultats. Toutefois, dans ce cas, les données diffusées précédemment comportaient beaucoup de données validées sur le terrain. L'exactitude des résultats de l'application a été vérifiée en recréant les chiffres mensuels déjà diffusés de l'année précédente. La validation était un processus itératif, car la majorité des résultats de la nouvelle application Python se rapprochaient des valeurs diffusées. Certaines données aberrantes ont dû être examinées par les experts du CCSTT. Une fois cette étape terminée, le code a été mis à jour jusqu'à ce que les estimations préliminaires de la nouvelle application Python et les résultats diffusés soient raisonnablement exacts. Depuis le déploiement de l'application en production, une seule modification a été nécessaire : un aéroport a été ajouté aux données de NAV CANADA.

Incidence sur les utilisateurs de l'application

Les analystes du CCSTT utilisent le format de l'Entrepôt commun des données de sortie (ECDS) pour diffuser tous les résultats sur le site Web de Statistique Canada. L'ECDS est un format de base de données précis qui aide à visualiser les données exportées. L'application Python développée par l'équipe de l'OSD produit également les résultats au format de l'ECDS, ce qui facilite l'intégration avec le déroulement des opérations déjà en place des analystes pour la diffusion des estimations. De plus, l'application a été simplifiée pour les utilisateurs non techniques en permettant la saisie de paramètres d'entrée à partir de fichiers Excel.

Si les analystes avaient choisi de recueillir et d'agréger les renseignements manuellement au moyen d'Excel, cela aurait pris beaucoup de temps et aurait été particulièrement laborieux. Il aurait fallu répéter ce processus chaque fois que de nouvelles données arrivaient. Toute nouvelle exigence relativement au déroulement des opérations aurait également augmenté les frais généraux. Compte tenu de cela, il était nécessaire d'établir un programme extensible et réutilisable pouvant estimer les nombres agrégés de mouvements d'aéronefs. Ce simple programme Python a satisfait à cette exigence et a permis d'économiser de nombreuses heures d'efforts manuels.

L'équipe de l'OSD et le CCSTT étudient actuellement la possibilité d'élargir les données diffusées, par exemple pour inclure une ventilation par aéroport principal.

Renseignements supplémentaires

Pour obtenir de plus amples renseignements sur ce projet, veuillez consulter :

Date de modification :