Projets en science des données

La science des données joue un rôle important à Statistique Canada. Dans l’ensemble de l’organisme, de nouvelles méthodes de science des données sont utilisées pour rendre nos projets plus efficaces et fournir de meilleurs renseignements sur les données aux Canadiens.

Communiquez avec le Centre de la science des données pour obtenir de plus amples renseignements sur les projets de science des données à Statistique Canada.

Détection d'événements et indicateurs de sentiment

Statistique Canada est en train de développer un outil pour détecter des événements économiques précis en analysant des millions d'articles de presse. Cet outil utilise des algorithmes d'apprentissage automatique, élaborés en concertation avec des analystes, pour chercher et résumer l'information contenue dans les articles et organiser les données dans un tableau de bord informatif. Cet outil permettra de réduire le temps consacré à la recherche et libérera du temps permettant aux chercheurs de se pencher sur les raisons pouvant expliquer ces changements économiques.

L'organisme produit aussi de nouveaux indicateurs de sentiment pour mesurer les tendances économiques et leurs liens avec des variables économiques clés. Fondé sur des interprétations positives et négatives d'articles de presse portant sur l'économie, cet outil permettra aux experts en la matière d'acquérir une meilleure connaissance des variables économiques, selon l'industrie, et de contribuer à la publication d'indicateurs de confiance économique presque en temps réel.

Classification des grandes cultures

Surveiller la production des exploitations agricoles au Canada est un processus important, mais très coûteux. Les enquêtes et les inspections en personne requièrent beaucoup de ressources, et l'approche actuelle pour prédire le rendement des cultures prend beaucoup de temps. Pour ces raisons, Statistique Canada est en train de moderniser la classification des cultures en utilisant une approche de classification fondée sur les images.

Il est possible de prédire les types de cultures au moyen de l'imagerie satellitaire et de l'utilisation des réseaux neuronaux. Les premiers résultats indiquent que cette méthode est beaucoup plus rapide et qu'elle permettra de réduire le fardeau de réponse des exploitants agricoles, surtout pendant les périodes très occupées de l'année.

Extraction de renseignements provenant de documents en format PDF

L’extraction de renseignements au moyen de documents en format PDF et d’autres documents peut être un processus coûteux en temps. Pour relever ce défi et rendre l’information disponible plus rapidement, Statistique Canada a utilisé la science des données.

Par exemple, Statistique Canada a acquis l'ensemble de données historiques du Système électronique de données, d'analyse et de recherche (SEDAR), un système utilisé par les sociétés canadiennes cotées en bourse pour déposer des documents sur les valeurs mobilières auprès de diverses autorités des valeurs mobilières canadiennes. La base de données du SEDAR est utilisée par les employés de Statistique Canada pour la recherche, la confrontation des données, la validation, la mise à jour des bases de sondage, etc. L'extraction des documents relatifs aux valeurs mobilières publiques, comme les états financiers, les rapports annuels et les notices annuelles, se fait actuellement de manière manuelle, ce qui prend beaucoup de temps.

Pour accroître l'efficacité de ce processus, les scientifiques des données de Statistique Canada ont développé un algorithme d'apprentissage automatique de pointe qui repère et extrait correctement les variables financières clés (p. ex. le total de l'actif) du tableau approprié (p. ex. le bilan) dans les états financiers annuels d'une entreprise (document en format PDF). Ils ont également transformé une grande quantité de documents publics non structurés provenant du SEDAR en ensembles de données structurées, permettant ainsi l'automatisation et l'extraction de renseignements relatifs aux entreprises canadiennes.

Cet algorithme permet d'automatiser le processus d'extraction des variables financières de 70 000 documents en format PDF par année en temps quasi réel, ce qui réduit considérablement les heures consacrées à l'identification et à la saisie manuelle des informations requises. Ce projet contribue également à réduire la redondance des données au sein de l'organisme en fournissant une solution unique pour accéder aux renseignements. Statistique Canada a également développé une application Web interactive qui permet aux analystes de l'ensemble de l'organisme de visualiser et d'extraire automatiquement des variables à diverses fins.

Données de lecteur optique sur le commerce de détail

Statistique Canada publie la quantité totale des produits vendus, classés selon le Système de classification des produits de l'Amérique du Nord (SCPAN). De grandes bases de données de lecteur optique sont actuellement disponibles auprès des principaux détaillants et contiennent des millions d'enregistrements. Auparavant, un code du SCPAN était attribué aux produits au moyen d'un codage fondé sur un dictionnaire, combiné à du codage manuel au besoin, en fonction de leur description et d'autres indicateurs. Statistique Canada utilise un modèle de classification de données textuelles par apprentissage automatique permettant de regrouper, selon le SCPAN, l'ensemble des descriptions de produits présentes dans les données de lecteur optique et d'obtenir le montant des ventes cumulées selon la région. Ce modèle a permis d'obtenir un niveau accru d'automatisation, ainsi que des données sur le commerce de détail précises et détaillées, et de réduire le fardeau de réponse des principaux détaillants.

Classification des commentaires des répondants aux enquêtes

Les scientifiques des données de Statistique Canada ont créé un modèle d'apprentissage automatique visant à classer automatiquement les commentaires électroniques des répondants du Sondage sur les inconduites sexuelles dans les Forces armées canadiennes (SISFAC). Le SISFAC nécessitait une automatisation afin de classer les commentaires des répondants en cinq catégories : « récit personnel », « négatif », « positif », « conseil relatif au contenu » et « autre ». Le modèle d'apprentissage automatique a permis de coder 6 000 commentaires pour le premier cycle du sondage de 2018 et d'obtenir un taux de précision de 89 % pour les commentaires en français et en anglais. Cette méthode sera utilisée dans le cas d'autres enquêtes de Statistique Canada.

Date de modification :