Pourquoi utiliser l'apprentissage automatique et quel est son rôle dans la production de statistiques officielles?

Sevgui Erman

Directrice de la Division de la science des données, Statistique Canada

Note : Cet article a été publié pour la première fois dans le bulletin The Survey Statistician de l’International Association of Survey Statisticians 2020, Vol. 82, 11-13.

Résumé

Pour rester concurrentiels, les organismes de statistique doivent agir rapidement pour adopter et tirer parti de l'apprentissage automatique et des nouvelles sources de données numériques. L'apprentissage automatique n'est pas fondamentalement nouveau, et cela fait bien longtemps que les organismes de statistique utilisent des techniques de modélisation. Pourquoi les organismes nationaux de statistique ont-ils besoin de l'apprentissage automatique dans leur boîte à outils, et quel est le rôle de celui-ci dans la production de statistiques officielles? Ce sont là quelques-unes des questions abordées dans le présent article, accompagnées d'exemples d'utilisation de l'apprentissage automatique dans les statistiques officielles.

Mots clés : apprentissage automatique, statistiques officielles, intelligence artificielle, source ouverte.

Qu'est-ce que l'apprentissage automatique?

« L'apprentissage automatique est la science qui consiste à faire en sorte que les ordinateurs apprennent automatiquement à partir de données constituant leur expérience et de généraliser les connaissances acquises à de nouveaux paramètres, au lieu de s'appuyer sur des règles explicitement programmées. »Note de bas de page 1

En substance, l'apprentissage automatique permet d'automatiser le développement de modèles analytiques au moyen d'algorithmes d'optimisation et de paramètres qui peuvent être modifiés et affinés.

Pourquoi les organismes nationaux de statistique ont-ils besoin de l'apprentissage automatique dans leur boîte à outils?

Les organismes nationaux de statistique (ONS) sont des organismes axés sur les données, et les données sont au cœur de la révolution numérique actuelle. Les données et la technologie sont en train de transformer notre société et la façon dont nous consommons l'information. La grande quantité de données numériques accessibles transforme également le rôle des ONS en tant que principaux fournisseurs de renseignements pour une prise de décisions fondée sur des données probantes.

De nouvelles sources alternatives de données présentent déjà de nombreux avantages, notamment : fournir des produits d'une plus grande actualité, plus rapidement; réduire le fardeau de réponse des ménages et des entreprises; produire des résultats plus exacts; et réduire les coûts. Cela change fondamentalement la façon dont les organismes de statistique fonctionnent. Bon nombre de ces nouvelles possibilités exigent l'utilisation de méthodes d'apprentissage automatique. D'ailleurs, l'apprentissage automatique est le principal outil de calcul pour le traitement des mégadonnées.

L'apprentissage automatique est-il un nouveau concept?

L'apprentissage automatique et l'intelligence artificielle ne sont pas fondamentalement nouveauxNote de bas de page 4. Cela fait bien longtemps que les organismes de statistique utilisent des techniques de modélisation et l'analyse des données. Mentionnons notamment la modélisation à des fins de stratification, d'imputation et d'estimation. Les références Note de bas de page 2 et Note de bas de page 3 sont excellentes dans ce contexte.

Ce qui différencie les méthodes d'apprentissage automatique d'aujourd'hui de celles utilisées il y a cinq ou dix ans, c'est leur évolution au sein de l'espace de traitement des mégadonnées. Cette évolution a été rendue possible par :

  • une meilleure capacité de calcul;
  • des développements dans l'espace algorithmique et des applications pour les données non structurées (texte, images, vidéo, capteur, etc.);
  • l'intégration plus efficace des données;
  • l'accès accru aux données structurées et non structurées;
  • davantage de capacités offertes par les plateformes de traitement des mégadonnées pour gérer efficacement la mémoire RAM et l'unité centrale de traitement et, au besoin, les unités de traitement graphique, tant dans le nuage que sur placeNote de bas de page 5.

Un autre facteur important à l'origine de ce changement dans les méthodes est la collaboration, en particulier dans la communauté des logiciels d'exploitation libre. Utiliser R et Python pour l'apprentissage automatique et avoir une approche axée avant tout sur les sources ouvertes sont des normes acceptées aujourd'hui. Alors que par le passé, le développement de systèmes de traitement de données a été effectué indépendamment par les organismes, les utilisateurs peuvent aujourd'hui bénéficier d'un code source ouvert qui est le produit de plusieurs années d'efforts, et qui a été testé à une échelle qui n'était pas possible auparavant. La mise en œuvre d'outils à source ouverte peut accélérer le développement, réduire les coûts des projets et accélérer les délais de traitement, ce qui permet aux projets de passer plus rapidement du mode développement au mode production.

Utilisation de l'apprentissage automatique dans les statistiques officielles : exemples et avantages

Apprentissage automatique appliqué aux données de lecteurs optiques liées au commerce de détail

Statistique Canada reçoit des données de points de vente qui proviennent des grands détaillants. Cela fournit un recensement complet des données en ce qui concerne les statistiques sur les volumes et les prix des entreprises participantes. À court terme, l'organisme réduit le fardeau de déclaration en éliminant la collecte de données d'enquête pour les entreprises participantes, ce qui réduit également les efforts de collecte. Statistique Canada fournit aux entreprises participantes des statistiques personnalisées et définies par l'utilisateur en se basant sur leurs données. À long terme, étant donné que de plus en plus d'entreprises fournissent des données de lecteurs optiques, l'organisme sera en mesure de diffuser des données à l'échelon local (ville et code postal), ainsi que des données sur les produits à un niveau beaucoup plus granulaire. Alors que les données précédentes étaient produites sur quelques centaines de produits, selon le Système de classification des produits de l'Amérique du Nord (SCPAN), il sera maintenant possible de diffuser des données au niveau du Code universel des produits, c'est-à-dire des milliers de produits différents. Un autre résultat potentiel est les diffusions hebdomadaires sur la valeur, le montant et le prix moyen de chaque produit du SCPAN vendu au détail par région géographique détaillée. Un classificateur d'apprentissage automatique, XGBoost, avec des apprenants de base linéaire utilisant une approche basée sur les n-grammes des caractères et les sacs de mots, est utilisé pour associer la présence de sous-chaînes dans les données à certains codes du SCPAN.

Utilisation des images satellites dans l'agriculture

À l'heure actuelle, Statistique Canada a trois projets d'apprentissage automatique dans le domaine de l'agriculture qui utilisent des images satellites. Le projet d'identification saisonnière des récoltes, par exemple, vise à prédire les proportions des types de cultures à l'intérieur d'une image. Des images satellites Landsat-8 de deux régions agricoles de recensement en Alberta sont utilisées. Les données étiquetées sont dérivées des données sur l'assurance-récolte. En utilisant cet ensemble de données, un modèle d'apprentissage profond à la fine pointe de la technologie est construit. On s'attend à ce que le nouveau modèle produise des données en temps réel et réduise le coût de la collecte de données sur les cultures agricoles. D'autres exemples d'utilisation de l'apprentissage automatique incluent l'estimation de la superficie des terres couvertes par des serres à partir d'images satellites, ainsi que la superficie couverte par des panneaux solaires.

Automatisation

Il existe un large éventail de tâches où les analystes peuvent extraire des renseignements de sources de données non structurées, comme l'extraction de variables financières des rapports financiers annuels, les états financiers, les formulaires de renseignements des entreprises, les rapports juridiques, les communiqués de presse, l'acquisition et la fusion d'actifs de sociétés cotées en bourse, et les états financiers fournis par des organismes fédéraux, provinciaux et municipaux. Plusieurs de ces tâches peuvent être automatisées en employant l'apprentissage automatique, ce qui permet d'obtenir des processus beaucoup plus efficaces.

Défis et possibilités

Le contexte de l'apprentissage automatique est très dynamique, ce qui peut présenter à la fois un avantage et un défi. Ce type d'environnement exige une mentalité d'apprentissage permanent. Pour rester concurrentiels au sein de cet espace transformé de la modélisation des données, les organismes de statistique doivent agir rapidement pour adopter et tirer parti de l'apprentissage automatique et des nouvelles sources de données numériques. Les statisticiens d'enquête offrent une expertise avancée en matière de méthodes statistiques et de qualité des données, et sont extrêmement bien placés pour contribuer à l'ensemble de la communauté de l'apprentissage automatique et tirer parti de celle-ci. Les statisticiens d'enquête joueront un rôle clé dans l'espace algorithmique en déterminant les normes de rigueur, en s'assurant que des méthodes statistiquement fiables sont utilisées, en faisant la promotion de la qualité et de l'inférence valide au besoin, et en se conformant aux pratiques scientifiques éthiques lorsqu'ils tirent des conclusions des donnéesNote de bas de page 6. Même si les nouvelles technologies créent des possibilités extraordinaires, ces possibilités sont accompagnées de responsabilités. Il faudra élaborer de nouveaux algorithmes et de nouvelles lignes directrices pour l'évaluation des modèles, et leur surveillance et leur entretien lors de la production poseront de nouveaux types de défis.

Date de modification :