Ateliers

Les ateliers se dérouleront le 14 octobre de 10h à 14h, Heure avancée de l'est (HAE) : UTC-4

Jeudi 14 Octobre 2021

Atelier 1

Éthique et vie privée

Résumé

La protection de la vie privée des Canadiens est une priorité pour Statistique Canada. Cependant, dû à l'évolution des méthodes de collecte de données et aux changements dans la nature des données elles-mêmes, de nouveaux défis en éthique se présentent à nous. Cet atelier sur l'éthique et la vie privée comprend plusieurs présentations autour de ces défis, et plusieurs nouvelles initiatives lancées par Statistique Canada pour répondre à ces défis.

Biographie

Guillaume Maranda travaille au Secrétariat à l'éthique des données à Statistique Canada, au sein du Secrétariat de la qualité. Il est titulaire d'un doctorat en philosophie et d'une maîtrise en statistique.

Martin Beaulieu s'est joint à Statistique Canada en tant que méthodologiste d'enquête en 2001. Il a passé la majeure partie de sa carrière en tant que méthodologiste sur divers programmes économiques tels que l'IPC, les programmes de données fiscales ainsi que les enquêtes sur l'énergie et les transports. Il est le chef du Secrétariat de la qualité et de l'éthique des données depuis 2019.

Keven Bosa travaille pour la Division de la science des données à Statistique Canada à titre de chef de la Section de la qualité et des méthodes. Il est titulaire d'une maîtrise en statistique.

Miguel da Costa e Silva travaille au Secrétariat à l'éthique des données à Statistique Canada, au sein du Secrétariat de la qualité. Il détient une maîtrise en philosophie.

Raphaël Duteau a travaillé comme économiste au Programme de la statistique du logement canadien de Statistique Canada. Il travaille maintenant à Emploi et Développement social Canada à titre d'analyste principal des politiques pour la Division de la science des données. Il détient une maîtrise en économie appliquée.

Loic Muhirwa est un méthodologiste qui travaille dans la Division de la science des données à Statistique Canada. Il est également étudiant à la maîtrise à l'Université d'Ottawa où il étudie les applications de l'apprentissage automatique à l'imagerie médicale.

M. David Robichaud est professeur agrégé à l'Université d'Ottawa, où il enseigne la philosophie morale et politique. Il travaille principalement sur la nature de la confiance, sur la justice linguistique et sur le contractarianisme.

Atelier 2

Aperçu d'applications en science des données à Statistique Canada

Résumé

Les nouvelles sources de données alternatives présentent déjà de nombreux avantages, notamment l'obtention de produits plus rapides et plus opportuns, la réduction du fardeau de réponse pour les ménages et les entreprises, la production de résultats plus précis et la réduction des coûts. Cela change fondamentalement la façon dont les organismes statistiques fonctionnent. Bon nombre de ces nouvelles possibilités exigent l'utilisation de méthodes d'apprentissage automatique, et cet atelier vise à donner un aperçu des cas d'applications en science des données à Statistique Canada afin de présenter ces possibilités.

Au cours de l'atelier, nous commencerons par présenter des exemples de modélisation de l'apprentissage automatique pour la COVID-19, y compris la modélisation fondée sur les agents et l'apprentissage par le renforcement, l'utilisation des techniques de traitement du langage naturel (TLN) pour la classification des commentaires du recensement, l'extraction de l'information en format PDF et la ROC (logiciel ouvert de reconnaissance optique de caractères), l'utilisation d'outils de visualisation de données dans les applications de science des données, le traitement d'images satellitaires à l'aide de techniques d'apprentissage automatique et les techniques d'ingénierie des données liées à l'établissement de pipelines de données pour les programmes statistiques.

Biographie

Monica Pickard est cheffe de la Section de Livraison des produits à la Division de la science des données à Statistique Canada. Monica gère de multiples projets qui comprennent divers algorithmes d'apprentissage automatique dans le domaine de la classification des textes non structurés, de la classification des images satellitaires, de l'extraction et de la classification des fichiers PDF structurés et non structurés. Bon nombre de ces projets comportent de grands ensembles de données. Avant de se joindre à la Division de la science des données à Statistique Canada, Monica a travaillé comme gestionnaire de portefeuille d'entreprise et a agi à titre de coordonnatrice statistique de Statistique Canada pour les 25 grandes sociétés de son portefeuille. Monica travaille à Statistique Canada depuis 12 ans et, auparavant, elle travaillait en Europe, dans le secteur privé à titre d'économiste. Monica est titulaire d'une maîtrise ès sciences en économie agricole de l'Université McGill.

Anurag Bejju est scientifique principal des données à la Division de la science des données de Statistique Canada. Il a obtenu une maîtrise en informatique de l'Université Simon Fraser avec spécialisation en mégadonnées. Il a mis à profit des algorithmes d'apprentissage automatique de pointe pour effectuer des recherches, élaborer et mettre en œuvre de nouvelles méthodes et techniques permettant d'extraire efficacement de l'information, comme du texte, des tableaux numériques et des images, directement de sources de données non structurées (comme les PDF, les images ou les documents électroniques numérisés). Ses contributions dans ce domaine ont une incidence positive sur la capacité de l'organisme de s'acquitter de ses mandats et d'améliorer la qualité, l'efficacité et la productivité globales des services et des produits offerts.

Nicholas Denis est scientifique principal des données à la Division de la science des données de Statistique Canada. Il est titulaire d'une maîtrise ès sciences en mathématiques de l'Université d'Ottawa, où il a étudié l'apprentissage par le renforcement. Il a publié des articles sur l'apprentissage automatique théorique et appliqué et a donné des présentations lors de conférences, dont Neural Information Processing Systems (NeurIPS) et Canadian Artificial Intelligence Conference (CAIC).

Sayema Mashhadi travaille comme scientifique des données à Statistique Canada. Elle a obtenu une maîtrise en génie électrique et informatique de l'Université de Waterloo et possède de l'expérience de travail dans les domaines du traitement du langage naturel, de l'apprentissage automatique et de l'extraction de l'information.

Andrés Solís Montero est scientifique principal des données à Statistique Canada et titulaire d'un doctorat en informatique, spécialisé en vision informatique, en traitement d'image et en apprentissage automatique. Auteur publié comptant plus de 1 000 citations et réviseur technique depuis plus de neuf ans, il est un scientifique des données polyvalent qui possède une vaste connaissance des cycles de vie du développement de logiciels. Détenant plus de 15 ans d'expérience dans le développement de logiciels complets, il a géré et dirigé la création de nombreux produits d'apprentissage automatique, de la conception à la livraison.

Shirin Roshanafshar est gestionnaire de produits en science des données à la Division de la science des données de Statistique Canada. Shirin détient une maîtrise ès sciences en statistique de l'Université Carleton et elle se passionne pour les données et l'analyse. Shirin gère un groupe de scientifiques des données et de nombreux projets de science des données dans divers domaines comme l'apprentissage automatique, l'analyse des données, le traitement du langage naturel et l'automatisation.

Nikhil Widhani est scientifique des données à la Division de la science des données (DScD) de Statistique Canada. Il est titulaire d'une maîtrise en technologies du commerce électronique de l'Université d'Ottawa et d'un baccalauréat ès sciences en informatique. Son expérience s'étend à l'analyse des données, à l'ingénierie des données, au TLN et au développement Web. Auparavant, il a travaillé à divers projets à Environnement et Changement climatique Canada. Il travaille actuellement à des projets liés à l'extraction de renseignements et à la visualisation des données.

Joanne Yoon est scientifique principale des données à Statistique Canada et organise la communauté de pratique interministérielle du TLN. Elle a obtenu un baccalauréat en systèmes logiciels et une maîtrise professionnelle en mégadonnées à l'Université Simon Fraser.

Atelier 3

Une approche en science des données pour l'estimation des statistiques officielles : Exploiter le pouvoir des modèles d'apprentissage automatique
Kelly McConville, Reed College, Portland, Oregon

Résumé

L'estimation des données d'enquête est le gagne-pain de nombreux organismes statistiques. Comme les progrès technologiques et statistiques fournissent à la fois de nouvelles sources de données et de nouvelles techniques de modélisation, les procédures d'estimation doivent s'adapter à ces progrès. En combinant efficacement les données recueillies dans le cadre d'un plan d'échantillonnage complexe avec de nouvelles sources de données auxiliaires, nous pourrions accroître considérablement l'efficacité de nos estimateurs. Heureusement, la façon de tirer le meilleur parti de ces multiples sources de données a été un domaine dynamique de recherche récente en théorie des sondages.

Cet atelier présentera aux participants une approche moderne, assistée par un modèle, de l'estimation des enquêtes, où les modèles prédictifs servent de lien clé entre les données d'enquête et les données auxiliaires. Cette méthode couvrira une vaste catégorie de modèles prédictifs, y compris les modèles linéaires généralisés, la régression régularisée (filet élastique) et les arbres de régression. L'atelier comprendra également des démonstrations sur la façon d'ajuster ces estimateurs au moyen du logiciel statistique R. Les fichiers R Markdown seront fournis avec le code pertinent afin que les participants puissent suivre activement les démonstrations. Une expérience préalable en R est encouragée, mais non obligatoire.

Biographie : Kelly McConville

Kelly McConville est professeure agrégée de statistique au Reed College de Portland, en Oregon. Sa recherche en méthodologie consiste à intégrer de nouvelles techniques de modélisation dans les estimateurs d'enquête. Elle collabore activement avec le Bureau of Labor Statistics des États-Unis et le Forest Inventory and Analysis Program du US Forest Service, et dirige le Reed Forestry Data Science Research Lab. En plus de ses fonctions d'enseignement régulières, elle a donné plusieurs cours de formation continue, des webinaires et des ateliers sur R et divers sujets liés à la science des données et à la statistique.

Date de modification :