Le recueil du symposium est disponible. Veuillez consulter la page du catalogue de la série des symposiums internationaux de Statistique Canada : receuil pour accéder aux articles des présentations.
Toutes les heures indiquées dans l'horaire correspondent à l’Heure avancée de l'est (HAE) : UTC-4
Vendredi 15 octobre 2021
09 h 15 – 09 h 30
Mot d'ouverture
- Anil Arora, Statisticien en chef du Canada, Statistique Canada, Canada
09 h 30 – 10 h 30
Séance 1 -- Discours principal
Présidente de session : Sevgui Erman
- Progrès récent et les défis à venir pour la recherche en apprentissage automatique
Yoshua Bengio, Mila – Institut québécois d'intelligence artificielle, Canada-
Résumé
Les méthodologies d'apprentissage statistique telles que celle de l'apprentissage profond, inspiré par la cognition humaine et les neurosciences, ont fait des progrès phénoménaux au cours de la dernière décennie et sont déployées à grande échelle dans différents secteurs de la société. Quelles pourraient être les raisons de ce succès, qui semble parfois contredire les principes de la théorie de l'apprentissage statistique? Au fur et à mesure que plus de produits incorporent ces algorithmes, de nombreuses questions sont soulevées concernant leurs biais potentiels et d’autres enjeux éthiques autour de leur impact social. Il devient donc impératif de réglementer le déploiement de ces algorithmes, d’une manière coordonnée internationalement, pour minimiser leurs applications néfastes. Par ailleurs, les capacités à résoudre des problèmes et à généraliser correctement et de manière robuste ces systèmes sont loin derrière celles des êtres humains. Quelles directions de recherche visent à réduire cet écart avec l’intelligence humaine? Nous discuterons en particulier des questions fondamentales qui se posent concernant la capacité à généraliser hors de la distribution des données d’entraînement, et l’espoir qu’une perspective causale et l’inspiration cognitive pourraient nous aider à réduire cet écart avec l’intelligence humaine.
-
10 h 30 -- 10 h 45
Pause du matin
10 h 45 -- 12 h 00
Séance 2A -- Inférence à partir d'échantillons non-probabilistes
Président de session : Jean-François Beaumont
- Intégration des données d'enquête pour l'analyse de régression au moyen du calage assisté par un modèle
Jae-Kwang Kim, Iowa State University, États-Unis-
Résumé
L’intégration de données est un domaine de recherche émergente dans le domaine de l’échantillonnage d’enquête. En intégrant des renseignements partiels de sources externes, nous pouvons améliorer l’efficacité de l’estimateur obtenu et obtenir une analyse de paramètres plus fiable.
Dans cette étude, nous envisageons l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage de modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement défini correctement, mais peut être un outil utile pour intégrer les renseignements partiels. La mise en œuvre en tant que telle se fonde sur une application nouvelle de la méthode de vraisemblance empirique. La méthode proposée est particulièrement attirante pour combiner des renseignements de plusieurs sources présentant différentes tendances d’information manquante.
-
- Inférence bayésienne robuste pour les données de dénombrement avec diverses expositions dans les échantillons non probabilistes à l'aide des processus gaussiens de prédiction de la propension
Ali Rafei, University of Michigan, États-Unis-
Résumé
La disponibilité omniprésente de données non structurées à grande échelle a suscité un intérêt croissant dans l’utilisation de telles données pour produire des statistiques officielles. Toutefois, la nature non probabiliste du mécanisme d’échantillonnage soulève une grave préoccupation quant à l’éventuel biais de sélection lors de l’inférence relative à des populations finies. En présence d’un échantillonnage probabiliste pertinent, il est possible d’utiliser une pondération de propension inverse augmentée, afin d’assurer une inférence doublement robuste combinant l’idée de modélisation de la propension à celle de la modélisation de prédictions. Néanmoins, cette méthode peut ne plus être applicable lorsque le taux d’événements rares est d’intérêt en fonction de l’exposition de l’unité et que l’exposition moyenne est substantiellement différente selon les deux ensembles de données. De plus, inconvénient général des approches fondées sur le plan de sondage, cette méthode de correction peut ne pas être efficace en cas de preuve de pseudo-poids influents. Nous proposons une autre approche fondée sur un modèle, à l’aide d’une régression partiellement linéaire à processus gaussien, qui demeure doublement robuste dans ces circonstances. Il s’agit d’un modèle de prédiction binomiale négative doté d’une fonction souple de probabilités de pseudo-sélection estimées comme valeur explicative, afin d’imputer des résultats rares pour les unités non échantillonnées de la population; l’exposition variable est considérée comme compensée dans le modèle. Nous montrons que la régression à processus gaussien se comporte comme technique de mise en correspondance non paramétrique en fonction des résultats de propension estimés. Le deuxième avantage de la méthode que nous proposons est qu’elle peut être mise en œuvre dans un cadre bayésien. En utilisant la National Household Travel Survey (enquête nationale sur les voyages des ménages) de 2017 comme référence, nous appliquons notre méthode aux données naturalistes relatives à la conduite provenant de la deuxième phase du programme stratégique de recherche sur les autoroutes (SHRP2), afin d’estimer les taux d’accident de la circulation par mille parcouru et par année civile aux États-Unis.
-
- Progrès dans l'utilisation de l'information auxiliaire pour l'estimation à partir d'échantillons non probabilistes
Ramon Ferri Garcia, Universidad de Granada, Espagne-
Résumé
De récents développements des modes d’administration de questionnaires et d’extraction de données ont favorisé l’utilisation d’échantillons non probabilistes, qui font souvent l’objet de biais de sélection découlant d’un manque de plan de sondage ou d’autosélection des participants. Ce biais peut être traité par plusieurs ajustements, dont l’applicabilité dépend du type de renseignements auxiliaires disponibles. Des poids de calage peuvent être utilisés lorsque seuls des totaux de population de variables auxiliaires sont disponibles. En cas de disponibilité d’une enquête de référence respectant un plan de sondage probabiliste, plusieurs méthodes peuvent être appliquées, comme l’ajustement à l’aide du score de propension, l’appariement statistique ou l’imputation de masse, ainsi que des estimateurs doublement robustes. Lorsqu’un recensement complet de la population cible pour certaines covariables auxiliaires est disponible, des estimateurs fondés sur des modèles de superpopulation (souvent utilisés en échantillonnage probabiliste) peuvent être adaptés au cas d’échantillonnage non probabiliste. Nous avons étudié la combinaison de certaines de ces méthodes, afin de produire des estimations moins biaisées et plus efficaces, ainsi que l’utilisation de techniques de prédiction modernes (comme la classification par apprentissage automatique et des algorithmes de régression) dans les étapes de modélisation des ajustements décrits. Nous avons en outre étudié l’utilisation de techniques de sélection de variables avant l’étape de modélisation de l’ajustement à l’aide du score de propension. Les résultats indiquent que les ajustements fondés sur la combinaison de plusieurs méthodes peuvent améliorer l’efficacité des estimations et que l’utilisation de l’apprentissage automatique et de techniques de sélection de variables peut contribuer à réduire le biais et la variance des estimateurs dans une plus grande mesure dans plusieurs situations.
-
10 h 45 -- 12 h 00
Séance 2B -- Visualisation et schématisation des données d'image
Présidente de session : Hélène Bérard
- Modernisation des indicateurs de construction grâce à l'apprentissage automatique et à l'imagerie satellitaire
Aidan Smith, U.S. Census Bureau et Hector Ferronato, Reveal Global Consulting, États-Unis-
Résumé
Les organismes statistiques officiels doivent continuellement rechercher de nouvelles méthodes et techniques pouvant accroître l’efficacité des programmes et la pertinence des produits. La mesure de l’activité de construction qu’effectue le Bureau du recensement des États-Unis est actuellement une entreprise qui exige beaucoup de ressources et qui repose lourdement sur la réponse aux enquêtes mensuelles au moyen de questionnaires et d’une collecte massive de données sur le terrain. Nos utilisateurs de données requièrent continuellement des produits de données plus actuels et plus détaillés, mais l’approche traditionnelle par enquête et le coût de collecte connexe, ainsi que le fardeau du répondant limitent notre capacité à répondre à ces besoins. La disponibilité de l’imagerie satellitaire et les progrès des techniques de science des données présentent une occasion unique de surmonter ces limites.
Depuis 1959, le Bureau du recensement des États-Unis mène l’enquête sur la construction afin de produire des estimations mensuelles des mises en chantier et des achèvements de logements dans le cadre de l’indicateur économique fédéral principal des nouvelles constructions résidentielles. En 2019, nous avons commencé des recherches pour savoir si l’application de techniques d’apprentissage automatique à l’imagerie satellitaire pouvait permettre d’estimer de façon exacte les mises en chantier et les achèvements de logements, tout en respectant les échéances de notre indicateur mensuel existant, et ce, à un coût inférieur ou égal à nos méthodes existantes. À l’aide des données historiques de l’enquête sur la construction du recensement en combinaison avec une imagerie satellitaire ciblée, l’équipe a formé, mis à l’essai et validé deux réseaux neuronaux convolutifs capables de classer les images selon leur étape de construction. Utilisé conjointement à des modèles de limite de construction et de détection du changement, ce projet démontre la viabilité d’une approche fondée sur la science des données pour produire des mesures officielles de l’activité de construction.
-
- Le tableau de bord de la désaisonnalisation de Statistique Canada
François Verret, Statistique Canada, Canada-
Résumé
La méthode X-12-ARIMA est utilisée pour faire la désaisonnalisation de séries chronologiques à Statistique Canada. Pour la plupart des programmes statistiques effectuant la désaisonnalisation, les experts des domaines spécialisés (EDS) sont responsables de la gestion du programme, ainsi que de la validation, de l’analyse et la diffusion des données; tandis que les méthodologistes du Centre de recherche et d’analyse en séries chronologiques (CRASC) sont responsables du développement et de la maintenance du processus de désaisonnalisation, de même que de fournir du soutien sur la désaisonnalisation aux EDS. Un rapport sommaire visuel appelé le tableau de bord de la désaisonnalisation a été développé à l’aide de R Shiny par le CRASC afin de développer les compétences en interprétation de données désaisonnalisées et de réduire les ressources nécessaires au soutien sur la désaisonnalisation. Il est présentement mis à la disposition des EDS au sein de l’agence afin de les aider à interpréter et à expliquer les séries désaisonnalisées. Le rapport sommaire inclut des graphiques des séries au fil du temps, en plus de résumer les différents effets saisonniers et de calendrier ainsi que leurs patrons. De plus, les diagnostics de désaisonnalisation clés sont exposés et l’effet net de l’ajustement saisonnier est décomposé en ses différentes composantes. Dans cette présentation, on montrera comment le processus de désaisonnalisation est représenté visuellement et on donnera une démonstration du rapport et de ses fonctionnalités interactives.
-
- Diagnostic de connectivité dans l’éducation brésilienne, une approche pour soutenir la formulation des politiques publiques pour la connectivité dans l’éducation
Paulo Kuester Neto, Brazilian Network Information Center, Brésil-
Résumé
Étant donné que ces dernières années nous avons assisté à une profonde transformation numérique dans divers secteurs de la société et à une hausse de la disponibilité de données, nous devons prêter attention à l’importance d’un nettoyage de données adéquat. D’un autre côté, cette situation donne l’opportunité d’utiliser de telles données conjointement à des statistiques officielles pour fournir une vision holistique aux décideurs et aux responsables de l’élaboration de politiques publiques.
La promotion d’agir à partir de données de source ouverte et d’indicateurs, que ce soit par des organismes gouvernementaux, des instituts statistiques nationaux, voire le secteur tertiaire organisé, présente des défis, mais également une occasion immense : obtenir un portrait présentant moins de facettes multiples de la réalité ou de l’objet observé. La présente étude contribue à cette vision, en rendant publique une application Web en R-Shiny qui permet, au moyen de bases de données de statistiques officielles comme le recensement brésilien auprès des établissements d’enseignement (INEP), les objets géographiques (IBGE), les données d’un organisme national de réglementation (ANATEL) et les mesures de la qualité d’Internet (NIC.br), de fournir un diagnostic moins fragmenté de la condition de la connectivité dans 144 000 établissements d’enseignement publics brésiliens. À cette fin, un agent de mesure a été élaboré en partenariat avec le ministère brésilien de l’Éducation, recueille des mesures de la connectivité dans ces établissements d’enseignement publics et qui, au moyen de sommaires et de statistiques composées, permet une visualisation au niveau des différents États (27) et des municipalités (5572) du Brésil. Le principal objectif étant de soutenir les secrétariats et les directeurs d’établissements d’État et de municipalités ainsi que les concepteurs de politiques en matière de connectivité et d’éducation pouvant faire des coupures, afin de vérifier quantitativement et géographiquement l’état de leur réseau d’éducation.
-
- Outil interactif de Productivité multifactorielle
Ken Peng, Ryan Macdonald et Claudiu Motoc, Statistique Canada, Canada-
Résumé
L’application Productivité multifacteurs est un outil analytique qui fournit une agrégation et une tabulation personnalisées des statistiques de productivité basées sur une série du tableau CODR 36-10-0211. L’application permet une agrégation personnalisée entre les industries pour toutes les variables publiées, la transformation de données telles que les calculs de taux de croissance, la transformation à l’aide du log et le changement de base de l’index, l’analyse de corrélation et de densité et la visualisation des sorties créées. Les valeurs de sortie calculées sont disponibles sous forme de fichiers .csv. Les visualisations peuvent être téléchargées sous forme de fichiers .png. Les données de l’application incluent des valeurs annuelles commençant en 1961 et se terminant par les données les plus récentes disponibles. L’application a été développée en R sur une plate-forme Windows et utilise un certain nombre de packages.
-
12 h 00 – 12 h 30
Pause de l'après-midi
12 h 30 – 13 h 45
Séance 3A -- Considérations reliées à la qualité lors de l'utilisation de l'apprentissage automatique pour la production de statistiques
Président de session : Wesley Yung
- Avec l'apprentissage automatique viennent de grands pouvoirs, soyons responsables !
Keven Bosa, Statistique Canada, Canada-
Résumé
Un cadre pour l’utilisation des processus d’apprentissage automatique de façon responsable a été élaboré à Statistique Canada. Le cadre comprend des lignes directrices pour l’usage responsable de l’apprentissage automatique et une liste de contrôle connexe, qui sont organisées en quatre thèmes : le respect des personnes; le respect des données; des méthodes éprouvées; une application rigoureuse. Les quatre thèmes mis en commun assurent l'utilisation éthique des algorithmes et des résultats de l’apprentissage automatique.
Le cadre est ancré dans une vision qui cherche à créer un milieu de travail moderne et à fournir une orientation et un soutien à ceux qui utilisent les techniques d’apprentissage automatique. Il s’applique à tous les programmes et projets statistiques menés par Statistique Canada qui utilisent des algorithmes d’apprentissage automatique. Cela comprend les algorithmes d’apprentissage supervisés et non supervisés.
Durant la présentation, le cadre et les lignes directrices le supportant seront présentés dans un premier temps. Le processus de revue des projets utilisant l’apprentissage automatique, soit la façon dont le cadre est appliqué aux projets de Statistique Canada, sera expliqué. Finalement, des travaux futurs pour améliorer le cadre seront décrits.
-
- Conception d'un apprentissage statistique sans biais par rapport au plan
Li-Chun Zhang, University of Southampton, Royaume-Uni-
Résumé
Un problème de base relatif à l’apprentissage automatique (AA) supervisé est qu’il est nécessaire d’« extrapoler » le modèle appris de l’échantillon disponible aux unités hors de l’échantillon, pour que l’apprentissage présente une quelconque valeur. Quelle que soit l’organisation de l’apprentissage selon l’échantillon, il n’est pas possible d’être certain qu’il soit valide hors de l’échantillon, sauf si l’échantillon est sélectionné à partir de la population d’une manière contrôlée. Ce problème bien connu de l’inférence statistique est parfois substitué au problème de dérive de concept dans la littérature relative à l’apprentissage automatique.
Nous développons une méthode Rao-Blackwell de sous-échantillonnage pour une estimation exactement sans biais par rapport au plan de sondage, à l’aide de toute technique d’AA, en combinant trois idées classiques de l’AA et de la science statistique : fractionnement d’échantillon par formation-essai, Rao-Blackwellisation, et estimation basée sur un modèle par rapport au plan de sondage. Selon notre approche, par exemple, il est possible d’être certain que remplacer une régression linéaire par une forêt aléatoire mènerait toujours à une estimation basée sur un modèle valide. Ainsi, chaque fois que des données riches en caractéristiques sont disponibles, la méthode permet d’adopter automatiquement toute technique d’AA souple permettant d’estimer des statistiques descriptives au niveau agrégé, indépendamment des propriétés inconnues de la population (Neyman, 1934).
Outre l’absence de biais par rapport au plan de sondage, nous avons élaboré des conditions de stabilité aux fins de cohérence du plan dans le cadre à la fois de plans d’échantillonnage aléatoire simple et d’échantillonnage probabiliste arbitrairement inégal.
-
- Modèles de forêts aléatoires, une proposition pour l'analyse de stratégies de vérification sélective
Roberta Varriale, ISTAT, Italie-
Résumé
L’Istat a lancé un nouveau projet relatif aux processus statistiques à court terme, afin de respecter la future nouvelle réglementation européenne visant à diffuser des estimations plus rapidement. L’évaluation et l’analyse du processus d’enquête actuel de l’enquête à court terme sur le taux de roulement des Services (FAS) visent à relever la façon dont les meilleures caractéristiques des méthodes et pratiques actuelles peuvent être exploitées pour concevoir un processus plus « efficace ». Le projet devrait, en particulier, fournir des méthodes permettant d’appliquer en général d’importantes économies d’échelle, de portée et de connaissances au contexte productif d’enquêtes sur le taux de roulement des services, ayant généralement recours à un nombre limité de ressources. L’analyse du processus TEL QUEL a révélé que l’enquête FAS entraînait des coûts substantiels de vérification et d’imputation, en particulier du fait de l’importance du suivi et de la vérification interactive utilisés pour tous les types d’erreurs détectées.
Dans cette optique, nous avons essayé d’exploiter les leçons apprises en participant au Groupe de haut niveau sur la modernisation des statistiques officielles (GHN-MSO, CEE-ONU) sur l’utilisation de l’apprentissage automatique dans les statistiques officielles. Dans cette étude, nous présentons une première expérience utilisant les modèles de forêt aléatoire pour : i) prédire les unités représentant des données « douteuses », ii) évaluer l’utilisation du potentiel de prédiction sur de nouvelles données et iii) explorer des données afin de relever des règles et des tendances cachées. Nous nous concentrons en particulier sur le recours à la modélisation par forêt aléatoire pour comparer certaines autres méthodes en matière d’efficacité de la prédiction d’erreurs et pour traiter des aspects principaux de la nouvelle conception du schéma de vérification et imputation.
-
12 h 30 – 13 h 45
Séance 3B -- Solutions innovantes pour les applications en sciences sociales
Président de session : Martin Renaud
- Tirer parti du pouvoir des données administratives dans le cadre du Programme d'élaboration de données sociales longitudinales
Larry MacNabb et Jenneke Le Moullec, Statistique Canada, Canada-
Résumé
En raison des demandes accrues de renseignements désagrégés sur des sujets de plus en plus complexes, conjointement avec les préoccupations relatives au fardeau de réponse et aux taux de réponse aux enquêtes décroissants, il a été nécessaire de regarder au-delà des enquêtes auprès des ménages pour faire face aux questions d’actualité et d’avenir. Le Programme d’élaboration de données sociales longitudinales (PEDSL) est un nouveau programme étudiant actuellement la façon dont les données administratives peuvent permettre de répondre à ces défis. Cette présentation fournit un aperçu de la façon dont le PEDSL cherche à étendre l’utilisation des données administratives. Les domaines innovants actuellement explorés comprennent des méthodes de remplacement de variables pour des enquêtes sociales, l’analyse intersectorielle pour répondre aux demandes urgentes d’interprétation, comme la crise des opioïdes, et enfin la façon dont les données administratives peuvent être utilisées dans une analyse multisectorielle de cohorte tout au long d’une vie. Les éléments couverts comprennent la progression, les techniques innovantes et les défis à résoudre.
-
- Prédire les transitions vers la pauvreté et hors de celle-ci, à l'aide de l'apprentissage automatique
Joep Burger et Jan van der Laan, Statistics Netherlands, Pays-Bas-
Résumé
Le premier objectif lié au développement durable fixé par l’Organisation des Nations Unies en 2015 est d’« éliminer la pauvreté sous toutes ses formes et partout dans le monde » d’ici 2030. Pour mettre fin à la pauvreté, il est important de pouvoir relever les facteurs de risque à l’origine des transitions de début et de fin de pauvreté. Des facteurs de risque de pauvreté bien connus sont des caractéristiques individuelles macroéconomiques qui influent sur le revenu et les dépenses. Les décideurs doivent cependant dépasser les moyennes pour combattre efficacement les soi-disant microengrenages de la pauvreté. L’apprentissage automatique supervisé permet une schématisation plus souple des relations non linéaires et des interactions complexes que ne le permettent les techniques de régression traditionnelles. Le système néerlandais d’ensembles de données statistiques sociales fournit les données nécessaires à la fois en ce qui concerne la couverture de la population et l’espace des caractéristiques. Le présent document porte sur deux questions de recherche : 1) Dans quelle mesure la pauvreté individuelle (transitions de début et de fin de la pauvreté) peut-elle être estimée à partir d’histoires de vie enregistrées à l’aide de l’apprentissage automatique supervisé? 2) Cette approche révèle-t-elle une nouvelle compréhension des facteurs de risque de pauvreté? Deux modèles d’optimisation de gradient ont été élaborés : un pour estimer la probabilité qu’une personne n’étant pas pauvre une année le devienne l’année suivante et l’autre pour estimer la probabilité qu’une personne pauvre une année le demeure l’année suivante. Plus de cinq cents caractéristiques ont été dérivées (sur les personnes, les ménages, les logements et les quartiers) au cours des trois dernières années, couvrant les domaines de la démographie, de l’économie, de la criminalité et de la santé. Outre le rendement des modèles, nous avons étudié l’importance, les effets et les interactions des caractéristiques à l’aide de la technique SHAP (explications additives de Shapley) et de la dépendance partielle. Pour aller plus loin que les facteurs de risque bien connus, nous avons également étudié les sous-populations qui diffèrent sur le plan du taux de pauvreté moyen observé défini par les modèles. Nous discuterons des forces et des faiblesses de l’approche appliquée.
-
- Combler l'écart entre les professions délogées et les professions recherchées
Vishal Subramanian Balashankar, Badri Venkataraman et Chris Astle, Cybera, Canada-
Résumé
Du fait de l’incertitude croissante relative au marché de l’emploi au Canada, des initiatives novatrices sont nécessaires pour aider les travailleurs déplacés à se recycler, à mettre leurs compétences à niveau et éventuellement à se tourner vers des professions en demande. Dans notre étude, nous présentons une approche unique comblant l’écart entre les professions déplacées et celles en demande et fournissons également un cadre d’apprentissage automatique visant à prévoir l’emploi en fonction des codes SCIAN pour 6 mois. Afin d’atteindre notre objectif, nous avons combiné les données mensuelles sur l’emploi provenant de l’Enquête sur la population active de Statistique Canada au dénombrement d’offres d’emploi mensuelles provenant de Burning Glass.
Notre approche comprend les trois étapes suivantes :
- Cerner les professions déplacées en Alberta au cours des 7 dernières années en fonction des données intégrées réelles relatives à l’emploi et au dénombrement d’offres d’emploi. Une validation est effectuée pour corréler les deux ensembles de données à cette étape.
- À l’aide de la liste de professions déplacées, un graphique croisé unique est élaboré pour faire correspondre une profession déplacée à une liste de professions en demande similaires à la profession déplacée choisie. Pour établir la similarité entre les professions, un score de similarité (provenant de Burning Glass) est employé. Une fois qu’une profession en demande potentielle est sélectionnée, l’écart en matière de compétences est calculé et présenté à l’utilisateur.
- Application des modèles SARIMA et SARIMAX pour prévoir l’emploi sur 6 mois. Les modèles présentent une erreur absolue moyenne en pourcentage de 1,4 % et de 10,76 % respectivement dans les ensembles de test de 2019 et 2020, pour tous les secteurs du SCIAN. Les prédictions mensuelles présentent des erreurs inférieures à 0,5 %.
Les approches susmentionnées visent à aider le gouvernement en matière de conception et de planification de politiques publiques.
-
- Apprentissage automatique pour estimer les effets de traitement hétérogènes dans les évaluations de programmes
Yves Gingras, Leeroy Tristan Rikhi et Andy Handouyahia, Emploi et Développement social Canada, Canada-
Résumé
Notre étude montre comment la Direction de l’évaluation d’Emploi et Développement social Canada (EDSC) utilise des données administratives riches ainsi que des « forêts causales modifiées » (MCF), un estimateur causal d’apprentissage automatique, afin d’éclairer l’élaboration de politiques au moyen d’évaluations des répercussions. Nous illustrons notre application de l’algorithme MCF novateur pour estimer les effets de traitement individualisé et ainsi apprendre ce qui fonctionne et pour qui. Cette initiative reflète pleinement l’engagement du gouvernement du Canada à mettre en œuvre une perspective d’analyse comparative entre les sexes plus (ACS+) dans le cadre de travaux d’évaluation, veillant ainsi à ce que des répercussions différentielles sur les personnes de divers milieux sociodémographiques soient prises en compte lors de l’élaboration de politiques et de programmes.
-
13 h 45 – 14 h 15
Événement de réseautage
Vendredi 22 octobre 2021
10 h 00 – 11 h 00
Séance 4 -- À la mémoire du professeur Chris Skinner
Président de session : Danny Pfeffermann
- Contrôle de la divulgation statistique et développements dans la protection officielle des renseignements - Notes du discours Waksberg de Chris Skinner
Natalie Shlomo, University of Manchester, Royaume-Uni-
Résumé
Chris Skinner a été le récipiendaire du prix Waksberg en 2019 et n'a malheureusement jamais eu l'occasion de présenter son discours lors du Symposium international canadien sur les questions de méthodologie. À partir de ses notes, qui m’ont été transmises par son fils, Tom Skinner, je donnerai un aperçu du contrôle de la divulgation statistique (CDS) au cours des dernières décennies et de la façon dont celui-ci a évolué vers des définitions plus formelles de la vie privée. Je soulignerai aussi les nombreuses contributions de Chris dans le domaine du CDS. J'aborderai ses recherches fondamentales, en commençant par les années 1990 avec ses travaux sur la publication des micro-données de l'échantillon du recensement au Royaume-Uni. Cela a conduit à un éventail de recherches sur la mesure du risque de ré-identification dans les micro-données d'enquête par des modèles probabilistes. Chris était très compétent et a élargi la profondeur et l'étendue de la recherche du CDS avec des publications sur le risque de divulgation et les préjudices, le risque de divulgation et le couplage d'enregistrements, le risque de divulgation et la science médico-légale et, plus récemment, le risque de divulgation et la confidentialité différentielle. Les décennies de recherche de Chris sur le CDS ont fait de lui la voix ultime d'une génération.
-
11 h 00 – 11 h 15
Pause du matin
11 h 15 -- 12 h 30
Séance 5A -- Enjeux reliés à l'éthique et à la vie privée dans l'application de la science des données dans les statistiques officielles
Président de session : Martin Beaulieu
- Explication de « l'explicabilité » pour la prise de décision fiable
Leilani Hendrina Gilpin, Sony AI / MIT Computer Science and Artificial Intelligence Laboratory, États-Unis-
Résumé
Un certain intérêt s’est récemment dirigé vers le domaine de l’intelligence artificielle explicative (IAX), qui s’efforce de créer des mécanismes pouvant être compris et interprétés par l’homme dès la conception ou après les faits. Ces promesses ne reflètent cependant pas les capacités techniques des explications, qui sont généralement produites après les faits, sans mesurer l’exhaustivité ou la véracité de l’explication par rapport au traitement du mécanisme sous-jacent (possiblement opaque). Dans cette présentation, je passe en revue les capacités actuelles de l’IAX et je me concentre sur la nécessité de l’explicabilité pour élaborer des systèmes d’IAX constituant des décideurs éthiques et fiables.
-
- Atténuation de la discrimination algorithmique en IA
Golnoosh Farnadi, HEC Montréal, Canada-
Résumé
Les outils d’IA et d’apprentissage automatique sont utilisés de plus en plus fréquemment pour prendre des décisions dans des domaines influant sur la vie des gens, comme l’emploi, l’éducation, le maintien de l’ordre et l’approbation de prêts. Ces utilisations soulèvent des préoccupations en matière de biais et de discrimination algorithmique et ont encouragé l’élaboration de mécanismes de conscience d’équité au sein de la communauté de l’apprentissage automatique (AA). Dans cette présentation, je montrerai comment mesurer le biais et définir l’équité et j’expliquerai pourquoi c’est une tâche difficile. Je présenterai ensuite des techniques de mon groupe visant à veiller à l’équité à différentes étapes du bassin d’AA/IA. Je conclurai ma présentation par les leçons à retenir, des questions ouvertes et les orientations futures permettant d’établir un système d’IA fiable.
-
- Donner le pouvoir aux analystes de tenir compte de l'éthique de leur travail : Une étude de cas du cadre d'éthique des données de la United Kingdom Statistics Authority du Royaume-Uni
Simon Whitworth, UK Statistics Authority, Royaume-Uni-
Résumé
Notre société devient de plus en plus numérique et offre de multiples possibilités de maximiser notre utilisation des données dans l'intérêt du public - en utilisant un éventail de sources, de types de données et de technologies pour nous permettre de mieux informer le public sur les questions sociales et économiques et de contribuer à l'élaboration et à l'évaluation efficaces des politiques gouvernementales. Un facteur important pour concrétiser le potentiel d'utilisation des données pour la recherche et les statistiques d'intérêt public est la garantie de l'utilisation des données de manière éthiquement appropriée. Au début de l’année, la United Kingdom Statistics Authority a lancé le Centre for Applied Data Ethics afin de fournir des services, des conseils, des formations et des orientations concernant l'éthique des données à la communauté des analystes du Royaume-Uni. Le Centre a développé un cadre et un portefeuille de services pour habiliter les analystes à considérer l'éthique de leur recherche rapidement et facilement, dès la phase de conception de la recherche, promouvant ainsi une culture de l'éthique par design. Cette séance donnera un aperçu de ce cadre, des services de soutien aux utilisateurs qui l’accompagnent, de l'impact de ce travail et des plans futurs pour le travail du Centre.
-
11 h 15 -- 12 h 30
Séance 5B -- La qualité et l'erreur de mesure
Président de session : Fritz Pierre
- Création d'un indicateur composite de la qualité pour les estimations fondées sur des données administratives au moyen du partitionnement
Roxanne Gagnon, Martin Beaulieu, Danielle Lebrasseur, Wei Qian et Anthony Yeung, Statistique Canada, Canada-
Résumé
Mesurer et communiquer la qualité est un défi pour les programmes statistiques utilisant seulement des données administratives. Des indicateurs de qualité, comme les taux de codage, les taux de déclaration ou les taux d’erreur de couplage, sont des renseignements utiles pour évaluer l’exactitude des variables obtenues à partir des données administratives. Ce qui n’est pas aussi évident est la façon dont ces indicateurs peuvent également servir à communiquer aux utilisateurs les renseignements relatifs à la qualité ainsi que des recommandations claires sur la manière d’utiliser les estimations publiées.
Un exemple de programme ayant exclusivement recours à des sources de données administratives pour produire des estimations est le Programme de la statistique du logement canadien (PSLC). Ce programme fournit des renseignements complets permettant de surveiller et d’analyser le marché du logement canadien en combinant de multiples sources de données administratives. Ces sources présentent des niveaux de qualité variables au moment de leur acquisition et les diverses étapes nécessaires pour traiter ces données et produire des estimations finales peuvent éventuellement introduire des erreurs.
L’apprentissage automatique non supervisé est une façon de créer un indicateur de qualité composite permettant de décrire l’exactitude de diverses estimations d’un tableau multidimensionnel. Dans cette présentation, nous décrirons comment un algorithme de partitionnement a servi à regrouper des domaines similaires en matière d’indicateurs de qualité dérivés pour diverses étapes de post-acquisition, comme le couplage, le géocodage et l’imputation. Cette analyse a été utilisée pour attribuer des étiquettes aux groupes obtenus et informer les utilisateurs sur leur qualité globale relative.
-
- Erreur de mesure du couvert forestier en milieu urbain et incertitude supplémentaire dans les estimations des services écosystémiques
James Westfall, Jason G. Henning et Christopher B. Edgar, U.S. Forest Service, The Davey Institute et University of Minnesota, États-Unis-
Résumé
La collecte et l’analyse de données d’inventaire des forêts urbaines ont régulièrement augmenté ces dernières décennies. Outre les évaluations typiques de leur structure et de leur composition, la quantité et la valeur des services des écosystèmes sont estimées comme indicateurs des avantages pour les populations anthropologiques. Les inventaires urbains étant fondés sur un échantillon, les sources d’incertitude et leur ampleur fournissent d’importants renseignements permettant de juger la fiabilité des paramètres de population estimés. La plupart des outils analytiques fournissent une statistique d’erreur d’échantillonnage, mais d’autres types d’incertitudes dues aux mesures ou à des modèles statistiques ne sont pas pris en compte. Dans cette étude, la variation des mesures pour une suite d’attributs relatifs aux arbres urbains a été examinée et des mesures se sont avérées aussi ou moins variables que celles relevées pour des arbres forestiers. L’exception marquante a été le diamètre de l’arbre présentant une variabilité plus élevée. Outre la quantification de la variabilité de la mesure, des simulations propageant la variation ont évalué la variance supplémentaire obtenue pour des estimations des services des écosystèmes et les évaluations associées. En général, on a observé une hausse d’environ 1 % ou moins de l’erreur type pour la plupart des services des écosystèmes et leur valeur. La variation des mesures peut entraîner davantage d’incertitudes pour les inventaires urbains, manquant de formation adéquate des équipes sur le terrain et de processus d’assurance de la qualité.
-
- Données administratives pour l'estimation de la population : apprentissage statistique des premières vagues du recensement permanent de la population italienne
Angela Chieppa, Nicoletta Cibella, Antonella Bernardini, Silvia Farano et Giampaolo de Matteis, ISTAT, Italie-
Résumé
Le Recensement de la population et des logements permanent est la nouvelle stratégie de recensement adoptée en Italie en 2018; il est fondé sur des registres statistiques combinés à des données recueillies au moyen d’enquêtes spécifiquement conçues pour améliorer la qualité des registres et garantir les produits du recensement. Le registre au cœur du recensement permanent est le registre de base de la population (PBR), dont les principales sources administratives sont les registres locaux de la population.
Les chiffres de population sont déterminés en corrigeant les données du PBR avec des coefficients fondés sur les erreurs de couverture, estimés à l’aide des données d’enquête, mais le besoin d’autres sources administratives est clairement apparu au cours du traitement des données recueillies lors du premier cycle du recensement permanent. L’interruption provisoire des enquêtes du fait de l’urgence de la pandémie mondiale et la réduction importante du budget du recensement pour l’année suivante ont modifié le processus d’estimation en rendant plus urgent le recours aux données administratives comme principale source.
Un registre thématique a été mis en place afin d’exploiter toutes les sources administratives supplémentaires; l’extraction de connaissances à partir de cette base de données est essentielle pour mettre en évidence les tendances pertinentes et créer de nouvelles dimensions, appelées « signes de vie », utiles pour l’estimation de la population.
La disponibilité des données recueillies lors des deux premières vagues du recensement offre un ensemble unique et précieux aux fins d’apprentissage statistique; l’association entre les résultats d’enquête et les « signes de vie » pourrait servir à créer un modèle de classification permettant de prédire des erreurs de couverture dans le PBR.
-
- Mesure du sous-dénombrement de deux sources de données dont la couverture est presque parfaite par capture et recapture en présence d'erreurs de couplage
Abel Dasylva, Arthur Goussanou et Christian Olivier Nambeu, Statistique Canada, Canada-
Résumé
Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données synthétiques générées à partir des données du recensement public du Canada et des États-Unis.
-
12 h 30 – 13 h 00
Pause de l'après-midi
13 h 00 – 14 h 15
Séance 6A -- Visualisation des données pour les statistiques officielles
Présidente de session : France Labrecque
- Repérage, exploration et exportation de données avec l'Explorateur géospatial des statistiques canadiennes
France Labrecque, Statistique Canada, Canada-
Résumé
L’Explorateur géospatial des statistiques canadiennes (EGSC) est une application cartographique en ligne habilitant les utilisateurs à découvrir les données géospatiales de Statistique Canada à différents niveaux de détails géographiques sur des cartes thématiques. À l’aide d’une liste hiérarchique de filtres dynamiques, les utilisateurs peuvent accéder à des milliers d’indicateurs sanitaires, démographiques et socioéconomiques provenant du recensement, d’autres enquêtes et d’ensembles de données produits et recueillis par l’organisme. Les utilisateurs peuvent également personnaliser l’affichage de la carte thématique (couleurs et répartition des données), modifier les cartes de base (imagerie satellitaire, topographie, etc.), afin de visualiser les données dans un contexte différent, puis exporter la carte ou les données sélectionnées dans divers formats à utiliser au sein de leurs propres flux de travail. En bref, l’application vise à être un outil permettant de trouver, d’explorer et d’exporter rapidement des données à partir d’un seul écran, accessible avec n’importe quel appareil.
-
- Approche novatrice de l'Irlande pour le suivi des ODD et de l'éclosion de la COVID-19 par visualisation géospatiale
Kevin McCormack, Central Statistics Office, Irlande-
Résumé
Nous discuterons de l’approche innovante de l’Irlande pour surveiller les indicateurs nationaux relatifs aux objectifs liés au développement durable (ODD) de l’ONU et à la flambée épidémique de COVID-19, à l’aide de systèmes d’information géographique. Nous ferons référence aux cadres globaux, statistiques et géospatiaux, qui reposent sur le travail de l’Irlande. Nous présenterons en détail les écosystèmes de production de rapports relatifs aux ODD et à la COVID-19; le National Statistics Office (bureau national de la statistique) jouant un rôle central.
Nous démontrerons que l’élaboration d’une relation étroite et efficace entre les communautés statistiques et géospatiales irlandaises a facilité l’élaboration rapide des centres nationaux irlandais sur les ODD et la COVID-19, qui sont des tableaux de bord géospatiaux. Ces tableaux de bord sont reconnus au niveau national comme des voies de diffusion et de communication importantes. Dans ces tableaux de bord, les données géospatiales sont visualisées pour plusieurs niveaux géographiques du pays.
-
- Les stratégies de l'INEGI vers une approche de diffusion axée sur l'utilisateur
Andrea Fernandez Conde, Instituto Nacional de Estadística, Geografía e Informática, Mexique-
Résumé
Une étude nationale de 2017 a révélé que 88,5 % des unités économiques du Mexique font confiance à l’Institut national de statistiques et de géographie mexicain (Instituto Nacional de Estadística, Geografía e Informática; INEGI). Néanmoins, seuls 10,3 % d’entre elles ont déclaré utiliser ses données pour éclairer leurs activités commerciales. L’écart entre la confiance et l’utilisation a été associé à des défis relatifs à l’accessibilité des données de l’INEGI.
Certaines difficultés d’accessibilité rencontrées comprennent des approches cloisonnées en matière de diffusion (p. ex. par domaine ou programme statistique), ayant mené à l’émergence de multiples outils présentant différents sous-ensembles de données et des architectures indépendantes. Le temps de développement se concentre, par conséquent, principalement sur le soutien et les mises à jour de l’écosystème. De plus, les utilisateurs sont traités comme de simples entités homogènes. Les outils ne correspondaient donc pas nécessairement à une fin d’utilisation particulière; ce qui compliquait leur utilisation. Enfin, il n’existait aucune boucle de rétroaction entre l’utilisateur visé et la conception des outils.
Pour faire face aux défis d’accessibilité, la direction a créé une unité de diffusion à l’échelle de l’organisme. Cette unité de diffusion a été conçue avec le mandat à long terme d’améliorer l’accessibilité et la qualité de service. Le Modèle générique du processus de production statistique (GSBPM) a été le cadre nous permettant de séparer la responsabilité des producteurs et des diffuseurs, tout en créant un espace de collaboration multidisciplinaire. Dans cette présentation, les processus de l’unité de diffusion sont présentés, ainsi que le cadre d’assurance de la qualité guidant leur plan de travail.
Depuis la création de l’unité de diffusion, le nombre d’utilisateurs du site Web de l’INEGI a augmenté, passant de 10 millions en 2016 à 13,3 millions en 2020; les visites, de 62,5 millions à 70,1 millions et les téléchargements, de 3,3 millions à 7,2 millions. Au cours de la même période, le niveau de satisfaction, sur une échelle de zéro à 100, déclaré par nos utilisateurs, correspondant à la qualité de la navigation et de l’organisation, est passé de 60,3 à 83,8. Nous sommes convaincus que notre cadre pourrait être bénéfique à d’autres organismes nationaux de statistiques dans le monde.
-
13 h 00 – 14 h 15
Séance 6B – Santé et COVID-19
Présidente de session : Julie Bernier
- Expériences des médecins pendant la pandémie de COVID-19 aux États-Unis : Adaptation d'une enquête annuelle pour évaluer les défis liés à la pandémie
Zachary J. Peters et Danielle Davis, National Center for Health Statistics, États-Unis-
Résumé
Le National Center for Health Statistics (NCHS) des États-Unis administre chaque année la National Ambulatory Medical Care Survey (NAMCS), afin d’évaluer les caractéristiques des cabinets ainsi que les soins fournis par les médecins de cabinets médicaux aux États-Unis, y compris à l’aide d’interviews d’un échantillon de médecins. Cette présentation décrit les défis, les possibilités et les ajustements méthodologiques associés à l’administration de l’enquête NAMCS de 2020 au cours de la pandémie de COVID-19.
Après l’éclosion de la pandémie, le NCHS a adapté la méthodologie de l’enquête NAMCS afin d’évaluer les répercussions de la COVID-19 sur les médecins de cabinets médicaux. En particulier, au milieu de 2020, le NCHS a ajouté des questions à l’interview de l’enquête NAMCS auprès des médecins afin d’évaluer leur expérience relativement à la COVID-19, notamment les pénuries d’équipement de protection individuelle, les tests de dépistage de la COVID-19 aux cabinets médicaux, les prestataires recevant un diagnostic positif à la COVID-19 et le recours à la télémédecine au cours de la pandémie.
Le NCHS a également introduit de nouvelles stratégies d’analyse et de diffusion en vue d’utiliser ces ajustements de la méthodologie d’enquête. Pour améliorer la rapidité, des poids trimestriels ont été élaborés afin de permettre la diffusion anticipée des estimations relatives aux médecins représentatives au niveau national à la fin de chaque période d’interview. Les estimations des expériences des médecins seront diffusées au moyen de tableaux de bord de données sur le site Web du NCHS (première diffusion à l’été 2021), mis à jour chaque trimestre et accompagné des fichiers de données correspondants aux fins d’utilisation publique. Les présentateurs discutent de l’élaboration et de l’utilité de ces tableaux de bord et détaillent les mesures des expériences des médecins au cours de la pandémie de COVID-19.
Même si la COVID-19 a présenté des défis, le NCHS a adapté et modernisé l’enquête NAMCS en produisant des statistiques plus ouvertes et plus rapides et en diffusant des données plus interactives et axées sur l’utilisateur.
-
- Application de l'approche axée sur la science des données à la modélisation épidémiologique de la COVID-19 pour éclairer la demande et l'approvisionnement en EPI au Canada
Deirdre Hennessy, Jihoon Choi, Joel Barnes, Christina Tucker, Kayle Hatt, Gillian Dawson et James Van Loon, Statistique Canada et Santé Canada, Canada-
Résumé
La pandémie mondiale de coronavirus du syndrome respiratoire aigu sévère 2 (SRAS-CoV-2) continue de présenter une menace grave sur la santé de la population canadienne. En avril 2021, plus d’un million de cas diagnostiqués et 20 000 décès avaient été enregistrés au Canada.
En raison de la pandémie de SRAS-CoV-2, le gouvernement du Canada doit répondre à des demandes sans précédent afin de fournir des informations actuelles, exactes et pertinentes en vue d’éclairer l’élaboration de politiques relatives à de nombreux enjeux, notamment l’approvisionnement en équipement de protection individuelle (EPI) et le déploiement d’EPI vers les provinces et les territoires. L’application de techniques de science des données, notamment l’automatisation de la saisie, du traitement et de la déclaration des données a permis au gouvernement du Canada de mettre rapidement sur pied le projet pancanadien de demande et d’approvisionnement en EPI.
Une partie essentielle de ce projet relatif à l’EPI était de modéliser la demande en EPI au sein du système de soins de santé, particulièrement sensible à l’épidémiologie du SRAS-CoV-2. Des modèles épidémiologiques peuvent servir à prévoir la trajectoire de l’épidémie, selon différentes hypothèses futures, permettant ainsi aux décideurs de tenir compte d’un éventail de scénarios.
Notre équipe a appliqué d’importants éléments de l’approche de science des données pour réitérer rapidement des scénarios épidémiologiques et répondre à des tendances émergentes de l’épidémie, comme la vaccination et l’émergence de variants. Nous décrivons comment nous avons élaboré le modèle épidémiologique à partir d’une base de code de source ouverte existante et optimisé les processus de calcul en utilisant la puissance de processeurs multicœurs dans un environnement infonuagique Azure, qui permet une exécution parallèle de multiples scénarios. Nous décrivons également la façon dont nous avons créé des outils de visualisation pour automatiser la production de rapports des résultats du modèle aux fins de validation et de communication.
-
- Exploiter le traitement du langage naturel et l'apprentissage automatique pour améliorer la détermination des résultats en matière de santé liés aux opioïdes dans la National Hospital Care Survey
Amy M. Brown et Nikki Adams, National Center for Health Statistics et Centers for Disease Control and Prevention, États-Unis-
Résumé
La collecte électronique de données est de plus en plus utilisée par les systèmes de surveillance nationaux afin de réduire le fardeau du répondant et d’améliorer l’efficacité. Il est par conséquent nécessaire d’intégrer des méthodes de science des données dans des systèmes dont le volume et la complexité s’accroissent. L’enquête nationale sur les soins hospitaliers (National Hospital Care Survey) recueille des données auprès d’un échantillon d’hôpitaux aux États-Unis représentatif à l’échelle nationale, notamment des renseignements sur les patients provenant de recours administratifs et de dossiers médicaux électroniques. Le National Center for Health Statistics a reçu un financement du ministère de la Santé et du Patient-Centered Research Trust Fund (fonds fiduciaire de recherches axées sur les patients) de Human Services, afin d’améliorer les algorithmes fondés sur des codes médicaux qui intègrent des données et des méthodes de science des données nouvellement disponibles. Au cours de cette séance, nous décrirons le recours aux techniques de traitement du langage naturel et d’apprentissage automatique pour mener des recherches au sein de données non structurées (p. ex. notes textuelles cliniques), afin de compléter les recherches de données structurées (p. ex. diagnostic, procédure, médicaments, codes de laboratoire). Cette présentation comprend un aperçu des algorithmes qui permettent de relever des preuves de consommation d’opioïdes, le type d’agent opioïde pris, les surdoses d’opioïdes et la présence de troubles de consommation de substances cooccurrents et de certains problèmes de santé mentale. Les méthodes utilisées comprennent des recherches par mots-clés, la détection de la négation et la reconnaissance d’entités nommées, afin de repérer des fautes dans les noms de médicaments. Le rendement de l’algorithme est également évalué par rapport à un ensemble de données annotées élaboré en interne. Cette présentation aborde également les défis rencontrés lors de l’intégration des méthodes de science des données au sein d’un organisme statistique fédéral, notamment diverses limites relatives à la technologie et à la sécurité des données et la façon dont elles ont été surmontées. Cette présentation se termine par la description des efforts déployés pour rendre les algorithmes et fichiers de données analytiques accessibles aux chercheurs.
-
- L'importance de l'intégration et de l'automatisation des données pour les applications Web interactives
Peter Solymos et Khalid Lemzouji - Analythium Solutions Inc., Canada-
Résumé
La pandémie de COVID-19 a mis l’analyse et la visualisation de données en temps réel au centre des préoccupations dans les actualités et les discussions publiques. Peu de temps après le premier tableau de bord de l’université Johns-Hopkins, nous avons également commencé à créer notre propre application Web pour la COVID-19 rassemblant diverses sources de données dans le cadre de mises à jour de données quotidiennes automatisées (https://hub.analythium.io/covidapp/). L’application a condensé un grand nombre de renseignements sur la COVID-19 du monde entier, du Canada et de l’Alberta. Motivés par notre propre intérêt d’étudier le nombre de cas près de chez nous, nous avons décidé d’explorer en détail les données de l’Alberta à l’aide de renseignements spatiotemporels disponibles pour 132 zones locales de la province. Alberta Health met régulièrement à jour les données sur les nombres de cas, y compris les cas actifs, les rétablissements et les décès. Nous avons enregistré des données spatiotemporelles quotidiennes au niveau de ces régions locales chaque jour depuis mars 2020. À l’aide de ces renseignements, nous avons créé une carte interactive reliée au graphique de série chronologique situé à côté d’elle. Outre les nombres cumulés de cas, nous avons également observé les incidences. Dans notre présentation, nous expliquons les fonctionnalités de l’application ainsi que le processus d’ingestion automatisée de données en arrière-plan de l’application qui extrait les données de sources de données grand format, long format et non structurées. Nous expliquons les défis rencontrés au cours des 400 jours de la pandémie et de l’importance, pour la prise de décisions, de pipelines de traitement de données bien entretenus.
-
Vendredi 29 octobre 2021
10 h 00 – 11 h 00
Séance 7 -- Discours du gagnant du Prix Waksberg
Président de session : Bob Fay
- Les enquêtes à bases de sondage multiples pour un monde fait de sources de données multiples
Sharon L. Lohr, Arizona State University, États-Unis-
Résumé
Les enquêtes à l’aide de bases de sondage multiples dans lesquelles des échantillons probabilistes indépendants sont sélectionnés dans chacune des Q bases de sondage, sont utilisées depuis longtemps pour améliorer la couverture, réduire les coûts ou augmenter la taille des échantillons de sous-populations d'intérêt. Une grande partie de la théorie a été développée en supposant que (1) l'union des bases de sondage couvre la population d'intérêt, (2) un échantillon probabiliste avec réponse complète est sélectionné dans chaque base de sondage, (3) les variables d'intérêt sont mesurées dans chaque échantillon sans erreur de mesure, et (4) il existe suffisamment d'information pour tenir compte du chevauchement des bases de sondage lors du calcul des estimations. Après avoir passé en revue la conception, l'estimation et la calibration des enquêtes effectuées à partir de bases de sondage multiples traditionnelles, je considère des modifications aux hypothèses qui permettent à une structure de bases de sondage multiples de servir de principe d'organisation pour d'autres méthodes de combinaison de données telles que le couplage d'enregistrements, l'imputation massive, l'appariement d'échantillons, l'estimation pour petits domaines et l'estimation par techniques de saisie-re-saisie. Enfin, je discute de la façon dont les résultats de la recherche sur les enquêtes à l’aide de bases de sondage multiples peuvent être utilisés lors de la conception et de l'évaluation des systèmes de collecte de données qui intègrent plusieurs sources de données.
-
11 h 00 – 11 h 15
Pause du matin
11 h 15 -- 12 h 30
Séance 8A -- Intégration de sources de données multiples
Président de session : François Brisebois
- Défis méthodologiques des enquêtes intelligentes — quelques études de cas
Barry Schouten, Statistics Netherlands/Utrecht University, Pays-Bas-
Résumé
Les enquêtes intelligentes utilisent le potentiel des dispositifs intelligents, comme la puissance de calcul, le stockage de données local, les mesures par capteurs et le couplage des données en ligne publiques et personnelles. Les principales motivations des enquêtes intelligentes sont la réduction du fardeau des répondants, l’amélioration de la qualité des données ainsi que des mesures substitutives plus exactes des concepts statistiques d’intérêt. Les enquêtes intelligentes forment un pont vers les mégadonnées et les données administratives, mais traitent toujours les répondants comme les personnes centrales en matière de collecte de données.
Le recours à de multiples sources de données mène à une forme hybride de collecte de données. Puisque les données de capteurs et d’autres formes de données sont soumises elles-mêmes à des erreurs de représentation et de mesure et puisque les enquêtes intelligentes reposent lourdement sur la participation et la motivation des répondants, elles présentent divers défis méthodologiques nouveaux. Le plus important d’entre eux est peut-être le compromis entre la mesure passive et la participation active des répondants; compromis concernant le fardeau du répondant, la qualité des données, la participation des répondants et la confidentialité. Toutefois, du travail sur le terrain efficace ayant recours à des plans de données manquantes planifiées ainsi que des stratégies adaptées de recrutement et de motivation sont des questions importantes en suspens.
Dans cette présentation, nous discutons de défis méthodologiques dans le cadre de diverses études de cas actuellement élaborées ou évaluées au Bureau central de la statistique des Pays-Bas.
-
- Une approche bayésienne pour améliorer les estimateurs d'un échantillon probabiliste à l'aide d'un échantillon non probabiliste supplémentaire
Abel DaSylva, Yong You et Jean-François Beaumont, Statistique Canada, Canada-
Résumé
Des échantillons non probabilistes sont combinés avec des échantillons probabilistes pour réduire les coûts des enquêtes et fournir des estimations plus rapidement. Cette étude décrit une méthodologie bayésienne pour faire cela lors de l’estimation d’une moyenne de population finie pour un échantillon non probabiliste et un échantillon probabiliste, lorsque les deux sources contiennent les variables d’intérêt et les variables auxiliaires, que la moyenne de la population est inconnue pour les variables auxiliaires, que le plan de sondage est possiblement non ignorable et que l’échantillon probabiliste est dépourvu d’indicateur d’inclusion dans l’échantillon non probabiliste. La méthodologie proposée peut servir à améliorer la qualité ou à réduire les coûts d’une enquête par échantillonnage probabiliste existante grâce à l’acquisition de données d’échantillonnage non probabiliste non coûteuses. Elle est évaluée dans une étude de simulation comprenant différentes distributions a priori et plans de sondage ignorables et non ignorables.
-
- Méthodes d'imputation pour le rapport expérimental des ventes au détail mensuelles
Stephen J. Kaputa, US Census Bureau, États-Unis-
Résumé
Le 30 septembre 2020, le Bureau du recensement des États-Unis a commencé à produire de nouvelles estimations mensuelles des ventes au détail pour le rapport expérimental MSRS (ventes au détail mensuelles au niveau des États). Ces mesures sont des estimations composites combinant des estimations synthétiques obtenues indépendamment et des estimations hybrides comprenant des données de vente d’établissements (points de vente) recueillies par tierce partie et directement ainsi que des données d’établissement modélisées. Cette présentation se concentre sur l’estimateur hybride, détaillant en particulier l’élaboration d’un modèle d’imputation et les procédures de validation. Le modèle d’imputation est une formulation bayésienne de modèle mixte linéaire ayant recours à des paramètres de régression et à des effets aléatoires, en vue de prédire les ventes au détail mensuelles d’un établissement; il est élaboré à partir de données mélangées combinant des dossiers administratifs, des données d’enquête et des données tierces et il est validé par rapport à des estimations nationales au niveau du secteur provenant de l’enquête MRTS (enquête mensuelle sur le commerce de détail). La variation des régions géographiques au niveau des États est modélisée à l’aide d’une distribution ICAR (autorégressive conditionnelle intrinsèque) a priori, qui lisse les estimations en modélisant la corrélation entre les États contigus. Des imputations multiples provenant de la distribution postérieure prédictive sont combinées aux données d’enquête et de tierces parties pour estimer les totaux des ventes au niveau des États. Les paramètres des modèles sont estimés à l’aide d’une inférence bayésienne à l’aide du langage de programmation probabiliste de source ouverte « Stan » en R.
-
11 h 15 -- 12 h 30
Séance 8B -- Le fardeau de réponse, les données synthétiques et la protection des renseignements personnels
Président de session : Steven Thomas
- Développer des arbres de régression qui utilisent les covariables de la base de sondage pour explorer le fardeau de réponse afin d'établir le plan d'enquête
Yeng Xiong, Laura Bechtel, Diane Willimack et Colt Viehdorfer, US Census Bureau, États-Unis-
Résumé
La Direction économique du Bureau du recensement des États-Unis élabore une conception coordonnée et des procédures de sélection d’échantillons, en vue de créer un système intégré d’enquêtes annuelles. L’échantillon unifié remplacera la pratique existante de la direction qui consiste à élaborer de façon indépendante des bases de sondage et des procédures d’échantillonnage pour une série d’enquêtes annuelles distinctes, qui optimise les caractéristiques du plan de sondage au prix d’un fardeau de réponse accru. Les attributs de taille des populations d’entreprises (p. ex. les revenus et l’emploi) sont considérablement biaisés. Un pourcentage élevé d’entreprises est actif dans plus d’un secteur industriel. De nombreuses entreprises sont donc échantillonnées dans le cadre de multiples enquêtes; ce qui accroît le fardeau de réponse, en particulier pour les entreprises de taille moyenne.
Même si cette composante de fardeau de réponse est réduite en sélectionnant un seul échantillon coordonné, elle n’est pas entièrement supprimée. Le fardeau de réponse dépend de plusieurs facteurs, notamment 1) la longueur et la complexité du questionnaire, 2) l’accessibilité des données, 3) le nombre attendu de mesures répétées et 4) la fréquence de la collecte. Le plan de sondage peut avoir des répercussions profondes sur les troisième et quatrième facteurs. Pour aider à contribuer aux décisions relatives au plan de sondage intégré, nous utilisons des arbres de régression afin de relever les covariables de la base de sondage associées au fardeau de réponse. En utilisant une base et des données de réponse historiques provenant de quatre enquêtes échantillonnées indépendamment, nous mettons à l’essai divers algorithmes, puis créons des arbres de régression qui expliquent les relations entre les niveaux attendus de fardeau de réponse (tels qu’ils sont mesurés par le taux de réponse) et les covariables de base communes à plusieurs enquêtes. Nous validons les constats initiaux par une validation croisée, en examinant les résultats au fil du temps. Enfin, nous faisons des recommandations sur la façon d’intégrer nos résultats robustes au plan de sondage coordonné.
-
- Évaluation de la participation des répondants à l'Enquête sur l'utilisation des technologies de l'information et des communications dans les entreprises (TIC)
Samantha Pietropaoli, Damiana Cardon, Claudio Ceccarelli, Gabriella Fazzi et Alessandra Nurra, ISTAT, Italie-
Résumé
Nous proposons une analyse longitudinale selon un point de vue lié aux changements organisationnels intervenus à l’Institut national italien de statistique. En 2016, l’Institut a mis en place une nouvelle direction, en vue d’uniformiser et de généraliser le processus opérationnel de la collecte de données conformément à la norme européenne du modèle GAMSO. Dans cette étude, nous discutons des avantages et des inconvénients de ce changement du point de vue sur la participation aux enquêtes. L’analyse du taux de réponse aux enquêtes sur les TIC révèle une hausse d’environ 20 % depuis le début de la nouvelle organisation : cette étude tente de se concentrer sur les répercussions des changements apportés avec la nouvelle organisation. Nous utilisons des données relatives au fardeau de réponse, recueillies par une section particulière du questionnaire sur les TIC, des paradonnées recueillies au cours de la compilation en ligne ainsi que des métadonnées.
Cette analyse suggère des mesures qui pourraient être prises pour améliorer la participation des répondants, la qualité des données ainsi que la perception qu’ont les répondants des statistiques officielles. Nous nous sommes concentrés sur un sous-ensemble donné de répondants (appelés « personnes recherchées ») : ceux n’ayant jamais répondu à une enquête sur les TIC ni à toute autre enquête de l’Istat.
Cette étude vise à illustrer la façon dont un organisme efficace de collecte de données reflète ses avantages dans les résultats de l’enquête ainsi que le type de mesures qui devraient être prises pour attirer l’attention des « personnes recherchées ».
-
- Reproduire fidèlement des microdonnées structurées: l'exemple de la synthèse de données hiérarchiques
Héloïse Gauvin, Statistique Canada, Canada-
Résumé
La Directive sur le gouvernement ouvert du gouvernement du Canada vise à garantir aux Canadiens un accès accru aux données et à de l'information gouvernementales. Une solution pour les données ouvertes repose sur les fichiers synthétiques dits intelligents, qui conservent autant de valeur analytique que possible tout en prenant en compte les enjeux de confidentialité liés aux renseignements personnels.
Statistique Canada a acquis une expertise reconnue dans la production de fichiers de données synthétiques à grande valeur analytique. Dans un projet en cours, nous abordons un nouveau défi avec la synthèse d'une base de données qui préserve les structures hiérarchiques sous forme de familles où les enregistrements sont liés et partagent des traits communs qui doivent être maintenus. Ce sont des défis que l’on rencontre également lors de la synthèse de données structurées telles que les données d’entreprises.
Cette présentation illustrera les défis et les solutions mis en place pour construire des données synthétiques avec de telles structures hiérarchiques. L’application de cette stratégie sera illustrée avec le développement d'une base de données synthétiques qui soutient le développement de politiques concernant les revenus de retraite. Cette base de données comprend plus de 20 variables pour 8 millions d'enregistrements structurés en environ 4 millions d'unités familiales. Nous présenterons comment les structures familiales ont été préservées, nous discuterons des défis pratiques et techniques inhérents au développement d'une base de données aussi grande et complexe, nous discuterons du risque et de l'utilité des données, et nous présenterons des pistes de recherche futures.
-
- Classification de texte supervisée au moyen du chiffrement homomorphe
Zachary Zanussi, Benjamin Santos et Saeid Molladavoudi, Statistique Canada, Canada-
Résumé
Les préoccupations en matière de confidentialité sont des obstacles à l’application d’analyses à distance, notamment l’apprentissage automatique, sur des données sensibles au sein du nuage. Dans le cadre de ce travail, nous utilisons un schéma de chiffrement entièrement homomorphe égalisé, afin de former un algorithme d’apprentissage automatique supervisé de bout en bout, dans le but de classer du texte tout en protégeant la confidentialité des points de données d’entrée. Nous formons notre réseau neuronal à simple couche sur un important ensemble de données simulées, en fournissant une solution pratique à une tâche de classification de textes réels comprenant de multiples catégories. Pour améliorer à la fois l’exactitude et le temps d’entraînement, nous formons un ensemble de tels classificateurs en parallèle, à l’aide de groupage de cryptogrammes.
-
12 h 30 – 13 h 00
Pause de l'après-midi
13 h 00 – 14 h 15
Séance 9A -- Rendre les statistiques officielles plus ouvertes
Président de session : Claude Julien
- La construction de meilleures données pour construire un meilleur avenir
Darren Barnes, Office for National Statistics, Royaume-Uni-
Résumé
Imaginons que le paysage des données gouvernementales est un lieu simple permettant de naviguer et de facilement découvrir du contenu et des données. Imaginons une approche offrant aux utilisateurs un meilleur point d’accès au portefeuille de données que le gouvernement produit. Imaginons des données et métadonnées fondées sur la cohérence et les normes.
La diffusion de l’IDP (programme de données intégré) au Royaume-Uni offre une approche pouvant réaliser cette vision. Cela sera déterminant. Pour des producteurs de statistiques, nous élaborerons des cadres fondés sur des normes de données et de métadonnées reconnues et soutiendrons l’outillage contribuant à la production de données qui feront partie du Web sans se contenter de simplement s’y trouver. Nous visons à élaborer de nouveaux produits excitants permettant la production d’un contenu plus attrayant et de visualisations de premier ordre. Pour les utilisateurs, il offrira une passerelle vers les produits régulièrement publiés et des options de recherche sophistiquées à plusieurs facettes, afin de découvrir les données et le contenu dont les utilisateurs ont besoin, quelle qu’en soit la source. Ce travail ouvre de nouvelles avenues en matière de distribution de données gouvernementales et crée une présence en ligne de premier ordre qui aidera à maintenir la pertinence du Royaume-Uni pour les utilisateurs au cours des années à venir.
-
- L'Environnement de couplage de données ouvertes : harmonisation des microdonnées ouvertes pour les sources hétérogènes
Alessandro Alasia et Joseph Kuchar, Statistique Canada, Canada-
Résumé
L'Environnement de couplage de données ouvertes (ECDO) est une initiative exploratoire qui vise à accroître l'utilisation et l'harmonisation de microdonnées ouvertes provenant principalement de sources municipales, provinciales et fédérales. Il en résulte une collection d'ensembles de données diffusées en vertu d'une même licence de données ouvertes, ainsi que des outils libres utilisés pour traiter les données et des collaborations dans un espace ouvert. Par exemple, l'équipe ECDO a récemment publié la Base de données ouvertes d'adresses (BDOA), ainsi que deux scripts à code source ouvert pour la fusion et le traitement automatiques de plus de 13 millions d’empreintes d’immeubles et 10 millions d'adresses. Cette présentation exposera la vision de l’ECDO, en détaillant les objectifs, les processus et les résultats, y compris une carte web interactive de source ouverte pour visualiser les données géoréférencées, connue sous le nom de Visualiseur de l’ECDO.
-
- Création de bibliothèques R pour des tâches communes avec des données du Canada ouvertes
Dmitry Gorodnichy, Agence des services frontaliers du Canada, Canada-
Résumé
De nombreux groupes du gouvernement du Canada développent du code permettant de charger, nettoyer ou transformer, analyser et visualiser diverses données ouvertes sur le Canada, déployant souvent les mêmes efforts et avec un niveau limité d’examen interne de la qualité du code. Ce projet vise à créer un ensemble unifié de modules R que tout le monde pourrait utiliser pour effectuer ces tâches de science des données. Pour atteindre cet objectif, des professionnels en données de l’ensemble du gouvernement ont été invités à faire part de leurs expériences en la matière et à échanger sur des codes associés lors de rencontres hebdomadaires « Déjeuner-formation en R ». Une équipe spécialisée du GC en matière de code (r4gc) et un groupe de collaboration du GC (Utilisation de R!) ont été mis sur pied pour faciliter l’échange et le développement de code et de connaissances. Cette présentation fournit un aperçu des méthodologies de développement de modules ainsi que les résultats obtenus jusqu’à présent.
-
13 h 00 – 14 h 15
Séance 9B -- Utilisation de la science des données pour la modélisation
Président de session : Jean LeMoullec
- Prévisions immédiates de l'activité économique réelle en Finlande à l'aide de données provenant des boucles de trafic
Pontus Lindroos, Henri Luomaranta et Paolo Fornaro, Statistics Finland, Finlande-
Résumé
Le Centre des statistiques finlandais a commencé à publier une version préliminaire du Trend Indicator of Output (TIO), afin de répondre aux besoins des utilisateurs au cours de la pandémie de COVID-19. Cet indicateur a été initialement publié en avril 2020, au tout début de la pandémie en Finlande, et a depuis été publié chaque mois, près de la fin du mois de référence. Les prévisions immédiates que fournit l’indicateur TIO réduisent le délai de publication de t+18 (estimation éclair) et t+45 (première diffusion officielle) et fournissent une réponse rapide aux besoins des utilisateurs au cours d’une période exceptionnelle.
L’indicateur TIO de prévisions immédiates est élaboré à l’aide de données de source ouverte relatives aux volumes de circulation de camions à environ 100 points de mesure automatiques (système de surveillance de la circulation routière, TMS) dans la région de Helsinki/Uusimaa ainsi qu’à l’aide de l’Indicateur de sentiment économique (ESI) pour la Finlande, publié par Eurostat. Les données de circulation sont continuellement mises à jour à t+1 jour, ce qui permet d’estimer pratiquement l’indicateur en temps réel. L’estimation est effectuée à l’aide d’une approche d’apprentissage automatique et la méthodologie se fonde sur le travail effectué antérieurement par le Centre des statistiques finlandais et ETLA Economic Research.
L’indicateur TIO de prévisions immédiates est un exemple réel de la façon dont de nouvelles méthodologies et données permettent d’améliorer la production de statistiques en réduisant, par exemple, les délais, et ainsi de mieux soutenir l’élaboration de politiques. L’indicateur a été utilisé à la fois par des acteurs publics et privés au cours de la pandémie et la publication sera maintenue au moins jusqu’à la stabilisation de la pandémie. Le Centre des statistiques finlandais explore également d’autres façons d’inclure de nouvelles données et méthodologies dans la production régulière de statistiques et l’indicateur TIO de prévisions immédiates fournit un bon exemple pour l’avenir.
-
- Rendement relatif des méthodes d'enquête fondées sur l'estimation par la régression assistée par un modèle
Erin Lundy et J.N.K. Rao, Statistique Canada et Carleton University, Canada-
Résumé
Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une estimation par régression d’enquête assistée par un modèle a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de travail de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG ont recours à des poids de sondage communs à toutes les variables d’étude et procèdent à des calibrations pour connaître la population totale pour les variables auxiliaires. De nombreuses variables auxiliaires sont de plus en plus disponibles; certaines pouvant être extérieures. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi des variables catégoriques, sont utilisées dans le modèle de travail de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme des arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cette discussion, une étude de simulation, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traitée comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.
-
- Vers des indicateurs économiques plus actuels : Comparaison des méthodes de prévision immédiate de l'apprentissage traditionnel et des nouvelles formes d'apprentissage automatique
Christian Ritter et Zdenek Patak, Statistique Canada, Canada-
Résumé
Cette discussion présente les résultats d’une étude comparative en vue d’évaluer plusieurs modèles dans le contexte de prévisions immédiates, afin de produire des estimations plus actuelles d’indicateurs économiques statistiques. Une étude de cas relative aux prévisions immédiates sur deux indicateurs macroéconomiques (le PIB canadien et les permis de construire) est utilisée pour comparer des modèles en fonction d’approches d’apprentissage automatique et de modèles de séries chronologiques plus traditionnels. Nous proposons également une discussion sur la détermination et l’évaluation de statistiques officielles et de sources de données de rechange pour les modèles prédictifs, ainsi que des bassins potentiels de données dans le cadre d’un scénario de production visant à générer des prévisions immédiates.
-
- Automatisation de l'extraction d'informations à partir d'états financiers dans le système SEDAR à l'aide de techniques basées sur la disposition spatiale
Anurag Bejju, Statistique Canada, Canada-
Résumé
Le format PDF (Portable Document Format) est le plus couramment utilisé par les entreprises à des fins d'information financière. L'absence de moyens efficaces pour extraire les données de ces fichiers PDF hautement non structurés d'une manière tenant compte de la mise en page représente un défi majeur pour les analystes financiers pour analyser et traiter efficacement les informations en temps opportun. Dans ce projet, nous présentons «Spatial Layout based Information and Content Extraction» (SLICE) - un algorithme de vision par ordinateur unique qui utilise simultanément des informations textuelles, visuelles et de mise en page pour segmenter plusieurs points de données en une structure tabulaire. Cette solution proposée, réduit considérablement le travail manuel et les heures consacrées à l'identification et à la capture des informations requises en automatisant le processus d'extraction des variables financières pour près de 70,000 PDF par an en temps quasi réel. Il comprend également le développement d'un système de gestion des métadonnées robuste qui indexe près de 150 variables pour chaque document financier ainsi qu'une application Web qui permet aux utilisateurs d'interagir avec les données extraites.
-
Vendredi 5 Novembre 2021
10 h 00 – 11 h 00
Séance 10 – Séance de présentations par affiches
- Que pouvons-nous apprendre des données manquantes? Examen des tendances de non-réponse aux questions sur la taille, le poids et l’IMC chez les jeunes Canadiens
Amanda Doggett, Ashok Chaurasia, Jean-Phillipe Chaput et Scott Leatherdale, University of Waterloo, l’Université d’Ottawa et l’Institut de recherche de CHEO, Canada-
Résumé
L’indice de masse corporelle (IMC) des jeunes, dérivé de la taille et du poids autodéclarés tend à souffrir considérablement de l’absence de données. Toutefois, les examens des données manquantes sont rares dans ce domaine, alors qu’une mauvaise gestion ou le fait de ne pas tenir compte des données manquantes peut biaiser les résultats de recherche et les conclusions. L’objectif de cette étude est d’examiner les tendances et les valeurs explicatives des données manquantes dans les recherches sur le surpoids et l’obésité des jeunes. À l’aide de données de 74 501 élèves canadiens du secondaire ayant participé à l’étude COMPASS en 2018/19, des statistiques descriptives et la visualisation de données ont été utilisées pour comprendre le degré et les caractéristiques de l’absence de données. Afin de comprendre les valeurs explicatives de l’absence de données, deux approches ont été utilisées : des modèles linéaires mixtes généralisés stratifiés par sexe sélectionnés à l’aide d’un cadre adapté de sélection de modèles de pseudo-vraisemblance, et des arbres de classification. Dans l’échantillon, 31 % des données d’IMC manquaient. Les répondantes étaient plus enclines à ne pas déclarer leur poids, alors que les répondants étaient plus susceptibles de ne pas déclarer leur taille. Des modèles préliminaires indiquent une variété de variables de régime, d’exercice, de santé mentale et de consommation de substances associées à l’absence de données. Se percevoir comme en surpoids et avoir des intentions de perdre du poids étaient associés positivement avec l’absence de données d’IMC pour les répondantes, alors que la perception d’être trop maigre et la déclaration d’intentions de prendre du poids étaient associées positivement avec l’absence de données d’IMC chez les répondants masculins. Ces constatations préliminaires suggèrent que l’absence de données d’IMC chez les jeunes soit aléatoire est peu probable, soulignant l’importance d’utiliser une méthodologie adéquate en matière de données manquantes pour limiter un biais potentiel dans les recherches utilisant l’IMC des jeunes. Les valeurs explicatives d’absence de données relevées dans cette étude peuvent servir de base à de futures recherches visant à cerner des variables auxiliaires pour des approches du maximum de vraisemblance ou d’imputation multiple.
-
- Un modèle de passerelle pour rapprocher les statistiques basées sur des données provenant de sources multiples
Andreea Luisa Erciulescu, Jean D. Opsomer et F. Jay Breidt, Westat et Colorado State University, États-Unis-
Résumé
Des enquêtes conçues pour recueillir des données sur des variables similaires à l’aide d’échantillons représentant la même population peuvent tout de même fournir des estimations différentes du fait, par exemple, de différences dans les plans de sondage ou les modes de collecte des données. Dans cette étude, nous considérons le cas où deux enquêtes ont été menées parallèlement : l’une utilisant la même méthodologie que celle des itérations précédentes de l’enquête et l’autre utilisant une méthodologie mise à jour; cela entraînant des différences substantielles pour plusieurs estimations clés. Du fait des différences de taille d’échantillon, seule la deuxième enquête était suffisamment détaillée pour fournir des estimations au niveau désagrégé de qualité suffisante pour être publiée. Nous proposons un modèle hiérarchique permettant d’expliquer les écarts dans les estimations des deux enquêtes et une approche bayésienne pour produire des estimations fiables à divers niveaux d’agrégation. Ce modèle repose sur une structure latente commune au niveau désagrégé, afin de permettre une correspondance entre les deux enquêtes. La méthodologie s’applique à l’enquête National Survey of Fishing, Hunting and Wildlife-Associated Recreation de 2016 (enquête nationale sur les loisirs associés à la pêche, à la chasse et à la nature) et à l’enquête 50-State Surveys of Fishing, Hunting and Wildlife-Related Recreation de 2016 (enquêtes sur les loisirs associés à la pêche, à la chasse et à la nature pour 50 États). Harmoniser ces deux enquêtes est essentiel pour étendre la série de statistiques associées publiées depuis 1955, permettant des comparaisons utiles au cours du temps, malgré le changement de méthodologie d’enquête.
-
- Règles de combinaison pour les statistiques F et bêta provenant de données résultant de l’imputation multiple
Ashok K Chaurasia, University of Waterloo, Canada-
Résumé
Des valeurs manquantes dans les données empêchent le travail d’inférence pour des paramètres d’intérêt relatifs à la population. L’imputation multiple (IM) est une méthode populaire pour gérer des données manquantes, puisqu’elle tient compte de l’incertitude des valeurs manquantes. L’inférence dans le cadre de l’IM fait intervenir la combinaison d’estimations ponctuelles et l’estimation de variance pour chaque jeu de données imputé au moyen des règles de Rubin. Une condition suffisante pour ces règles est que l’estimateur présente une distribution approximativement normale (multivariée). Toutefois, ces règles de combinaison traditionnelles deviennent lourdes du point de vue du calcul pour des paramètres d’intérêt à multiples composantes et ne sont pas fiables lorsqu’il y a un taux élevé d’absence de données (du fait d’une matrice de variance instable).
De nouvelles règles de combinaison sont proposées pour des statistiques univariées F et bêta provenant de données imputées de façon multiple, à des fins de prise de décisions sur des paramètres à plusieurs composantes. Les règles de combinaison proposées ont l’avantage d’être pratiques du point de vue du calcul puisqu’elles font uniquement intervenir des statistiques univariées F et bêta, tout en fournissant la même fiabilité inférentielle que les règles de combinaison multivariées traditionnelles. Notre étude de simulation démontre que la méthode proposée présente les bonnes propriétés statistiques de maintien de faibles taux d’erreurs de type I et II pour des proportions relativement importantes de données manquantes. L’applicabilité générale de la méthode proposée est démontrée dans le cadre d’une étude d’exposition au plomb visant à évaluer l’association entre l’exposition au plomb et la fonction motrice neurologique.
-
- Assurance qualité en situation d’urgence : développement d’une structure pour rendre compte des statistiques sur les prestations d’urgence en réponse à la pandémie de COVID-19
Simon Rioux, Anuoluwa Iyaniwura et Chimaobi Amadi, Emploi et Développement social Canada, Canada-
Résumé
La situation d’urgence liée à la propagation de la COVID-19 a amené le Gouvernement du Canada à prendre des mesures sans précédent pour aider la population à faire face aux répercussions économiques de cette pandémie. Avec l’instauration quasi-immédiate de prestations d’urgence, de nouveaux besoins en matière d’information ont émergés et plusieurs appels à la diffusion de statistiques officielles sur le nombre de bénéficiaires des prestations et sur les montants dépensés se faisaient entendre. Peu de temps après la mise en place de la Prestation canadienne d’urgence, le Bureau de la dirigeante principale des données (BDPD) d’Emploi et développement social Canada (EDSC) est devenu le point central de production de données probantes pour répondre aux multiples requêtes provenant de toute part : politiciens, médias, autres ministères, autres équipes au sein d’EDSC, partenaires provinciaux, etc. La première version de la base de données combinant les données sur l’assurance-emploi et les données provenant de l’Agence du revenu du Canada venait à peine d’être construite, combinant des données provenant de deux univers différents ayant chacun leur propre structure et standards. Dans ce contexte, l’équipe de la qualité des données du BDPD a été chargée de l’assurance qualité à la fois des requêtes de données, des données pour le site web et de la base de données elle-même. La présentation vise à montrer à la fois le processus et les résultats probants qui démontrent les bénéfices nets d’un tel processus, et se voudra une démonstration de comment l’urgence d’agir peut s’avérer une opportunité de faire mieux.
-
- Utilisation innovante d'applications cartographiques pour soutenir les activités de recrutement et de collecte du recensement de la population de 2021
Mark Oswald, Kimberley Easter et Jacob MacLean, Statistique Canada, Canada-
Résumé
Des applications de cartographie ont été élaborées pour faciliter l’intégration des données, l’interprétation des données et la prise de décisions, aux fins de mise en œuvre d’activités ciblées de communication, de collecte et de recrutement.
L’application de cartographie Web des opérations du recensement a été élaborée afin de fournir un contexte spatial et géographique plus large afin d’éclairer la prise de décisions concernant les activités de collecte. Que ce soit en visualisant un problème plus systémique tel que l’effet de la connectivité Internet sur certaines méthodes de collecte ou en visualisant des facteurs plus aigus tels que la COVID interférant avec la capacité de déployer du personnel dans certaines régions.
Les applications cartographiques peuvent fournir des indicateurs via des mises à jour de données opportunes et adaptatives pour faciliter la prise de décision. Leur force réside dans la capacité de créer des liens entre différentes données ponctuelles (autour des unités de collecte) et à démontrer des dépendances ou relations potentielles afin d’orienter la prise de décisions.
Utilisation novatrice des applications de cartographie pour appuyer les activités de recrutement et de collecte pour le Recensement de la population de 2021.
-
- Amélioration de la prise de décisions sur les choix reliés à l’imputation grâce à la visualisation de données
Darren Gray, Statistique Canada-
Résumé
Plusieurs décisions doivent être prises avant d’approuver une méthode d’imputation en vue d’être mise en production. À part le choix de la méthode spécifique (et de ses paramètres associés), il faut aussi déterminer si une approche offre un seuil de qualité acceptable, ou si plus de ressources (de temps, particulièrement) sont requises afin d’évaluer le besoin d’améliorations ou d’alternatives. La visualisation de données offre plusieurs outils qui peuvent faciliter ce processus, mettant à la disposition des approches rapides et efficaces d’évaluation et de comparaison de méthodes d’imputation, d’identification d’enjeux potentiels à l’aide de l’analyse exploratoire, et d’intégration de l’incertitude dans le processus de prise de décision. En particulier, nous tentons d’intégrer des concepts modernes de visualisation de l’incertitude dans nos produits.
-
- Estimation des stocks de porcs à l’aide des données de traçabilité : une étude de faisabilité
Joshua Gutoskie, Jeremie Spagnolo et Herbert Nkwimi Tchahou, Statistique Canada-
Résumé
L’initiative AgZéro de Statistique Canada a pour but de réduire le fardeau de réponse auprès des agriculteurs canadiens en remplaçant les estimations basées sur des données d’enquête par des estimations modélisées à l’aide de sources alternatives de données. L’un des projets d’AgZéro évalue comment remplacer les estimations de l’inventaire de porcs provenant de l’Enquête sur le bétail de Statistique Canada en exploitant les données de traçabilité des porcs obtenues auprès du Conseil canadien du porc. Le jeu de données PigTRACE retrace tous les mouvements des porcs à l’intérieur du Canada. Ce projet a pour but de déterminer la faisabilité de l’utilisation combinée du jeu de données PigTRACE et des estimations provenant d’enquêtes historiques afin de produire des estimations au niveau provincial de l’inventaire, des naissances, et des mouvements interprovinciaux. Cette présentation fera le bilan des méthodes examinées au cours de cette étude, y compris le pré-traitement, la classification, et l’estimation.
-
11 h 00 – 11 h 15
Pause du matin
11 h 15 -- 12 h 30
Séance 11A -- Application de méthodes liées à la science des données et à l'apprentissage automatique en statistiques officielles : opportunités et défis
Président de session : Saeid Molladavoudi
- La science des données pour des aperçus plus rapides et plus riches : opportunités et défis
Louisa Nolan, Office for National Statistics, Royaume-Uni-
Résumé
L’appétit en matière de renseignements plus actuels et plus riches n’a jamais été aussi grand qu’actuellement. Nous sommes confrontés à deux défis mondiaux : les répercussions de la pandémie de COVID-19 et les changements climatiques.
Dans cette présentation, nous discuterons de la façon dont l’Office for National Statistics (ONS; bureau national de la statistique) du Royaume-Uni répond à cette demande de données plus actuelles et plus riches, illustrée par des exemples du Data Science Campus de l’ONS. Nous avons appliqué des outils et des technologies de science des données à de nouvelles sources de données, comme des données sur la mobilité, la circulation de navires, les caméras de surveillance de la circulation et l’observation de la Terre, pour mieux comprendre notre économie, notre société et notre environnement. Cela complète nos données d’enquête traditionnelles.
L’utilisation de nouvelles sources de données et de nouveaux outils s’accompagne de défis pour les utiliser avec assurance et continuer à faire confiance à nos statistiques officielles et à notre utilisation des données personnelles. Nous discuterons de ces défis et des progrès effectués (au niveau national et international) pour y faire face.
-
- IA équitable et explicable du point de vue des statistiques officielles
M.P.W. (May) Offermans et Barteld Braaksma, Statistics Netherlands, Pay-Bas-
Résumé
La stratégie européenne en matière d’intelligence artificielle (IA) met particulièrement l’accent sur l’équité, la transparence et l’explicabilité. La façon d’opérationnaliser de telles notions abstraites demeure un défi. En particulier, il est de plus en plus accepté que tout commence par la compréhension des caractéristiques des ensembles de données sous-jacents. Lorsqu’une méthode d’apprentissage automatique est formée sur un ensemble de données sélectif ou biaisé, cela prend des efforts pour veiller à ce que ses résultats ne présentent pas une discrimination indésirable. De plus, des phénomènes comme des boucles de rétroaction et la dérive conceptuelle peuvent renforcer de tels effets, lors de la répétition des algorithmes au cours du temps. Une question naturelle est donc de savoir comment gérer des données destinées à l’IA d’un point de vue des statistiques officielles. En fait, nos compétences à comprendre et à traiter des données sont appréciées au-delà de notre propre monde statistique. Les institutions gouvernementales s’adressent à nous pour obtenir des conseils lorsqu’elles considèrent des applications d’IA délicates. Dans le monde en essor rapide des IA, il n’est pas toujours évident de savoir le rôle d’un institut statistique national dans de tels cas, mais c’est seulement en effectuant des recherches pratiques et en discutant des résultats avec les intervenants que nous pouvons mieux définir ce rôle.
Cette présentation discute du travail effectué au bureau central de la statistique des Pays-Bas sur l’IA équitable et explicable, à la fois à des fins internes de production de statistique que dans des cas d’utilisation au sein d’autres organes gouvernementaux. Nous discutons de modèles d’équité fondés sur une équité hypothétique, d’exemples d’applications de statistiques officielles qui présentent une dérive conceptuelle ainsi que d’un tableau de bord et d’une trousse de mise en route d’IA que nous avons élaborés à l’intention de fonctionnaires; tout cela vise à comprendre ce qui est nécessaire pour créer des applications d’IA équitables.
-
- Pipelines en science des données @ Istat : défis et solutions
Monica Scannapieco, ISTAT, Italie-
Résumé
Parallèlement à l’orientation prise par le Système Statistique Européen, Istat investit dans des méthodes innovantes pour tirer profit de sources de mégadonnées et les utiliser dans la production de produits de statistiques officielles nouveaux et enrichis. Les sources de mégadonnées ne peuvent pas, en général, être suivies directement avec des techniques statistiques traditionnelles; pensons simplement à des types de données particulières comme des images et du texte qui sont des exemples de la dimension de variété des mégadonnées. Cela motive et justifie l’intérêt croissant des instituts statistiques nationaux dans des techniques d’apprentissage automatique.
Istat utilise actuellement de telles techniques d’apprentissage automatique dans le cadre de projets d’innovation et la publication de statistiques expérimentales. Cette étude fournit un aperçu des principaux projets d’Istat en cours et se concentre sur deux bassins de production particuliers fondés sur des mégadonnées, liés respectivement au traitement de sources textuelles et de sources d’images. Cette étude souligne les principaux défis associés aux tâches d’apprentissage automatique au sein de ces deux bassins et les solutions mises en place pour les résoudre.
-
11 h 15 -- 12 h 30
Séance 11B -- L'apprentissage automatique et la modélisation pour la classification
Président de session : Steve Matthews
- Besoin de vitesse: Utilisation de fastText (apprentissage automatique) afin de coder l'Enquête sur la population active
Justin Evans et Javier Oyarzun, Statistique Canada, Canada-
Résumé
L'Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L'information sur le marché du travail fournie par l'EPA est l'une des mesures les plus actuelles et les plus importantes de la performance globale de l'économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la catégorie principale de travailleurs (PCOW) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Cette présentation donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.
-
- Tests des effets de covariables pour déceler les différences dans les revues en format texte sur les bières canadiennes
Dave Campbell et Gabriel Phelan, Carleton University et Simon Fraser University, Canada-
Résumé
Le format texte présente aux répondants des occasions de fournir des données riches, non limitées par des contraintes numériques ou catégoriques. Malgré sa richesse sur le plan des renseignements, la nature non structurée des documents de données textuelles complique l’analyse et l’inférence. Des stratégies typiques comprennent de convertir le texte en variables binaires de mentions de mots, mais une terminologie inégale empêche l’automatisation de cette approche. La conversion des mots en vecteurs numériques par une intégration et le recoupement des documents selon des sujets présentent d’excellents cas d’utilisation, mais sont limités lors de la prise en compte de l’inférence statistique pour des effets de covariables sur les sujets de discussion. Dans cette présentation, nous tenons compte d’examens de produits relatifs à des bières canadiennes. Ces examens sont complétés par des covariables, comme la région géographique et le type de bière. Du fait de la rationalité de la production des ingrédients, des différences devraient apparaître dans les saveurs de bière dues à la région géographique. Nous souhaitons spécifiquement produire des estimations ponctuelles et d’intervalles pour les effets des covariables sur le langage utilisé pour décrire les saveurs. Cette discussion présente une factorisation matricielle non négative dotée de mots d’ancrage, afin de fournir une conversion déterministe de texte en sujet. Des tests de permutation servent ensuite à estimer les tailles des effets et à valider les hypothèses.
-
- Critères d'acceptation des classificateurs par apprentissage automatique : application aux statistiques de prix
Serge Goussev, William Spackman et Daniel Ma, Statistique Canada, Canada-
Résumé
Dans le cadre de l'initiative de Statistique Canada visant à moderniser les indices de prix tels que l'Indice canadien des prix à la consommation (IPC), la collecte traditionnelle de données sur les prix sur le terrain est complétée par des sources alternatives, telles que des scanners, des interfaces de programmation d'applications ou des données extraites du Web, afin d'améliorer la qualité et l'actualité des données et de réduire les coûts de collecte. L'utilisation de ces sources de données nécessite un cadre de classification supervisée robuste, car les produits doivent être catégorisés avec précision afin d'être agrégés par une taxonomie applicable. Dans un contexte de production, l'utilisation d'un classificateur très précis réduit également l'effort humain requis par les agents de l'Institut national de la statistique (INS) pour assurer la qualité des données classées chaque mois avant la publication de l'indice des prix. Par conséquent, seuls les modèles de classification optimaux peuvent être acceptés à des fins de production. Afin de sélectionner un modèle applicable, un cadre d'évaluation détaillé et méthodologiquement efficace est nécessaire.
Cet article propose une série de critères d'évaluation systématiquement définis nécessaires pour évaluer et sélectionner le modèle de classification optimal à utiliser dans les indices de prix, en se concentrant sur les besoins de l'IPC canadien. Plus précisément, les critères rigoureux de notation de l'efficacité du modèle utilisés pour les méthodes traditionnelles de classification plate (au même niveau de catégorie) sont combinés à de nouvelles métriques hiérarchiques, ainsi qu'à d'autres critères applicables au contexte des statistiques de prix. Comparées aux métriques traditionnelles, les métriques hiérarchiques s'alignent bien sur la structure de la taxonomie utilisée par les INS. Bien que rarement utilisées dans le contexte des indices des prix, ces nouvelles métriques offrent une nouvelle perspective sur l’évaluation et la comparaison de la gravité de la mauvaise classification des échantillons.
La recherche combine des méthodes et des métriques applicables dans un cadre holistique pour l'évaluation des modèles qui peut également être utilisé pour peser les compromis rencontrés dans l'utilisation d'un classificateur pour calculer les statistiques de prix. Le cadre proposé est évalué à l'aide d'un ensemble de données accessibles au public et applicables au calcul des statistiques sur les prix, afin de démontrer et présenter la méthode, ainsi que d'aider l’INS à la reproduire sur ses propres données.
-
- Intégration de l'apprentissage automatique au codage du Recensement canadien de 2021 à l'aide de fastText
Andrew Stelmack, Statistique Canada, Canada-
Résumé
Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. En gardant cela à l’esprit pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en chemin.
-
12 h 30 – 12 h 45
Pause de l'après-midi
12 h 45 – 14 h 00
Séance 12 – Séance de table ronde
- Utiliser la science des données pour innover et aborder les besoins émergents en statistiques officielles
Panélistes : Eric Deeben, Office of National Statistics, Data Science Campus, Royaume-Uni, Wendy Martinez, Bureau of Labor Statistics, États-Unis et Danny Pfeffermann, Central Bureau of Statistics, Israel
Modérateur : Eric Rancourt, Statistique Canada, Canada-
Résumé
Cette séance offrira l’opportunité à trois experts de discuter des thèmes suivants :
- Exploiter la puissance de la science des données afin de produire des statistiques plus opportunes et détaillées ainsi qu’améliorer les méthodes actuelles en vue de créer de nouvelles solutions de haute qualité pour répondre à nos besoins en termes de données.
- Trouver le juste équilibre entre l’utilisation en temps réel de sources de données ouvertes et non-structurées à l’aide de techniques avancées de modélisation et les méthodes traditionnelles afin de produire des résultats défendables et centrés sur les besoins des utilisateurs, plus rapidement et à coût réduit.
-
14 h 00 – 14 h 15
Mot de clôture
- André Loranger, Statisticien en chef adjoint, Statistique Canada, Canada