Les organisateurs du Symposium international de 2016 sur les questions de méthodologie tiennent à remercier les présentateurs qui ont soumis un article, accepté de partager les diapositives de leur présentation ou fourni un lien vers un article externe.
Les communications accessibles au moyen des liens ci-dessous comprennent des articles soumis pour la conférence, des présentations de la conférence ou des articles externes.
Mardi 22 mars 2016
8 h – 17 h
Inscriptions – 3e étage
8 h 45 – 9 h
Mot d'ouverture
Sylvie Michaud, Statisticienne en chef adjointe, Statistique Canada
9 h – 10 h
Séance 1 – Discours principal
- Enjeux et défis méthodologiques liés à la production de statistiques officielles
Danny Pfeffermann, Government Statistician of Israel, Hebrew University of Jerusalem, Israel, Southampton Statistical Sciences Research Institute, Royaume-Uni-
Résumé
Les grands progrès technologiques, conjugués à la disponibilité accrue de « mégadonnées », mais aussi à une demande plus grande de données officielles plus exactes, détaillées et à jour dans un contexte de budgets limités, imposent des défis énormes aux producteurs de statistiques officielles partout dans le monde. Dans cette présentation, j'aborderai certains des principaux défis comme je les perçois, et dans certains cas, je suggérerai des façons de les relever. Il est notamment question de l'utilisation possible de mégadonnées, de la protection des renseignements personnels et la confidentialité, de l'utilisation possible de données obtenues à partir de panels en ligne, de la prise en compte des effets de mode, et de l'intégration de données administratives et de l'estimation sur petits domaines pour les recensements futurs. Dans la dernière partie de ma présentation, j'aborderai la question de la formation des étudiants par les universités, en vue de leur recrutement par des bureaux de statistique nationaux.
- Communication
-
10 h 30 – 12 h
Séance 2A – Données massives dans les statistiques officielles
- Défis de la recherche méthodologique dans le domaine des statistiques officielles
Kees Zeelenberg, Statistics Netherlands, Pays-Bas-
Résumé
Il existe plusieurs domaines et sujets de recherche méthodologique en statistiques officielles. Nous expliquons pourquoi ils sont importants, et pourquoi il s'agit des plus importants pour les statistiques officielles. Nous décrivons les principaux sujets dans ces domaines de recherche et nous donnons un aperçu de ce qui semble le plus prometteur pour les aborder. Nous nous penchons ici sur : (i) la qualité des comptes nationaux, et plus particulièrement le taux de croissance du revenu national brut; (ii) les mégadonnées, et plus particulièrement la façon de créer des estimations représentatives et de tirer le meilleur parti possible des mégadonnées, lorsque cela semble difficile ou impossible; Nous abordons aussi : (i) l'amélioration de l'actualité des estimations statistiques provisoires et finales; (ii) l'analyse statistique, plus particulièrement des phénomènes complexes et cohérents. Ces sujets font partie de l'actuel programme de recherche méthodologique stratégique qui a été adopté récemment à Statistique Pays-Bas.
- Communication (PDF, 597.8 Ko) Archivé
-
- Établissement du profil des données de Twitter : Étude de sélection de mégadonnées
Joep Burger, Quan Le, Olav ten Bosch et Piet Daas, Statistics Netherlands, Pays-Bas-
Résumé
Une quantité de plus en plus importante de données concernant le comportement humain et l'activité économique est automatiquement consignée par les médias sociaux, les capteurs routiers, les téléphones mobiles, etc. Ces données, que l'on appelle mégadonnées, représentent une source possible pour les statistiques officielles. On pourrait exploiter leur volume important et leur grande disponibilité en vue d'obtenir des indicateurs rapides pour un nombre diversifié de sujets et des estimations plus précises pour de petits domaines. Un des défis majeurs est d'inférer des estimations non biaisées à partir des mégadonnées. Contrairement aux enquêtes par échantillon, le mécanisme produisant les mégadonnées n'est pas un échantillon probabiliste. Par conséquent, les mégadonnées couvrent habituellement une partie déterminée de la population cible. Des données auxiliaires expliquant la partie manquante pourraient servir à compenser cette sélection. Des variables auxiliaires peuvent être couplées à partir de registres administratifs, mais il arrive souvent que cela ne soit pas possible, les unités des sources de mégadonnées étant difficiles à relier aux unités des données administratives. Nous nous sommes demandé s'il serait possible d'obtenir des données auxiliaires autrement. Dans cette communication, nous montrerons comment les données auxiliaires peuvent être tirées de sources de mégadonnées proprement dites, une approche appelée établissement de profil, à partir de Twitter par exemple. Nous montrerons que nous pouvons déterminer de façon fiable le sexe à partir des comptes Twitter, grâce au nom d'utilisateur, aux données biographiques, à la photo du profil et aux tweets publics. À partir d'un compte LinkedIn connexe, plusieurs autres caractéristiques peuvent être dérivées.
- Communication
-
- Solution de données alternatives – Expérience de la Division des prix à la production
Gaétan Garneau et Mary Beth Garneau, Statistique Canada-
Résumé
Au cours de la dernière décennie, la Division des prix à la production de Statistique Canada a élargi son programme d'Indices des prix à la production pour les services, tout en continuant d'améliorer son programme d'Indices des prix à la production de la construction et des biens. Même si la majorité des indices des prix sont fondés sur des méthodes d'enquêtes traditionnelles, des efforts ont été déployés pour utiliser davantage de données administratives et d'autres sources de données, afin de réduire le fardeau pour nos répondants. Ce manuscrit qui est axé principalement sur les programmes des prix à la production fournit également des renseignements sur l'importance grandissante des sources de données alternatives à Statistique Canada. Il présente aussi les défis opérationnels et les risques auxquels les bureaux statistiques pourraient faire face s'ils comptaient de plus en plus sur les produits de tiers. Finalement, il présente les outils en cours d'élaboration afin d'intégrer les données alternatives, tout en recueillant des métadonnées.
- Communication (PDF, 495.38 Ko) Archivé
-
10 h 30 – 12 h
Séance 2B – Applications reliées à la croissance de l'information statistique
- Défis et résultats de l'utilisation de données de piste de vérification pour évaluer la qualité des données de l'Enquête sur la population active
Justin Francis et Yves Lafortune, Statistique Canada-
Résumé
L'Enquête sur la population active (EPA) est une enquête menée auprès d'environ 56 000 ménages, qui fournit des renseignements sur le marché du travail au Canada. La piste de vérification est une option de programmation Blaise pour les enquêtes comme l'EPA, avec interviews assistées par ordinateur (IAO), qui crée des fichiers comprenant chaque frappe au clavier, des résultats de vérification des données ainsi qu'une indication horaire de chaque tentative de collecte faite auprès de tous les ménages. La combinaison d'une enquête de grande taille et d'une source aussi complète de paradonnées ouvre la porte à une analyse approfondie de la qualité des données, mais entraîne aussi des défis au chapitre des mégadonnées. Comment peut-on extraire des renseignements utiles de ce grand ensemble de frappes au clavier et d'indications horaires? Comment cela peut-il contribuer à évaluer la qualité de la collecte des données de l'EPA? La présentation décrira certains des défis qui se sont posés et les solutions qui ont été utilisées pour les relever, ainsi que les résultats de l'analyse de la qualité des données.
- Communication (PDF, 762.93 Ko) Archivé
-
- Programme de bases de sondage pour les enquêtes auprès des ménages de Statistique Canada – recherche stratégique visant une utilisation accrue des données administratives
Tim Werschler, Edward Chen, Kim Charland et Crystal Sewards, Statistique Canada-
Résumé
Le programme de bases de sondage pour les enquêtes auprès des ménages (BSEM) de Statistique Canada fournit différents produits qui peuvent être utilisés seuls ou en combinaison afin d'améliorer la conception d'enquêtes au niveau de l'échantillonnage, de la collecte et du traitement et ce, selon le modèle traditionnel dans lequel on contacte un ménage. Alors que les enquêtes migrent toujours vers cet ensemble de produits de base, le programme de BSEM commence à planifier les changements qui seront requis à l'infrastructure, à l'organisation et aux liens avec d'autres sources de données de Statistique Canada afin de permettre l'évolution vers une utilisation accrue d'une multitude de sources de données administratives en tant qu'intrants au programme des statistiques sociales. La présentation fournira d'abord un aperçu du programme courant de BSEM. Elle identifiera ensuite les concepts de base qui devront être mis en œuvre dans le but d'augmenter le potentiel de couplage des enregistrements et se conclura en présentant la recherche stratégique qui sera menée d'ici au recensement de 2021.
- Communication (PDF, 521.3 Ko) Archivé
-
- Mesures de la congestion routière à partir de données sur la vitesse instantanées de l'Étude sur l’utilisation des véhicules au Canada (EUVC)
Émile Allie, Transports Canada, Canada-
Résumé
La congestion routière ne se limite pas aux grandes villes, mais elle se manifeste aussi dans les villes de taille moyenne et sur les autoroutes qui traversent les villes. Parmi une large gamme de mesures de la congestion, six ont été sélectionnées en vue de faciliter l'agrégation et en raison de leur capacité à utiliser les données instantanées de la composante des véhicules légers de l'EUVC en 2014. Parmi les mesures sélectionnées, l'indice de congestion est peut-être le seul qui n'est pas biaisé. Cette mesure sert à illustrer différents aspects de la congestion du réseau routier.
- Communication (PDF, 470.69 Ko) Archivé
-
- Entrepôt de données et outils d'analyse pour faciliter l'intégration des comptes macroéconomiques canadiens
Alistair Macfarlane et Jordan-Daniel Sabourin, Statistique Canada-
Résumé
L'entrepôt de données a permis de moderniser la façon dont le Système canadien des comptes macroéconomiques (CME) est produit et analysé aujourd'hui. En raison de son évolution continue, la quantité et les types de travaux analytiques qui sont effectués à l'intérieur des CME augmentent. Il apporte l'élément nécessaire d'harmonisation et de confrontation pendant l'évolution des comptes macroéconomiques vers une intégration complète. Les améliorations de la qualité, de la transparence et de l'actualité ont permis le raffermissement des statistiques qui sont diffusées.
- Communication (PDF, 262.55 Ko) Archivé
-
13 h 30 – 15 h
Séance 3A – Erreur d'enquête totale
- Utilisation de dossiers administratifs pour évaluer les données d'enquête
Mary H. Mulry, Elizabeth M. Nichols et Jennifer Hunter Childs, U.S. Census Bureau, États-Unis-
Résumé
Après le Recensement de 2010, le U.S. Census Bureau a mené deux projets de recherche distincts, en vue d'apparier des données d'enquête et des bases de données. Dans le cadre d'une étude, on a procédé à un appariement avec la base de données du tiers Accurint, et dans un autre cas, avec les fichiers du National Change of Address (NCOA) du U.S. Postal Service. Dans ces deux projets, nous avons évalué l'erreur de réponse dans les dates de déménagement déclarées en comparant les dates de déménagement autodéclarées et les enregistrements de la base de données. Nous avons fait face aux mêmes défis dans le cadre des deux projets. Le présent document aborde notre expérience de l'utilisation des « mégadonnées », en tant que source de comparaison pour les données d'enquête, ainsi que les leçons que nous avons apprises pour des projets futurs similaires à ceux que nous avons menés.
- Communication (PDF, 361.11 Ko) Archivé
-
- Tendances de la non-réponse et du biais lié au consentement au couplage dans une enquête par panel
Joseph Sakshaug, University of Manchester, Royaume-Uni et Martina Huber, Institute for Employment Research, Royaume-Uni-
Résumé
Les enquêtes sont sujettes à de nombreuses sources d'erreur, qui menacent la validité des inférences qui en sont tirées. Même si une part importante des ouvrages publiés dans le domaine des méthodes d'enquête est axée sur la détermination des erreurs dans les enquêtes transversales, on s'est moins occupé des erreurs dans les enquêtes par panel. Le couplage des dossiers administratifs et de l'échantillon complet (répondants et non-répondants) peut être utile pour étudier diverses erreurs dans les enquêtes par panel, y compris la non-réponse, qui a tendance à augmenter après plusieurs vagues de l'étude. Les données des enregistrements peuvent aussi être utilisées pour étudier les erreurs dues au consentement au couplage, qui est couramment obtenu dans les enquêtes par panel, mais qui n'est pas donné par tous les répondants. Dans cette présentation, nous présentons des estimations du biais pour les deux sources d'erreurs d'une enquête par panel en Allemagne. Les estimations du biais sont calculées à partir de données administratives recueillies auprès d'un échantillon d'employés qui ont été invités à participer au panel. Nous avons trouvé des preuves d'une augmentation du biais due à la non-réponse au fil du temps, pour les résultats mesurés de façon transversale et longitudinale. On a observé la tendance opposée pour le biais lié au consentement au couplage, qui diminue au fil du temps lorsque les répondants qui n'ont pas fourni leur consentement dans une vague antérieure sont incités à revoir leur décision dans les vagues subséquentes. Nous concluons la présentation par un examen des répercussions pratiques de ces constatations et nous suggérons des sujets de recherche future.
- Communication
-
- Les mégadonnées dans la perspective de la recherche par enquête
Reg Baker, Marketing Research Institute International, États-Unis-
Résumé
Le terme mégadonnées peut signifier différentes choses pour différentes personnes. Pour certaines, il s'agit d'ensembles de données que nos systèmes classiques de traitement et d'analyse ne peuvent plus traiter. Pour d'autres, cela veut simplement dire tirer parti des ensembles de données existants de toutes tailles et trouver des façons de les fusionner, avec comme objectif de produire de nouveaux éléments de connaissance. La première perspective présente un certain nombre de défis importants pour les études traditionnelles de marché, recherches sur l'opinion et recherches sociales. Dans l'un ou l'autre cas, il existe des répercussions pour l'avenir des enquêtes, qu'on commence à peine à explorer.
- Communication (PDF, 325.25 Ko) Archivé
-
13 h 30 – 15 h
Séance 3B – Source de données alternatives pour remplacer ou complémenter des données d'enquête
- Étude de cas sur l'utilisation de données administratives pour appuyer l'élaboration de politiques
Yves Gingras, Tony Haddad, Stéphanie Roberge, Georges Awad et Andy Handouyahia, Emploi et Développement social Canada, Canada-
Résumé
Les Ententes sur le développement du marché du travail (EDMT) sont des ententes entre le Canada et les provinces et territoires visant à financer la formation et les services de soutien sur le marché du travail pour les prestataires d'assurance-emploi. L'objectif de cette communication est d'examiner les améliorations au fil des ans de la méthode d'évaluation des répercussions. Le présent document décrit les EDMT et les travaux d'élaboration passés et mentionne les raisons qui motivent une meilleure utilisation de fonds de données administratives importants. Suit une explication détaillée de la façon dont la nouvelle approche a fait en sorte que le processus d'évaluation nécessite moins de ressources, alors que les résultats s'appliquent mieux à l'élaboration de politiques. Le document fait aussi état des leçons apprises d'un point de vue méthodologique et fournit un aperçu des façons de rendre efficace ce type d'utilisation des données administratives, particulièrement dans le contexte des grands programmes.
- Communication (PDF, 337.09 Ko) Archivé
-
- Vers une approche intégrant des données du recensement et des données administratives pour l'imputation au niveau de la question dans le cadre du Recensement de 2021 au Royaume-Uni
Steven Rogers and Fern Leather, Office for National Statistics, Royaume-Uni-
Résumé
En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s'est engagée à mener un programme de recherche exhaustif, afin d'explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l'imputation (C et I) au niveau de la question joueront un rôle important pour l'ajustement de la base de données du Recensement de 2021. Toutefois, l'incertitude associée à l'exactitude et à la qualité des données administratives disponibles jette des doutes sur l'efficacité d'une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d'assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d'une étude de simulation comparant l'exactitude prédictive et l'exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d'une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l'accent sur l'imputation d'une année d'âge. L'objectif de l'étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l'imputation, et où se situent les différentes stratégies dans un continuum d'exactitude.
- Communication (PDF, 350.32 Ko) Archivé
-
- Comparaison des données d'enquête et des sources administratives : données sur l'immigration et le travail et données démographiques de l'Étude longitudinale et internationale des adultes
James Hemeon, Statistique Canada-
Résumé
Les données administratives, selon leur source et leur objectif original, peuvent être considérées comme plus fiables au chapitre de l'information que les données recueillies dans le cadre d'une enquête. Elles ne nécessitent pas qu'un répondant soit présent et comprenne le libellé des questions, et elles ne sont pas limitées par la capacité du répondant à se rappeler des événements rétrospectivement. Cette communication compare certaines données d'enquête, comme des variables démographiques, tirées de l'Étude longitudinale et internationale des adultes (ELIA), à diverses sources administratives pour lesquelles des ententes de couplage sont en place avec l'ELIA. La correspondance entre les sources de données, et certains des facteurs qui pourraient l'affecter, sont analysés pour divers aspects de l'enquête.
- Communication (PDF, 287.55 Ko) Archivé
-
- Trajectoires des étudiants et résultats des diplômés
Aimé Ntwari, Éric Fecteau, Rubab Arim, Christine Hinchley et Sylvie Gauthier, Statistique Canada-
Résumé
Les fichiers comprenant des données couplées du Système d'information sur les étudiants postsecondaires (SIEP) de Statistique Canada et des données fiscales peuvent servir à examiner les trajectoires des étudiants qui poursuivent des études postsecondaires (EPS) et leurs résultats sur le marché du travail par la suite. D'une part, les données administratives sur les étudiants couplées de façon longitudinale peuvent fournir des renseignements agrégés sur les trajectoires des étudiants pendant leurs études postsecondaires, comme les taux de persévérance, les taux de diplomation, la mobilité, etc. D'autre part, les données fiscales peuvent compléter le SIEP et fournir des renseignements sur les résultats au chapitre de l'emploi, comme la rémunération moyenne et médiane ou la progression de la rémunération selon le secteur d'emploi (industrie), le domaine d'études, le niveau de scolarité et/ou d'autres données démographiques, année après année suivant l'obtention du diplôme. Deux études longitudinales pilotes ont été menées au moyen de données administratives sur les étudiants postsecondaires d'établissements des Maritimes, qui ont été couplées de façon longitudinale et avec le fichier de données fiscales de Statistique Canada (le fichier sur la famille T1) pour les années pertinentes. Cet article met d'abord l'accent sur la qualité des renseignements compris dans les données administratives et sur la méthode utilisée pour mener ces études longitudinales et calculer des indicateurs. En deuxième lieu, elle portera sur certaines limites liées à l'utilisation de données administratives, plutôt que de données d'enquête, pour définir certains concepts.
- Communication (PDF, 468.86 Ko) Archivé
-
- Estimation des effets associés au moment de la participation aux services d'aide à l'emploi au moyen de données administratives riches
Stéphanie Roberge, Andy Handouyahia, Tony Haddad, Georges Awad et Yves Gingras, Emploi et Développement social Canada, Canada-
Résumé
La présente étude vise à déterminer si le fait de commencer à participer aux Services d'aide à l'emploi (SAE) tôt après la présentation de la demande d'assurance-emploi (a.-e.) donne de meilleurs résultats pour les chômeurs que leur participation plus tardive durant la période de prestations. Comme dans Sianesi (2004) et dans Hujer et Thomsen (2010), l'analyse s'appuie sur une méthode d'appariement par score de propension stratifié, conditionnelle à la durée discrétisée de la période de chômage jusqu'au commencement du programme. Les résultats montrent que les personnes qui ont participé aux SAE dans les quatre premières semaines après la présentation de la demande d'assurance-emploi sont celles chez lesquelles les effets sur la rémunération et l'incidence de l'emploi ont été les meilleurs et que ces personnes ont également vu se réduire l'utilisation de l'assurance-emploi à partir de la deuxième année après le programme.
- Communication (PDF, 426.11 Ko) Archivé
-
15 h 30 – 17 h
Séance 4A – Données ouvertes
- Un survol international des expériences en matière de données ouvertes
Timothy Herzog, World Bank, États-Unis-
Résumé
Les initiatives de données ouvertes transforment la façon dont les gouvernements et d'autres institutions publiques interagissent et fournissent des services à leurs mandants. Elles accroissent la transparence et la valeur de l'information pour les citoyens, réduisent les inefficacités et les obstacles à l'information, rendent possible des applications guidées par les données qui améliorent la prestation des services publics, et fournissent des données publiques pouvant susciter des possibilités économiques novatrices. Étant l'un des premiers organismes internationaux à adopter une politique de données ouvertes, la Banque mondiale a orienté et offert des conseils techniques aux pays en voie de développement qui envisagent de mettre en place ou qui conçoivent leurs propres initiatives. La présente communication donnera un aperçu des faits nouveaux en matière de données ouvertes sur le plan international, ainsi que des expériences, des défis et des possibilités actuels et futurs. M. Herzog discutera des raisons qui poussent les gouvernements à adopter les données ouvertes, des avantages prouvés de celles-ci pour les secteurs public et privé, de l'éventail d'approches que suivent les gouvernements, et des outils à la disposition des décideurs, en insistant tout spécialement sur les rôles et perspectives des bureaux nationaux de la statistique au sein d'une initiative pangouvernementale.
- Communication (PDF, 1.29 Mo) Archivé
-
- Statistique Canada et les données ouvertes
Bill Joyce, Statistique Canada-
Résumé
La présente communication vise à fournir un bref aperçu de l'engagement de Statistique Canada à l'égard des données ouvertes. Nous aborderons tout d'abord la façon dont les principes des données ouvertes sont intégrés dans les pratiques courantes de diffusion de Statistique Canada. Puis, nous discuterons de la participation de l'organisme à l'initiative de données ouvertes de l'ensemble du gouvernement. Cette participation comporte deux volets : Statistique Canada est le principal fournisseur de données au portail de données ouvertes du gouvernement du Canada, mais il joue aussi un rôle important en arrière-plan, en tant que fournisseur de services responsable du développement et de la mise à jour du portail de données ouvertes (qui fait maintenant partie du portail plus large Gouvernement ouvert).
- Communication (PDF, 219.22 Ko) Archivé
-
- Exploration du portail du Gouvernement ouvert du Canada
Ashley Casovan, Secrétariat du Conseil du Trésor du Canada, Canada-
Résumé
L'accès aux données ouvertes s'inscrit de plus en plus dans les attentes des Canadiens, des chercheurs et des concepteurs. Apprenez comment et pourquoi le gouvernement du Canada a créé le portail « Gouvernement ouvert » afin de centraliser l'accès à toutes ses données ouvertes et en quoi cette initiative continuera de favoriser l'utilisation de renseignements statistiques.
- Communication (PDF, 1.43 Mo) Archivé
-
15 h 30 – 17 h
Séance 4B – Qualité des données administratives
- Assimilation et couverture de la population née à l'étranger dans les dossiers administratifs
Renuka Bhaskar, Leticia Fernandez et Sonya Rastogi, U.S. Census Bureau, États-Unis-
Résumé
Le U.S. Census Bureau cherche des façons d'intégrer des données administratives dans les opérations des recensements décennaux et des enquêtes. Pour mener ces travaux, il est essentiel de comprendre la couverture de la population dans les dossiers administratifs. À partir de données administratives fédérales et de tiers couplées avec celles de l'American Community Survey (ACS), nous évaluons dans quelle mesure les dossiers administratifs fournissent des données sur les personnes nées à l'étranger dans l'ACS, et nous utilisons des techniques de régression logistique multinomiale pour évaluer les caractéristiques de celles qui figurent dans les dossiers administratifs par rapport à celles qui n'y figurent pas. Nous avons déterminé que, dans l'ensemble, les dossiers administratifs fournissent une bonne couverture des personnes nées à l'étranger dans notre échantillon pour lesquelles un appariement peut être déterminé. La probabilité de figurer dans les dossiers administratifs semble être liée aux processus d'assimilation des immigrants : la naturalisation, une meilleure connaissance de la langue anglaise, le niveau de scolarité, et un emploi à temps plein étant associés à une plus grande probabilité de figurer dans les dossiers administratifs. Ces résultats laissent supposer qu'au fur et à mesure que les immigrants s'adaptent à la société américaine et s'y intègrent, ils sont plus susceptibles de participer aux processus et aux programmes gouvernementaux et commerciaux pour lesquels nous incluons des données. Nous explorons ensuite la couverture des dossiers administratifs pour les deux groupes raciaux/ethniques les plus importants de notre échantillon, à savoir les personnes nées à l'étranger de race hispanique et de race asiatique unique non hispanique, en déterminant encore une fois que les caractéristiques liées à l'assimilation sont associées à une couverture des deux groupes dans les dossiers administratifs. Toutefois, nous observons que le contexte du quartier a des répercussions différentes sur les personnes d'origine hispanique et asiatique.
- Communication (PDF, 1.78 Mo) Archivé
-
- Écarts dans la déclaration de la race et de l'origine hispanique entre les différentes sources de dossiers administratifs : exploration de méthodes pour attribuer les réponses
Sharon R. Ennis, Sonya Rastogi et James Noon, U.S. Census Bureau, États-Unis-
Résumé
Le U.S. Census Bureau est à la recherche de façons d'utiliser les dossiers administratifs dans les opérations d'enquête et les opérations décennales afin de réduire les coûts et le fardeau des répondants, tout en préservant la qualité des données. Parmi les utilisations possibles des dossiers administratifs figure l'utilisation des données en l'absence de réponses sur la race et l'origine hispanique. Lorsque les dossiers administratifs fédéraux et de tiers sont compilés, les réponses concernant la race et l'origine hispanique ne sont pas toujours les mêmes pour la même personne dans les différentes sources de dossiers administratifs. Nous explorons différents ensembles de règles opérationnelles servant à attribuer une réponse pour la race et l'origine hispanique lorsque ces réponses diffèrent entre les sources. Nous décrivons aussi les caractéristiques des personnes dont les données sur la race et l'origine hispanique correspondent, ne correspondent pas et sont manquantes pour plusieurs variables démographiques, des ménages et contextuelles. Nous avons déterminé que les personnes appartenant à des minorités, et plus particulièrement les personnes d'origine hispanique, sont plus susceptibles d'avoir des réponses sur l'origine hispanique et la race qui ne correspondent pas dans les dossiers administratifs que dans le Recensement de 2010. Les Hispaniques sont moins susceptibles d'avoir des données manquantes sur l'origine hispanique, mais plus susceptibles d'avoir des données manquantes sur la race dans les dossiers administratifs. Les Asiatiques non hispaniques et les habitants des îles du Pacifique non hispaniques sont plus susceptibles d'avoir des données manquantes sur la race et l'origine hispanique dans les dossiers administratifs. Les personnes plus jeunes, les locataires, les personnes vivant dans des ménages de deux personnes ou plus, les personnes qui ont répondu au recensement dans le cadre de l'opération de suivi de la non-réponse ainsi que les personnes résidant dans des régions urbaines sont plus susceptibles d'avoir des réponses sur la race et l'origine ethnique qui ne correspondent pas.
- Communication (PDF, 789.25 Ko) Archivé
-
- Les défis du jumelage et de l'utilisation de données administratives provenant de sources différentes
Philippe Gamache, Institut national de santé publique du Québec, Canada-
Résumé
À l'Institut national de santé publique du Québec, le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ) est utilisé quotidiennement depuis environ quatre ans. Les bénéfices de ce système sont nombreux pour mesurer plus précisément l'ampleur des maladies, pour évaluer adéquatement l'utilisation des services de santé et pour identifier certains groupes à risque. Or, au fil des mois, divers problèmes sont apparus et ont nécessité une réflexion plus ou moins longue et élaborée. Des problèmes touchant différentes sphères d'activité, du jumelage à la qualité des données en passant par la coordination entre de multiples utilisateurs et le respect des obligations légales.
Cette présentation a pour objet de décrire les principaux défis associés à l'utilisation des données du SISMACQ, ainsi que de présenter quelques pistes de solution. Sera notamment abordé le traitement de cinq sources de données qui proviennent non seulement de cinq sources différentes, mais dont l'utilité première n'est pas la surveillance des maladies chroniques. La qualité variable des données, autant entre fichiers qu'à l'intérieur d'un même fichier, sera aussi discutée. Certaines situations reliées à l'utilisation simultanée du système par plusieurs utilisateurs seront aussi exposées. Des exemples d'analyses sur de grands ensembles de données ayant causé des tracas seront donnés. Également, quelques défis entourant la divulgation et le respect des ententes légales seront brièvement évoqués.
- Communication (PDF, 280 Ko) Archivé
-
- Évaluation de la correspondance du lieu de résidence du recensement et des données fiscales à l'aide d'un couplage de données
Julien Bérard-Chagnon et Georgina House, Statistique Canada-
Résumé
Les données fiscales sont de plus en plus exploitées pour la mesure et l'analyse de la population et de ses caractéristiques. Un des enjeux soulevés par l'utilisation croissante de ce type de données concerne la définition du concept du lieu de résidence. Si le recensement se base sur le concept du lieu habituel de résidence, les données fiscales nous renseignent sur l'adresse postale des déclarants. Au moyen d'un couplage d'enregistrements entre le recensement, l'Enquête nationale auprès des ménages et les données fiscales du fichier T1 sur la famille, cette étude examine le niveau de correspondance du lieu de résidence de ces deux sources et les caractéristiques qui lui sont associés.
- Communication (PDF, 244.15 Ko) Archivé
-
- Estimation de la migration interne: Enjeux reliés à l'utilisation des données fiscales
Guylaine Dubreuil et Georgina House, Statistique Canada-
Résumé
La migration interne constitue l'une des composantes de l'accroissement démographique estimées à Statistique Canada. Elle est estimée en comparant l'adresse des individus au début et à la fin d'une période donnée. Les principales données exploitées sont celles de la Prestation fiscale canadienne pour enfants et celles du fichier T1 sur la famille. La qualité des adresses et la couverture de sous-populations plus mobiles jouent un rôle capital dans le calcul d'estimations de bonne qualité. L'objectif de cet article est de présenter les résultats d'évaluations reliées à ces aspects, profitant de l'accès à un plus grand nombre de sources de données fiscales à Statistique Canada.
- Communication (PDF, 447.58 Ko) Archivé
-
Mercredi 23 mars 2016
8 h – 17 h
Inscriptions – 3e étage
8 h 45 – 9 h 45
Séance 5 – Discours du gagnant du Prix Waksberg
- Vers un cadre de qualité pour les mélanges de données conçues et de données organiques
Robert Groves, Georgetown University, États-Unis-
Résumé
Des échantillons probabilistes tirés de bases de sondage quasi-universelles de ménages et de personnes, des mesures normalisées, qui donnent lieu à des enregistrements de données multivariées, analysés au moyen de procédures statistiques reflétant le plan de sondage – c'est-ce qui a constitué le fondement des sciences sociales empiriques pendant 75 ans. C'est cette structure de mesure qui a donné au monde développé la grande majorité de nos connaissances actuelles sur nos sociétés et leurs économies. Les données d'enquête conservées actuellement constituent un dossier historique unique.
Cependant, nous vivons maintenant dans un monde de données bien différent de celui dans lequel les dirigeants des organismes statistiques et des sciences sociales ont grandi. Nous produisons maintenant des données multidimensionnelles à partir de recherches sur Internet, de dispositifs mobiles connectés à Internet, des médias sociaux, de différents capteurs, de lecteurs optiques de magasins de détails et d'autres dispositifs. Certains estiment que la taille de ces sources de données augmente de 40 % par année. La taille totale de ces nouvelles sources de données éclipse celle des enquêtes fondées sur un échantillon probabiliste.
De plus, les enquêtes fondées sur des échantillons ne se portent pas très bien dans le monde développé. La baisse des taux de participation aux enquêtes est liée aux coûts de plus en plus élevés de la collecte des données. Malgré des besoins en information croissants, la création de nouveaux instruments d'enquête est entravée par les restrictions budgétaires imposées aux organismes de statistique officielle et aux sources de financement de la recherche en sciences sociales.
Toutes ces observations représentent des défis sans précédent pour le paradigme de base de l'inférence dans les sciences sociales et économiques. L'article propose de nouvelles approches à mettre en œuvre pour ce moment charnière historique.
- Communication (PDF, 1.69 Mo) Archivé
-
9 h 45 – 10 h
Publicité éclair des affiches et des démonstrations de logiciels
10 h 30 – 12 h
Séance 6A – Développements récents en couplage d'enregistrements
- Modélisation statistique des erreurs de couplage d'enregistrement appliquée aux données du registre du cancer du programme SEER
Michael D. Larsen, The George Washington University, États-Unis-
Résumé
Le couplage d'enregistrements a pour objet de jumeler deux ou plusieurs sources de données. Le produit du couplage d'enregistrements est un fichier qui comprend un enregistrement par individu dans lequel est contenue toute l'information au sujet de cet individu provenant de plusieurs fichiers. Le problème de couplage est difficile lorsqu'on ne dispose pas d'une clé d'identification unique, qu'il existe des erreurs dans certaines variables, que certaines données manquent, et que les fichiers sont grands. Le couplage probabiliste d'enregistrements consiste à calculer une probabilité que les enregistrements provenant de fichiers différents appartiennent à un même individu. Il arrive que de faibles probabilités d'appariement soient attribuées à de vrais appariements et que des probabilités élevées soient attribuées à des non-appariements. Les erreurs de désignation des appariements peuvent causer un biais dans les analyses portant sur la base de données composite.
Les registres du cancer du programme SEER contiennent de l'information sur les cas de cancer du sein dans les régions qu'ils desservent. Un test fondé sur l'analyse de l'oncotype DX, effectuée par Genomic Health, Inc. (GHI), est souvent utilisé pour certains types de cancer du sein. Un couplage d'enregistrements en utilisant des renseignements personnels permettant l'identification a été effectué pour associer les résultats de l'analyse de l'oncotype DX aux données des registres du cancer du programme SEER. Le logiciel Link Plus a été utilisé pour générer une cote décrivant la similarité des enregistrements et repérer ainsi, pour les individus inscrits dans les registres du cancer du programme SEER, l'appariement paraissant le meilleur avec la base de données GHI. Un examen manuel a été effectué pour vérifier des échantillons d'appariements probables, d'appariements possibles et d'appariements improbables.
Des modèles sont proposés pour modéliser conjointement le processus de couplage d'enregistrements et l'analyse statistique subséquente dans la présente application et dans d'autres.
- Communication (PDF, 673.78 Ko) Archivé
-
- Procédures d'échantillonnage pour évaluer l'exactitude du couplage d'enregistrements
Paul Smith, University of Southampton, Royaume-Uni; Shelley Gammon, Sarah Cummins, Christos Chatzoglou et Dick Heasman, Office for National Statistics, Royaume-Uni-
Résumé
Les ensembles de données administratives servent de plus en plus couramment de sources de données en statistique officielle dans le cadre d'efforts visant à produire plus efficacement un plus grand nombre de produits. De nombreux produits résultent du couplage de deux ensembles de données ou plus, souvent réalisé en plusieurs phases en appliquant différentes méthodes et règles. Dans ces situations, nous aimerions pouvoir évaluer la qualité du couplage, ce qui comprend une certaine réévaluation des liens ainsi que des non-liens. Dans le présent article, nous discutons de méthodes d'échantillonnage en vue d'obtenir des estimations du nombre de faux négatifs et de faux positifs, en exerçant un contrôle raisonnable sur l'exactitude des estimations ainsi que sur les coûts. Des approches de stratification des liens (non-liens) pour l'échantillonnage sont évaluées en utilisant des données provenant du recensement de la population de l'Angleterre et du Pays de Galles de 2011.
- Communication (PDF, 131.66 Ko) Archivé
-
- Estimation bayésienne de l'appariement bipartite pour le couplage d'enregistrements
Mauricio Sadinle, Duke University, États-Unis-
Résumé
Dans la présente communication, nous nous intéressons au scénario le plus classique de couplage d'enregistrements, qui consiste à jumeler deux fichiers de données disparates contenant des données chevauchantes sur un ensemble d'entités, en supposant que chaque entité est enregistrée au maximum une fois dans chaque fichier de données. Il s'agit d'une tâche importante ayant une grande variété d'applications, étant donné qu'elle doit être résolue chaque fois que nous devons combiner de l'information provenant de sources différentes. La plupart des méthodes statistiques utilisées à l'heure actuelle découlent d'un article fondamental publié par Fellegi et Sunter (1969) dans lequel ils formalisent des procédures qui avaient été utilisées auparavant par d'autres chercheurs. Ces méthodes reposent habituellement sur l'hypothèse d'indépendance dans l'état d'appariement des paires d'enregistrements pour établir des procédures d'estimation et des estimateurs ponctuels (p. ex., règle de décision de Fellegi-Sunter). Nous soutenons que cette hypothèse d'indépendance n'est pas raisonnable et ciblons plutôt comme paramètre d'intérêt un appariement bipartite entre les deux ensembles d'enregistrements provenant des deux fichiers. La mise en œuvre bayésienne présentée ici nous permet d'intégrer l'information a priori sur la qualité des champs dans les fichiers de données, laquelle à son tour aide à obtenir de meilleurs résultats quand les fichiers de données n'ont pas en commun une grande quantité d'information identifiante. Notre mise en œuvre bayésienne nous permet aussi de quantifier comme il convient l'incertitude du couplage et d'obtenir des estimateurs ponctuels sous différentes fonctions de perte. En particulier, nous proposons des estimations bayésiennes partielles qui permettent que les parties incertaines de l'appariement bipartite demeurent non résolues. Nous démontrons les améliorations de notre approche par rapport aux méthodes classiques dans un certain nombre d'études en simulation réalistes.
- Communication
-
10 h 30 – 12 h
Séance 6B – Confidentialité
- Trouver une aiguille dans une botte de foin: les fondements théoriques et empiriques de l'évaluation du risque de divulgation pour des microdonnées contextualisées
Kevin T. Leicht, University of Illinois, États-Unis-
Résumé
Cette communication décrit divers facteurs qui posent un problème lorsque l'on évalue le risque de divulgation de microdonnées contextualisées, ainsi que certaines des étapes empiriques qui sont comprises dans leur évaluation. À partir d'ensembles synthétiques de répondants d'enquête, nous illustrons comment différents postulats modulent l'évolution du risque lorsque l'on tient compte : 1) des probabilités estimées que des régions géographiques non identifiées soient représentées dans une enquête; 2) du nombre de personnes dans la population qui partagent les mêmes identificateurs personnels et contextuels qu'un répondant; et 3) de l'ampleur prévue de l'erreur de couverture dans les chiffres de population du recensement et les fichiers existants qui fournissent des données d'identification (p. ex., le nom, l'adresse).
- Communication (PDF, 282.44 Ko) Archivé
-
- Application moderne de soumission des travaux pour accéder aux données administratives et aux données de recherche d'enquêtes confidentielles de l'IAB
Johanna Eberle, Jörg Heining, Dana Müller et David Schiller, Institute for Employment Research, Allemagne-
Résumé
L'Institute for Employment Research (IAB) est le service de recherche de l'Agence fédérale allemande de placement. Par l'entremise du Centre de données de recherche (FDZ) à l'IAB, des données administratives et des données d'enquête sur les personnes et les établissements sont fournies aux chercheurs. En collaboration avec l'Institute for the Study of Labor (IZA), le FDZ a mis en œuvre l'application de soumission des travaux (JoSuA), qui permet aux chercheurs de soumettre des travaux, en vue du traitement des données à distance grâce à une interface Web personnalisée. Par ailleurs, deux types de fichiers de sortie produits pour l'utilisateur peuvent être reconnus dans l'environnement JoSuA, ce qui permet de fournir des services d'examen de la divulgation plus rapides et plus efficaces.
- Communication (PDF, 170.87 Ko) Archivé
-
- Amélioration du partage des données au moyen de « plans sécuritaires »
Kristine Witkowski, University of Michigan, États-Unis-
Résumé
La valeur sociale des collectes de données est améliorée de façon marquée par la vaste diffusion des fichiers de recherche et l'augmentation en découlant de la productivité scientifique. À l'heure actuelle, la plupart des études sont conçues en vue de recueillir des données utiles et exactes au niveau analytique, en se préoccupant peu de la façon dont elles seront mises en commun. Tant les ouvrages publiés que la pratique reposent sur le principe que l'analyse de la divulgation aura lieu après la collecte. Toutefois, pour produire des données à grande diffusion comportant la plus grande utilité analytique possible pour le groupe d'utilisateurs le plus important, on doit tenir compte du risque de divulgation au début du processus de recherche. À partir de cadres théoriques de décisions économiques et statistiques et de recherches en méthodes d'enquête, cette communication vise à améliorer la productivité scientifique des données de recherche partagées en décrivant comment le risque de divulgation peut être résolu aux étapes les plus précoces de la recherche, grâce à la formulation de « plans sécuritaires » et de « simulations de divulgation », une approche statistique appliquée ayant été adoptée pour : 1) l'élaboration et la validation de modèles qui prédisent la composition des données d'enquête selon différents plans d'échantillonnage; 2) la sélection et/ou l'élaboration de mesures et de méthodes utilisées pour déterminer le risque de divulgation, l'utilité analytique et les coûts de la divulgation des données d'enquête qui conviennent le mieux pour l'évaluation des plans d'échantillonnage et de bases de données; et 3) la tenue de simulations pour recueillir des estimations du risque, de l'utilité et du coût des études comportant une vaste gamme de caractéristiques d'échantillonnage et de conception de bases de données.
- Communication (PDF, 1.43 Mo) Archivé
-
- Aspects de la protection de la vie privée et de la sécurité liés à l'utilisation des mégadonnées – Progrès des travaux du Système statistique européen (SSE)
Pascal Jacques, EUROSTAT, Luxembourg-
Résumé
La protection des données et la protection de la vie privée sont des défis clés qui doivent être relevés de façon prioritaire, afin de permettre l'utilisation des mégadonnées dans la production de statistiques officielles. C'est ce qu'ont préconisé, en 2013, les directeurs des Instituts nationaux de statistique (INS) du Comité du Système statistique européen (CSSE) dans le mémorandum de Scheveningen. Le CSSE a demandé à Eurostat et aux INS d'élaborer un plan d'action comportant un carnet de route, en vue d'assurer le suivi de la mise en œuvre du mémorandum. À la réunion de Riga, le 26 septembre 2014, le CSSE a adopté le plan d'action et carnet de route 1.0 des mégadonnées (BDAR) présenté par le Groupe de travail d'Eurostat chargé des mégadonnées (TFBD), et il a convenu de l'intégrer dans le portefeuille de la Vision du SSE pour 2020.
Eurostat collabore aussi dans ce domaine avec des partenaires externes comme la Commission économique des nations unies pour l'Europe (UNECE). Le projet de mégadonnées du Goupe de haut niveau de la UNECE est un projet international sur le rôle des mégadonnées dans la modernisation de la production de statistiques. Il comprenait quatre équipes de travail chargées de différents aspects des mégadonnées pertinentes pour les statistiques officielles : protection de la vie privée, partenariats, Sandbox et qualité. L'équipe de travail chargée de la protection de la vie privée a terminé ses travaux en 2014 et a donné un aperçu des outils existants pour la gestion des risques concernant la protection de la vie privée, a décrit comment le risque d'identification se rapporte aux caractéristiques des mégadonnées et a élaboré des recommandations à l'intention des Bureaux de statistique nationaux (BSN). Elle a conclu principalement que le prolongement des cadres existants, y compris l'utilisation de nouvelles technologies, était nécessaire pour traiter les risques liés à la protection de la vie privée dans le contexte de l'utilisation des mégadonnées.
Le BDAR tire parti des travaux des équipes de la UNECE. De façon plus particulière, il reconnaît qu'un certain nombre de sources de mégadonnées comprennent des données de nature délicate, que leur utilisation pour les statistiques officielles peut entraîner des perceptions négatives dans le grand public et chez les autres intervenants, et que ce risque devrait être atténué à court et à moyen termes. Il propose le lancement de plusieurs mesures : par exemple, un examen approprié des principes éthiques régissant les rôles et les activités des INS et une stratégie de communication bien établie.
La communication présente les différentes mesures entreprises à l'intérieur du SSE et en collaboration avec la UNECE, ainsi que les solutions techniques et légales possibles à mettre en place pour résoudre les risques liés à la protection des données et à la protection de la vie privée, dans le contexte de l'utilisation des mégadonnées pour les statistiques officielles.
- Communication (PDF, 896.55 Ko) Archivé
-
- Applications pratiques du calcul sécurisé pour le contrôle de la divulgation
Luk Arbuckle, Institut de recherche du Centre hospitalier pour enfants de l'est de l'Ontario, Canada et Khaled El Emam, Institut de recherche du Centre hospitalier pour enfants de l'est de l'Ontario, Université d'Ottawa, Canada-
Résumé
La diffusion de microdonnées exige habituellement des méthodes de réduction et de modification des données, et le degré d'application de ces méthodes dépend des méthodes de contrôle qui seront nécessaires pour accéder aux données et les utiliser. Le calcul sécurisé est une approche qui, dans certaines circonstances, convient davantage pour accéder aux données à des fins statistiques; il permet le calcul de fonctions analytiques à l'égard de données chiffrées sans qu'il soit nécessaire de déchiffrer les données sources sous-jacentes pour procéder à une analyse statistique. Cette approche permet aussi à plusieurs emplacements de fournir des données, tout en garantissant une protection rigoureuse de la vie privée. De cette façon, les données peuvent être regroupées, et les fournisseurs de données peuvent calculer des fonctions analytiques, sans qu'aucune des parties ne connaisse les entrées des autres. À l'aide de certains résultats théoriques et d'exemples réels issus du domaine des soins de santé, nous expliquerons comment le calcul sécurisé peut être appliqué dans des contextes pratiques.
- Communication (PDF, 493.03 Ko) Archivé
-
13 h 30 – 15 h
Séance 7A – Méthodes d'analyse de données d'enquête non traditionnelles
- Les intervalles de confiance de la vraisemblance empirique pour des proportions de population finie
Changbao Wu, University of Waterloo, Canada-
Résumé
Les intervalles de confiance du rapport de vraisemblance empirique sont très intéressants dans le cas de paramètres présentant des contraintes d'étendue, comme les proportions de population ou les fonctions de répartition. Wu et Rao (2006) ont étudié les intervalles de confiance de la pseudo-vraisemblance empirique en utilisant des données d'enquête complexes, et Rao et Wu (2010) ont élaboré une approche bayésienne fondée sur la fonction de pseudo-vraisemblance empirique. Dans la présente communication, nous examinons les propriétés des intervalles de confiance de la pseudo-vraisemblance empirique et de la vraisemblance empirique bayésienne pour des proportions de population finie en utilisant des données d'enquête complexes. Nous examinons également un scénario important sur le plan pratique dans lequel on ne connaît pas les poids de sondage de base ni les probabilités d'inclusion d'ordre deux, mais où les producteurs des fichiers de données fournissent à la place les poids ajustés ou calés finaux, ainsi que les poids de rééchantillonnage appropriés. Les résultats d'études en simulation seront présentés. L'étude a été réalisée en collaboration avec J.N.K. Rao de l'Université Carleton.
-
- Tests d'hypothèse pour des données d'enquête catégoriques en utilisant des poids bootstrap
J. N. K. Rao, Carleton University, Canada et Jae Kwang Kim, Iowa State University, États-Unis-
Résumé
Les méthodes statistiques classiques qui ne tiennent pas compte comme il convient de la complexité du plan d'échantillonnage peuvent mener à des inférences incorrectes lorsqu'elles sont appliquées à des données d'enquête. En particulier, le taux réel d'erreur de première espèce des tests d'hypothèse fondés sur les tests classiques peut être nettement plus élevé que le niveau nominal. On a proposé des méthodes qui tiennent compte des caractéristiques du plan d'échantillonnage dans les tests d'hypothèse, y compris les tests de Wald et les tests du quasi-score (Rao, Scott et Skinner 1998), qui font intervenir les matrices de covariance estimées des estimations des paramètres. La méthode du bootstrap de Rao et Wu (1983) est appliquée fréquemment à Statistique Canada pour estimer les matrices de covariance en utilisant un fichier de données contenant des colonnes de poids bootstrap. Les progiciels statistiques classiques permettent souvent d'utiliser des statistiques de test pondérées selon le plan d'échantillonnage et il est intéressant d'approximer les lois de ces statistiques sous l'hypothèse nulle par leurs analogues bootstrap calculés au moyen des poids bootstrap fournis dans le fichier de données. Beaumont et Bocci (2009) ont appliqué cette méthode du bootstrap pour tester les hypothèses sur les paramètres de régression sous un modèle de régression linéaire, en utilisant la statistique F pondérée. Dans le présent article, nous exposons une approche unifiée de la méthode susmentionnée consistant à construire des approximations bootstrap de la statistique du rapport de vraisemblance pondéré et de la statistique du quasi-score pondéré. Nous présentons les résultats d'une étude en simulation du test d'indépendance dans un tableau à double entrée de données d'enquête catégoriques. Nous avons étudié la performance de la méthode proposée comparativement à d'autres méthodes, dont la statistique du khi-carré corrigée de Rao-Scott pour les données d'enquête catégoriques.
- Communication (PDF, 378.46 Ko) Archivé
-
- Meilleur ajustement des pondérations des répondants dans les populations asymétriques
Glen Meeden, University of Minnesota, États-Unis-
Résumé
Sous l'approche classique de traitement des observations manquantes fondée sur le plan de sondage, la construction de classes de pondération et le calage sont utilisés pour ajuster les poids de sondage pour les répondants présents dans l'échantillon. Ici, nous utilisons ces poids ajustés pour définir une loi de Dirichlet qui peut servir à faire des inférences au sujet de la population. Des exemples montrent que les procédures résultantes possèdent de meilleures propriétés de performance que les méthodes classiques quand la population est asymétrique.
- Communication (PDF, 297.77 Ko) Archivé
-
13 h 30 – 15 h
Séance 7B – Applications du couplage d'enregistrements et de l'appariement statistique
- Couplage des données du Recensement de la population de 2006 et de la Base canadienne de données sur la mortalité
Mohan Kumar et Rose Evra, Statistique Canada-
Résumé
Les ensembles de données de la statistique de l'état civil, comme la Base canadienne de données sur la mortalité, n'ont pas d'identificateurs pour certaines populations d'intérêt, comme les Premières Nations, les Métis et les Inuits. Le couplage d'enregistrements entre les données de la statistique de l'état civil et les ensembles de données d'enquête ou autres ensembles de données administratives peuvent permettre de contourner cette limite. Le présent document décrit un couplage de la Base canadienne de données sur la mortalité et du Recensement de la population de 2006, ainsi que l'analyse prévue à partir des données couplées.
- Communication (PDF, 260.64 Ko) Archivé
-
- Estimation de l'incidence des mesures actives d'aide à l'emploi au moyen de données administratives et de méthodes d'appariement
Andy Handouyahia, Tony Haddad, Stéphanie Roberge et Georges Awad, Emploi et Développement social Canada, Canada-
Résumé
Dans le présent document, nous abordons les répercussions des prestations d'emploi et mesures de soutien versées au Canada, en vertu des Ententes sur le développement du marché du travail. Nous utilisons un ensemble riche de données administratives longitudinales couplées englobant tous les participants aux EDMT de 2002 à 2005. Sur la base d'un appariement par score de propension, comme dans Blundell et coll. (2002), Gerfin et Lechner (2002), et Sianesi (2004), nous avons produit des estimations de l'impact différentiel à l'échelle nationale à partir d'un estimateur de l'écart des différences et d'un estimateur par la méthode du noyau (Heckman et Smith, 1999). Les résultats laissent supposer que, tant pour les Services d'aide à l'emploi que pour les programmes de prestations d'emploi, comme le Développement des compétences et les Subventions salariales ciblées, des effets positifs se font sentir sur la rémunération et l'emploi.
- Communication (PDF, 348.21 Ko) Archivé
-
- Aperçu du couplage d'enregistrements de données d'entreprises à Statistique Canada : Comment coupler les enregistrements « non couplables »
Javier Oyarzun et Laura Wile, Statistique Canada-
Résumé
Le mandat de Statistique Canada comprend la production de données statistiques en vue de faire la lumière sur les questions d'actualité touchant les entreprises. Le couplage des enregistrements de données d'entreprises est un aspect important de l'élaboration, de la production, de l'évaluation et de l'analyse de ces données statistiques. Comme le couplage d'enregistrements peut faire intrusion dans la vie privée, Statistique Canada n'y recourt que si l'intérêt public est manifeste et l'emporte sur les inconvénients de l'intrusion. Le couplage d'enregistrements connaît un renouveau déclenché par un usage plus important de données administratives par un grand nombre de programmes statistiques. Le couplage d'enregistrements de données d'entreprises pose de nombreux défis. Par exemple, plusieurs fichiers administratifs ne contiennent pas d'identificateurs communs, les données sont consignées dans des formats non normalisés, certaines données contiennent des erreurs typographiques, les fichiers de données administratives sont habituellement de grande taille, et enfin, l'évaluation de multiples paires d’enregistrements rend les comparaisons absolues difficiles, voire parfois impossibles. Étant donné l'importance et les défis du couplage d'enregistrements, Statistique Canada a élaboré une norme en vue d'aider les utilisateurs à optimiser leur processus de couplage d'enregistrements de données d'entreprises. Ainsi, ce processus comprend l'exploitation d'une stratégie de groupement des enregistrements qui réduit le nombre de paires d'enregistrements à comparer et à apparier, l'utilisation d'un logiciel interne de Statistique Canada pour procéder à des couplages déterministes et probabilistes, et la création de champs standardisés pour le nom et l'adresse des entreprises dans le Registre des entreprises de Statistique Canada. Le présent article donne un aperçu de la méthode de couplage d'enregistrements de données d'entreprises et examine divers projets économiques qui font appel au couplage d'enregistrements à Statistique Canada, notamment dans les domaines des Comptes nationaux, du commerce international, de l'agriculture et du Registre des entreprises.
- Communication (PDF, 603.73 Ko) Archivé
-
- Couplage d'enregistrements de brevets canadiens du U.S. Patent Office avec le registre des entreprises de Statistique Canada, 2000 à 2011
Paul Holness, Statistique Canada-
Résumé
Cette communication décrit le Quick Match System (QMS), une application interne conçue pour apparier les enregistrements de microdonnées d'entreprises, et les méthodes utilisées pour coupler l'ensemble de données du United States Patent and Trademark Office (USPTO) et le Registre des entreprises (RE) de Statistique Canada pour la période de 2000 à 2011. La communication illustre le cadre de couplage des enregistrements et fait état des techniques utilisées pour préparer et classer chaque enregistrement, ainsi que pour évaluer les résultats de l'appariement. L'ensemble de données du USPTO comprenait 41 619 brevets américains accordés à 14 162 entités canadiennes distinctes. Le processus de couplage d'enregistrements a permis d'apparier les noms, la ville, la province et les codes postaux des cessionnaires de brevets de l'ensemble de données du USPTO avec ceux des entreprises des versions de janvier du Fichier générique de l'univers de l'enquête (FGUE) tiré du RE pour la même période de référence. Étant donné que la grande majorité des particuliers cessionnaires de brevets n'ont pas d'activité commerciale produisant des biens ou des services imposables, ils ont tendance à ne pas figurer dans le RE. Le taux d'appariement relativement faible de 24,5 % parmi les particuliers, comparativement à 84,7 % parmi les établissements, rend compte de cette tendance. Même si les 8 844 particuliers cessionnaires de brevets dépassaient en nombre les 5 318 établissements, ces derniers étaient à l'origine de 73,0 % des brevets, comparativement à 27,0 % pour les particuliers. Par conséquent, cette étude et ses conclusions sont axées principalement sur les cessionnaires de brevets institutionnels.
Le couplage des établissements du USPTO et du RE est important parce qu'il donne accès à des microdonnées sur les caractéristiques des entreprises, l'emploi, le revenu, ainsi que l'actif et le passif. En outre, la récupération d'identificateurs administratifs robustes permet un couplage subséquent avec d'autres sources de données d'enquête et de données administratives. L'ensemble de données intégrées appuiera des études analytiques directes et comparatives du rendement des établissements canadiens qui ont obtenu des brevets aux États-Unis entre 2000 et 2011.
- Communication (PDF, 942.08 Ko) Archivé
-
- Mesurer la qualité d'un couplage probabiliste par des vérifications manuelles
Abel Dasylva, Melanie Abeysundera, Blache Akpoué, Mohammed Haddou et Abdelnasser Saïdi, Statistique Canada-
Résumé
Le couplage probabiliste est susceptible de donner des erreurs d'appariement telles que les faux positifs et les faux négatifs . Dans de nombreux cas, ces erreurs peuvent être mesurées fiablement par des vérifications manuelles, c'est‑à‑dire l'inspection visuelle d'un échantillon de paires d'enregistrements pour déterminer si elles sont appariées. Nous décrivons un cadre pour la bonne exécution de ces vérifications qui se fonde sur un échantillon probabiliste de paires, des vérifications indépendantes répétées de mêmes paires et une analyse de classes latentes pour tenir compte des erreurs de vérification manuelle.
- Communication (PDF, 560.94 Ko) Archivé
-
15 h 30 – 17 h
Séance 8A – Paradonnées
- De l'utilité des paradonnées dans les grandes enquêtes nationales : défis et avantages
Brady West, University of Michigan, États-Unis et Frauke Kreuter, University of Maryland, États-Unis-
Résumé
La présentation débutera avec un résumé de la recherche réalisée sur la qualité et l'utilité des paradonnées recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États-Unis. La NSFG est une grande enquête nationale sur la fécondité aux États-Unis qui est, pour les décideurs, une source importante de données sur l'activité sexuelle, le comportement sexuel et la santé génésique. Depuis de nombreuses années, la NSFG a permis de recueillir diverses formes de paradonnées, y compris les données issues de frappes au clavier (p. ex., Couper et Kreuter 2013), les renseignements du registre des appels, les renseignements détaillés sur les décisions concernant les cas, et les observations des intervieweurs associées aux principales mesures de la NSFG (p. ex., West 2013). Ensuite, certains défis que pose l'utilisation de ces données seront discutés, ainsi que des preuves de leur utilité pour la correction de la non-réponse, l'évaluation des intervieweurs et/ou l'utilisation de plans de collecte adaptatifs.
Troisièmement, des travaux de recherche seront présentés portant sur l'utilisation des paradonnées recueillies dans le cadre de deux enquêtes par panel, à savoir la Medical Expenditure Panel Survey (MEPS) réalisée aux États-Unis et la Panel Labour Market and Social Security (PASS) réalisée en Allemagne. Dans les deux enquêtes, l'information émanant des prises de contact lors de vagues antérieures a été utilisée expérimentalement en vue d'améliorer les taux de prise de contact et de réponse lors des vagues subséquentes. On présentera aussi des travaux de recherche portant sur la PASS dans le cadre desquels des données d'observation des intervieweurs concernant d'importantes variables de résultats ont été recueillies en vue de prendre des décisions quant à la correction de la non-réponse ou l'utilisation d'un plan de collecte adaptatif. Cette présentation ne couvrira pas seulement des résultats de la recherche, mais aussi des défis pratiques liés à la mise en œuvre de la collecte et à l'utilisation des deux ensembles de paradonnées.
- Communication (PDF, 603.9 Ko) Archivé
-
- Analyse bayésienne des paramètres de conception d'enquête
Barry Schouten, Joep Burger, Lisette Bruin et Nini Mushkudiani, Statistics Netherlands, Pays-Bas-
Résumé
Au moment de la conception des enquêtes, un certain nombre de paramètres, comme la propension à la prise de contact, la propension à la participation et les coûts par unité d'échantillonnage, jouent un rôle décisif. Dans le cas des enquêtes permanentes, ces paramètres de conception d'enquête sont habituellement estimés à partir de l'expérience antérieure et mis à jour graduellement, au fur et à mesure des nouvelles expériences. Dans les nouvelles enquêtes, ces paramètres sont estimés à partir de l'opinion des experts et de l'expérience acquise dans des enquêtes similaires. Même si les instituts de sondage ont une expertise et une expérience relativement bonnes, l'énoncé, l'estimation et la mise à jour des paramètres de conception d'enquête se font rarement de façon systématique.
Dans la présentation, nous proposons un cadre bayésien qui permet de prendre en compte et de mettre à jour les connaissances acquises et les opinions des experts concernant les paramètres. Ce cadre est établi dans le contexte de plans de collecte adaptatifs, dans lesquels les différentes unités de population peuvent être traitées différemment compte tenu des objectifs de qualité et de coût. Pour ce type d'enquête, l'exactitude des paramètres de conception devient encore plus cruciale pour prendre des décisions efficaces.
Le cadre permet une analyse bayésienne du rendement d'une enquête pendant la collecte des données et entre les vagues. Nous démontrons l'analyse bayésienne au moyen d'une étude de simulation réaliste.
- Communication (PDF, 1.05 Mo) Archivé
-
- Expériences d'utilisation des paradonnées par Statistique Canada dans la gestion du plan de collecte adaptatif pour les enquêtes-ménages avec interviews téléphoniques assistées par ordinateur
François Laflamme, Sylvain Hamel et Dominique Chabot-Hallé, Statistique Canada-
Résumé
Les recherches sur les paradonnées ont tenté de trouver des occasions d'améliorer la collecte de données d'un point de vue stratégique qui soient viables au niveau opérationnel, qui améliorent la qualité des données ou qui permettent de réaliser des économies. À cet égard, Statistique Canada a élaboré et mis en œuvre une stratégie de plan de collecte adaptatif (PCA) pour les enquêtes auprès des ménages utilisant les interviews téléphoniques assistées par ordinateur (ITAO), afin de maximiser la qualité et de potentiellement réduire les coûts. Le PCA est une approche adaptative pour la collecte de données d'enquêtes qui utilise l'information disponible avant et pendant la collecte des données, afin de rajuster la stratégie de collecte pour le reste des cas en cours. En pratique, les gestionnaires d'enquête contrôlent et analysent les progrès de la collecte par rapport à un ensemble d'indicateurs prédéterminés, à deux fins : déterminer les étapes essentielles de la collecte des données pour lesquelles des changements significatifs doivent être apportés à l'approche de la collecte, et rajuster les stratégies de collecte afin d'utiliser le plus efficacement possible les ressources qui demeurent disponibles. Dans le contexte du PCA, de nombreuses considérations entrent en jeu lorsqu'il faut déterminer les aspects de la collecte des données qui doivent être rajustés et la façon de procéder. Les sources de paradonnées jouent un rôle essentiel dans la planification, l'élaboration et la mise en œuvre de la gestion active dans le cadre des enquêtes fondées sur le PCA. Depuis 2009, Statistique Canada a mené plusieurs enquêtes à l'aide du PCA. Le présent document décrit les expériences de Statistique Canada lors de la mise en œuvre et de la surveillance de ces enquêtes.
- Communication (PDF, 523.6 Ko) Archivé
-
15 h 30 – 17 h
Séance 8B – Utilisation de données administratives
- Remaniement de la Base de données longitudinales sur les immigrants (BDIM)
Rose Evra, Statistique Canada-
Résumé
La Base de données longitudinales sur les immigrants (BDIM) combine des données du Fichier des immigrants reçus (FIR) et des fichiers annuels de l'impôt. Ce couplage d'enregistrements est effectué au moyen d'une base de données de déclarants fiscaux. Le FIR comprend tous les immigrants qui ont été admis au Canada depuis 1980. En vue de remanier la BDIM, on a étudié la possibilité d'ajouter les résidents temporaires (RT) et les immigrants qui ont été admis entre 1952 et 1979 (PRE80). L'ajout de ces renseignements donnerait un aperçu plus complet de la population immigrante vivant au Canada. Afin d'intégrer les fichiers des RT et des PRE80 dans la BDIM, on a procédé à un couplage d'enregistrements entre ces deux fichiers et la base de données des déclarants fiscaux. Cet exercice a posé un défi, en partie en raison de la présence d'enregistrements en double dans les fichiers et de liens conflictuels entre les différents couplages d'enregistrements.
- Communication (PDF, 222.14 Ko) Archivé
-
- Construction d'une base de données longitudinales reposant sur l'appariement de registres administratifs
Philippe Wanner, Université de Genève et NCCR On The Move, Suisse et Ilka Steiner, Université de Genève, Suisse-
Résumé
Cette communication décrit la constitution d'une base de données élaborée en Suisse en vue de l'analyse de la migration et de l'intégration structurelle de la population d'origine étrangère. Cette base de données repose sur différents registres (registre des habitants, des assurances sociales, du chômage) et enquêtes et couvre 15 années (1998 à 2013). Des informations sur le statut migratoire et les caractéristiques socioéconomiques sont ainsi disponibles pour près de 4 millions d'étrangers ayant séjourné en Suisse entre 1998 et 2013. Cette base de données est le fruit d'une collaboration entre l'Office fédéral de la statistique et des chercheurs du NCCR On the Move.
- Communication (PDF, 228.88 Ko) Archivé
-
- Utilisation de données administratives pour augmenter l'efficacité du plan de sondage de la nouvelle Enquête nationale sur les voyages
Charles Choi, Statistique Canada-
Résumé
Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l'Enquête nationale sur les voyages (ENV), qui recueillera de l'information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l'actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l'Enquête sur les voyages internationaux. L'ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l'utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l'Agence des services frontaliers du Canada et de l'Agence du revenu du Canada, pourraient servir à améliorer l'efficacité du plan de sondage de l'ENV.
- Communication (PDF, 288.3 Ko) Archivé
-
- Utilisation de données administratives pour étudier l'éducation au Canada
Martin Pantel, Statistique Canada-
Résumé
Le Fichier maître de l'éducation (FME) est un système qui a été élaboré pour permettre l'analyse des programmes d'enseignement au Canada. Le noyau du système est constitué de fichiers administratifs comprenant toutes les inscriptions aux programmes postsecondaires et d'apprentissage au Canada. De nouveaux fichiers administratifs deviennent disponibles sur une base annuelle. Lorsqu'un nouveau fichier devient disponible, il est d'abord sujet à un traitement initial, qui comprend un couplage avec d'autres dossiers administratifs. Ce couplage produit de l'information qui peut améliorer la qualité du fichier; il permet d'autres couplages avec d'autres données décrivant le marché du travail, et il constitue la première étape pour ajouter le fichier au FME. Une fois qu'elle fait partie du FME, l'information du fichier peut être incluse dans des projets transversaux ou longitudinaux, afin d'étudier les cheminements scolaires et les résultats sur le marché du travail par suite de l'obtention du diplôme. À l'heure actuelle, le FME comprend des données de 2005 à 2013, mais il évolue à mesure que de nouvelles données deviennent disponibles. Le présent document donne un aperçu des mécanismes utilisés pour créer le FME, en mettant l'accent sur la structure du système final et une partie de son potentiel analytique.
- Communication (PDF, 213.8 Ko) Archivé
-
Jeudi 24 mars 2016
8 h – 12 h
Inscriptions – 3e étage
8 h 45 – 10 h 15
Séance 9A – Données de lecteurs optiques
- Défis reliés à l'utilisation de données de lecteurs optiques pour l'Indice des prix à la consommation
Catherine Deshaies-Moreault et Nelson Émond, Statistique Canada-
Résumé
Pratiquement tous les grands détaillants utilisent des lecteurs optiques pour enregistrer de l'information détaillée sur leurs transactions avec leurs clients (consommateurs). Ces données comprennent habituellement un code de produits, une brève description, un prix et une quantité vendue. Il s'agit d'une source hautement pertinente pour les programmes statistiques comme l'Indice des prix à la consommation (IPC) de Statistique Canada, l'un des plus importants indicateurs économiques au pays. L'utilisation des données de lecteurs optiques pourrait améliorer la qualité de l'IPC par, entre autres, l'augmentation du nombre de prix utilisés dans les calculs, une plus grande couverture géographique et l'utilisation des quantités vendues, tout en réduisant les coûts de collecte. Cependant, l'utilisation de ces données présente de nombreux défis. L'exploration de données de lecteurs optiques obtenues auprès d'un premier détaillant a démontré un taux de changement élevé au cours d'une année parmi les codes identifiant les produits. Les conséquences de ces changements posent des défis d'un point de vue de classification des produits et de qualité des estimations. Cet article se concentrera sur les enjeux reliés à l'acquisition, la classification et l'exploration de ces données afin d'en évaluer la qualité pour utilisation dans l'IPC.
- Communication (PDF, 538.91 Ko) Archivé
-
- La méthode QU : une nouvelle méthodologie pour le traitement des données de lecteurs optiques
Antonio G. Chessa, Statistics Netherlands, Pays-Bas-
Résumé
Le présent article décrit une nouvelle méthode de calcul des indices de prix pour le traitement des données issues de transactions électroniques (données de lecteurs optiques). Les indices de prix sont calculés sous forme du ratio d'un indice du chiffre d'affaires et d'un indice pondéré de quantité. Les pondérations de produits des quantités vendues sont calculées à partir des prix corrigés de l'inflation pour chaque mois de l'année de publication courante. Les nouveaux produits peuvent être incorporés en temps voulu, sans imputation de prix, de manière à ce que toutes les transactions puissent être traitées. Les pondérations des produits sont mises à jour mensuellement et sont utilisées afin de calculer les indices directs par rapport à un mois de base fixe. Les indices des prix construits de cette façon sont exempts du problème de « chain drift » (biais de chaînage). Les résultats sont robustes avec des écarts des choix méthodologiques. La méthode fait partie du programme de l'IPC des Pays-Bas depuis janvier 2016, quand elle a été appliquée pour la première fois aux téléphones mobiles.
- Communication (PDF, 451.19 Ko) Archivé
-
- Coup d'œil sur l'avenir
Muhanad Sammar, Statistics Sweden, Suède-
Résumé
Le fait que le monde évolue constamment et que les nouvelles technologies sont de plus en plus accessibles crée de nouveaux débouchés et défis pour les instituts nationaux de statistiques (INS) dans le monde. Qu'arriverait-il si les INS pouvaient accéder à de grandes quantités de données complexes, gratuitement (ou à faible coût), auprès des entreprises? Cela pourrait-il augmenter la capacité des INS de diffuser des indicateurs plus précis pour les décideurs et les utilisateurs, réduire de façon significative le fardeau de réponse pour les entreprises, réduire les coûts pour les INS et, à long terme, améliorer le niveau de vie de la population d'un pays? Le temps est venu pour les INS de trouver la meilleure façon d'aligner les dispositions législatives, les règlements et les pratiques dans le domaine des données de lecteurs optiques et des mégadonnées. Sans un terrain d'entente, il est peu probable qu'on obtienne un consensus. Des discussions doivent être entreprises sur la façon de définir la qualité. Si les INS définissent et abordent la qualité différemment, cela entraînera une situation très peu souhaitable, les INS s'écartant de l'harmonisation. La Suède est l'un des principaux pays qui mettent ces questions à l'ordre du jour de la coopération en Europe. En 2012, la Suède a intégré des données de lecteurs optiques dans son Indice des prix à la consommation au niveau national, après qu'il eut été démontré, par suite d'études de recherche et d'analyses statistiques, que ces données étaient de loin supérieures aux données recueillies manuellement.
- Communication (PDF, 467.59 Ko) Archivé
-
8 h 45 – 10 h 15
Séance 9B – Données sur la santé
- Comparaison du système de santé du Canada : avantages et défis
Katerina Gapanenko, Grace Cheung, Deborah Schwartz et Mark McPherson, Institut canadien d'information sur la santé (ICIS), Canada-
Résumé
Contexte : Il existe un intérêt croissant à l'égard de la mesure et de l'étalonnage du rendement du système de santé. Nous avons comparé le système de santé du Canada, tant à l'échelle nationale que provinciale, avec celui d'autres pays de l'Organisation de coopération et de développement économiques (OCDE), pour 50 indicateurs du rendement. Cette analyse peut aider les provinces à déterminer les domaines possibles d'amélioration, compte tenu de la présence d'un comparateur optimal pour les comparaisons internationales.
Méthodes : Les données sur la santé de l'OCDE pour 2013 ont servi à comparer les résultats du Canada avec ceux d'autres pays. Nous avons aussi calculé les résultats provinciaux pour les indicateurs du rendement du système de santé de l'OCDE, au moyen de la méthodologie de cet organisme. Nous avons normalisé les résultats des indicateurs, en vue de présenter plusieurs indicateurs sur la même échelle, et nous les avons comparés à la moyenne pour l'OCDE, ainsi qu'au 25e et au 75e centiles.
Résultats : La présentation de valeurs normalisées permet la comparaison des résultats du Canada selon plusieurs indicateurs de l'OCDE, sur la même échelle. Aucun pays ni province n'affiche des résultats supérieurs aux autres de façon uniforme. Pour la plupart des indicateurs, les résultats canadiens sont similaires à ceux d'autres pays, mais il subsiste des domaines où le Canada réussit particulièrement bien (p. ex. taux de tabagisme) ou moins bien (p. ex. sécurité des patients). Ces données ont été présentées dans un outil électronique interactif.
Conclusion : La comparaison des données des provinces canadiennes avec celles d'autres pays peut faire ressortir les domaines où une amélioration est nécessaire et peut aider à déterminer des stratégies possibles d'amélioration.
- Communication (PDF, 2.62 Mo) Archivé
-
- Examen systématique : évaluation des possibilités de couplage dans les sources de données actuelles
Erin Tanenbaum, NORC at the University of Chicago, États-Unis; Michael Sinclair, Mathematica Policy Research, États-Unis; Jennifer Hasche, NORC at the University of Chicago, États-Unis et Christina Park, National Institute of Child Health and Human Development (NICHD), États-Unis-
Résumé
La National Children Study, dans sa phase pilote, est une étude de cohorte épidémiologique à grande échelle des enfants et de leurs parents. Des mesures ont été recueillies, de la période précédant la grossesse jusqu'à ce que l'enfant atteigne l'âge adulte. L'utilisation des données existantes visait à compléter la collecte directe de données auprès des répondants. Notre document énonce la stratégie pour le catalogage et l'évaluation des sources de données existantes, en vue de leur utilisation longitudinale à grande échelle. Dans le cadre de notre examen, nous avons sélectionné cinq facteurs d'évaluation pour guider les chercheurs à l'égard des sources de données disponibles : 1) pertinence, 2) actualité, 3) spatialité, 4) accessibilité et 5) exactitude.
- Communication (PDF, 224.16 Ko) Archivé
-
- Fournir des données utiles et exploitables sur le rendement du système de santé : Outils de « Votre système de santé » de l'ICIS
Jeanie Lacroix et Kristine Cooper, Institut canadien d'information sur la santé (ICIS), Canada-
Résumé
Comment pouvons-nous regrouper des données multidimensionnelles sur le rendement du système de santé de façon simple, afin qu'il soit facile d'y accéder et de fournir des renseignements comparables et exploitables pour accélérer les améliorations des soins de santé? L'Institut canadien d'information sur la santé a élaboré un ensemble d'outils pour répondre aux besoins de divers auditoires en matière de mesures de rendement, déterminer les priorités au chapitre des améliorations, comprendre comment les régions et les établissements se comparent les uns aux autres, et appuyer la transparence et la reddition de comptes. Les outils pancanadiens de [Votre système de santé (VSS)] consolident les rapports de 45 indicateurs clés du rendement de façon structurée, et sont comparables au fil du temps et à divers niveaux géographiques. Le présent document rend compte de l'élaboration et des approches et considérations méthodologiques qui ont servi à créer un outil dynamique qui facilite l'étalonnage et les comparaisons significatives pour l'amélioration du rendement du système de santé.
- Communication (PDF, 482.59 Ko) Archivé
-
- Observatoire épidémiologique des données sur la santé du Brésil
Raphael de Freitas Saldanha et Ronaldo Rocha Bastos, Universidade Federal de Juiz de Fora, Brésil-
Résumé
Le Système de santé unifié brésilien (SUS) a été créé en 1988 et, afin d'organiser les systèmes d'information sur la santé et les bases de données déjà utilisées, une banque de données unifiée (DataSUS) a été créée en 1991. Les fichiers de DataSUS sont facilement disponibles sur Internet. L'accès à ces données et leur consultation se font actuellement au moyen d'un nombre limité de tableaux personnalisés et de diagrammes simples, qui ne répondent pas entièrement aux besoins des gestionnaires de la santé et des autres utilisateurs, qui souhaitent un outil souple et facile à utiliser, qui peut tenir compte des différents aspects de la santé qui les concernent, en vue de la recherche de connaissances et de la prise de décisions. Le projet actuel propose la production mensuelle interactive de rapports épidémiologiques synthétiques, qui sont non seulement facilement accessibles, mais aussi faciles à interpréter et à comprendre. L'accent est mis sur la visualisation des données, grâce à des diagrammes et des cartes plus informatifs.
- Communication (PDF, 276.6 Ko) Archivé
-
- Surveillance des données pour les données cliniques sous-tendant le financement du système de santé en Ontario
Lori Kirby et Maureen Kelly, Institut canadien d'information sur la santé (ICIS), Canada-
Résumé
Plusieurs secteurs de compétence au Canada, y compris l'Ontario, utilisent dans leurs modèles de financement des données sur les soins de santé axées sur les patients. Ces initiatives peuvent influencer la qualité de ces données, tant de façon positive que négative, les personnes ayant tendance à accorder davantage d'attention aux données et à leur qualité lorsqu'elles servent à prendre des décisions financières.
La formule de financement de l'Ontario utilise des données de plusieurs bases de données nationales hébergées par l'Institut canadien d'information sur la santé (ICIS). Ces bases de données fournissent des renseignements sur les activités et le statut clinique des patients pour un continuum de soins. Comme les modèles de financement peuvent influencer le comportement du codage, l'ICIS collabore avec le Ministère ontarien de la santé et des soins de longue durée, afin d'évaluer et de contrôler la qualité de ces données.
L'ICIS utilise un logiciel de forage des données et des techniques de modélisation (qui sont souvent associées aux « mégadonnées »), afin de déceler les anomalies dans les données pour plusieurs facteurs. Les modèles déterminent les tendances de codage clinique « typiques » pour des groupes clés de patients (p. ex. les patients vus dans des unités de soins spéciaux ou renvoyés chez eux pour des soins à domicile), afin que des valeurs aberrantes puissent être déterminées, lorsque les patients ne s'inscrivent pas dans la tendance attendue. Une composante clé de la modélisation est la segmentation des données selon les caractéristiques du patient, du fournisseur et de l'hôpital, afin de tenir compte des différences principales dans la prestation des soins de santé et les populations de patients dans la province.
L'analyse de l'ICIS a permis d'identifier plusieurs hôpitaux dont les pratiques de codage semblent changer ou être significativement différentes par rapport à celles de leur groupe de pairs. Des examens plus poussés sont requis pour comprendre pourquoi ces différences existent et pour élaborer des stratégies appropriées pour atténuer les variations.
- Communication (PDF, 1.47 Mo) Archivé
-
10 h 45 – 11 h 45
Séance 10 – Séance Plénière
- Science des données pour les systèmes de données dynamiques : Les implications pour la statistique officielle
Mary E. Thompson, University of Waterloo, Canada-
Résumé
Nombre des possibilités et des défis de la science des données moderne découlent d'éléments dynamiques, dont l'évolution des populations, la croissance du volume de données administratives et commerciales sur les particuliers et les établissements, les flux continus de données et la capacité de les analyser et de les résumer en temps réel, ainsi que la détérioration des données faute de ressources pour les tenir à jour. Le domaine de la statistique officielle, qui met l'accent sur la qualité des données et l'obtention de résultats défendables, se prête parfaitement à la mise en relief des questions statistiques et liées à la science des données dans divers contextes. L'exposé souligne l'importance des bases de sondage de population et de leur tenue à jour, la possibilité d'utiliser des méthodes à bases de sondage multiples et des couplages d'enregistrements, la façon dont l'utilisation de données à grande échelle non issues d'enquêtes comme information auxiliaire façonne les objets de l'inférence, la complexité des modèles pour les grands ensembles de données, l'importance des méthodes récursives et de la régularisation, et les avantages des outils évolués de visualisation des données en ce qui concerne la détection des changements.
- Communication (PDF, 389.8 Ko) Archivé
-
11 h 45 – 12 h
Séance 11 – Mot de clôture
Claude Julien, Directeur général de la Méthodologie, Statistique Canada
Séance de présentation par affiche
Mercredi 23 mars 2016
10 h – 10 h 30, 13 h – 13 h 30, 15 h – 15 h 30
- Traitement des mises à jour consécutives aux enquêtes dans les statistiques sur les entreprises
Jörgen Brewitz, Eva Elvers et Fredrik Jonsson, Statistics Sweden, Suède-
Résumé
Le registre des entreprises de la Suède est mis à jour continuellement au moyen de diverses sources de données. Des échantillons coordonnés sont tirés de bases de sondage construites à partir du registre. La coordination est effectuée entre périodes et entre diverses enquêtes par la méthode des nombres aléatoires permanents. Cette méthode possède de nombreux avantages, mais présente un inconvénient lié à la mise à jour des données du registre. Par mises à jour consécutives à l'enquête, on entend la retransmission d'information sur les unités échantillonnées d'une enquête à un registre qui est utilisé pour construire une base de sondage en prévision de futures enquêtes. Il paraît peut-être évident de mettre un registre à jour au moyen d'information provenant des enquêtes afin qu'il soit le plus approprié possible. Cependant, la dépendance des échantillons peut entraîner des problèmes méthodologiques.
La présente communication porte sur le biais introduit dans les estimateurs par les mises à jour consécutives aux enquêtes et dégage certains moyens de réduire ce biais. Les mises à jour comprennent des données sur le statut, la taille de l'entreprise, le secteur et l'industrie, ainsi que les coordonnées des personnes-ressources. L'étude a trait à l'effet des mises à jour consécutives aux enquêtes sur le plan de sondage, l'information auxiliaire pour l'estimation et la répartition par domaines d'étude, respectivement. On montre que les mises à jour effectuées dans le registre concernant l'industrie, et utilisées dans la base de sondage, ont un effet de biais sur les estimateurs.
Il semble difficile d'ajuster les estimateurs pour tenir compte des mises à jour consécutives à l'enquête. Une autre approche consiste à implémenter des timbres de source et de date dans le registre des entreprises. Les mises à jour consécutives aux enquêtes peuvent alors être utilisées pour les coordonnées des personnes-ressources et la répartition par domaines d'étude, mais supprimées quand les bases de sondage sont créées à des fins d'échantillonnage. De la sorte, l'estimation ne sera pas perturbée par les mises à jour consécutives aux enquêtes.
-
- Mesurer la qualité des données des indices de prix : le système de classement fondé sur des mesures de rendement de la Division des prix à la production
Kate Burnett-Isaacs, Statistique Canada-
Résumé
La Division des prix à la production (DPP) a mis au point un système de classement fondé sur des mesures de rendement pour évaluer chaque indice de la Division en regard d'indicateurs de rendement clés dans le but de favoriser l'application de pratiques méthodologiques valables et de communiquer la qualité et la fiabilité globales des indices publiés. Ce système de classement a été élaboré en vue de satisfaire aux recommandations du Comité d'examen de l'assurance de la qualité à l'échelle de l'organisme et de faciliter la stratégie de mesure du rendement de la Division. Ses composantes sont tirées du Modèle générique du processus de production statistique (GSBPM) de l'OCDE et des six dimensions de la qualité énoncées par Statistique Canada. L'évaluation de la qualité d'un indice est multidimensionnelle, en raison de la complexité des indices et des calculs, et des diverses composantes du calcul des indices. Un indice fait intervenir des rapports de prix, des pondérations et différentes formes de traitement de ces données. La qualité d'un indice doit être évaluée au niveau des composantes individuelles ainsi que dans son ensemble. Le système de classement a pour objet de satisfaire à cette exigence et de fournir une mesure de la qualité de l'indice complet, ainsi que de ses composantes individuelles, en partant d'une évaluation conceptuelle qualitative pour passer à une perspective de traitement quantitatif. La DPP produit 25 indices qui couvrent une part importante du secteur des entreprises, y compris la production et la fabrication de biens, la construction, les services financiers, les services de transport et les services professionnels. Ces industries possèdent chacune leurs propres sources de données et leurs normes de mesure des prix. La diversité du champ couvert par les indices de la DPP complexifie l'élaboration d'une méthode normalisée d'évaluation de la qualité des données. La communication traitera de la complexité de la mesure de la qualité des données pour les indices, expliquera l'élaboration du système de classement et le choix des mesures de rendement, et discutera des difficultés et des éléments à prendre en considération pour élaborer une mesure normalisée de la qualité portant sur une gamme variée d'industries et de sources de données.
-
- Création et utilisation de microdonnées synthétiques dans le cadre du Programme de transformation du Recensement de 2021 (validation de concept)
Cal Ghee, Rob Rendell, Orlaith Fraser, Steve Rogers, Fern Leather, Keith Spicer et Peter Youens, Office for National Statistics, Royaume-Uni-
Résumé
Le Programme de transformation du Recensement de l'Office for National Statistics en Angleterre et au pays de Galles a pour objet d'étudier plusieurs utilisations possibles de données synthétiques. Une des approches possibles est la création d'un échantillon de microdonnées sur les ménages. Par contre, en raison de préoccupations concernant la protection des renseignements personnels, il n'a pas été possible de fournir un échantillon de microdonnées sur les ménages du Recensement de 2011 accessible en dehors des environnements de recherche sécurisés et suffisamment utile pour les utilisateurs en utilisant les méthodes de contrôle de la divulgation classiques.
La méthode testée pour créer un fichier de microdonnées sur les ménages consiste à faire des trous dans l'échantillon de microdonnées, puis à utiliser le processus de vérification et d'imputation de 2011 (en se servant du système SCANCIR) pour combler les trous et donc tenter de préserver les relations entre les variables dans les ménages et dans les individus, mais en introduisant une incertitude suffisante pour atténuer le risque de divulgation. Des méthodes sont étudiées pour tester l'utilité des données résultantes et le risque qu'elles présentent.
Cette affiche présentera les difficultés que nous devons surmonter et les méthodes que nous étudions pour trouver une solution en vue de fournir des microdonnées utiles, non divulgatrices, à un plus grand nombre d'utilisateurs. En raison de ces difficultés, nous présentons ici une validation de concept seulement pour vérifier la faisabilité de cette approche.
-
Démonstration de logiciels
Mercredi 23 mars 2016
10 h – 10 h 30, 13 h – 13 h 30, 15 h – 15 h 30
- L'utilisation d'une grille de calcul SAS à Statistique Canada
Yves Deguire, Statistique Canada-
Résumé
Une grille de calcul SAS est une plate-forme informatique sophistiquée offrant un équilibrage des charges, une disponibilité élevée et une grande extensibilité. Cette présentation va démystifier la grille de calcul et démontrer de quelle façon elle a été déployée à Statistique Canada afin de supporter un grand nombre d'utilisateurs ainsi que d'accomplir en peu de temps un traitement statistique massif. Plusieurs cas d'utilisation seront aussi proposés.
-
- Le logiciel SAS® High-Performance Forecast à Statistique Canada
Frédéric Picard, Statistique Canada-
Résumé
Statistique Canada a récemment commencé à utiliser SAS® HAUTE PERFORMANCE DE PRÉVISION (HPF). SAS® HPF est un système automatique à grande échelle qui peut rapidement générer un grand nombre de prédictions de séries chronologiques en évaluant et sélectionnant les modèles appropriés. Il peut être utilisé en écrivant explicitement du code SAS ou à travers son interface graphique. Cette présentation comprend un aperçu de quelques-unes des caractéristiques et des options utiles du système et une introduction à son interface utilisateur graphique. Nous allons également décrire brièvement des exemples de projets à Statistique Canada qui ont déjà bénéficié du logiciel.
-
- High Performance Analytics - Comment SAS peut vous aider à économiser du temps et de prendre de meilleures décisions à l'aide de méthodes analytiques modernes !
Steve Holder, SAS Canada, Canada-
Résumé
Que feriez-vous avec 269 minutes supplémentaires? L'environnement SAS High Performance Analytics (HPA) aide les organisations à remplacer des processus désuets et inefficaces par des méthodes analytiques modernes. Dans un cas particulier, HPA a même réduit le temps qu'il faut pour prendre des décisions commerciales critiques de 4,5 heures à seulement 60 secondes. En prenant votre pause-café, venez rencontrer Steve Holder, chef national – Analytics de SAS Canada. Comme utilisateur de méthodes analytiques, vous pourrez découvrir comment prendre des décisions en temps réel et transformer vos données volumineuses en information pertinente, et vous assurer que vous faites cela dans un format facile à utiliser gouverné avec l'analyse du portefeuille SAS.
-
- L'apprentissage automatique au service de la statistique officielle
Valentin Todorov, United Nations Industrial Development Organization (UNIDO), Autriche-
Résumé
L'apprentissage automatique (AO) est une discipline informatique très populaire, qui exige un grand volume de données. Il est assez générique et peut être appliqué dans diverses conditions, mais les applications en statistique officielle n'ont vu le jour que récemment. Afin de mieux comprendre la situation, de déceler les techniques qui ont été explorées, et d'examiner les possibilités d'étendre les liens entre la statistique officielle et l'apprentissage automatique en particulier et la science des données en général, Statistique Canada a réalisé récemment un sondage auprès des bureaux nationaux de la statistique. Dans un exposé donné à l'atelier du comité de modernisation de la production et des méthodes en 2014, on a donné un aperçu des techniques d'apprentissage automatique en usage à l'heure actuelle ou dont l'utilisation est envisagée par les organismes statistiques dans les divers pays du monde ainsi que des principales raisons pour lesquelles les organismes statistiques devraient commencer à explorer l'usage des techniques d'apprentissage automatique. Les meilleurs choix d'outils logiciels pour la mise en œuvre pratique des algorithmes d'AO sont Python et R. L'objet de la présente communication est de faire le point sur le sondage susmentionné, d'établir la concordance entre les résultats de ce sondage et les modules externes (packages) R disponibles qui font partie à l'heure actuelle du domaine public et d'esquisser la voie éventuelle de l'avenir. Une démonstration de l'utilisation des modules externes (packages) R sera offerte et des exemples d'applications particulières, à savoir le codage automatique des réponses aux items, la détection des valeurs aberrantes et l'imputation, et le couplage d'enregistrements, qui réduiront l'examen manuel des enregistrements seront présentés.
-
- Architecture commune de production statistique et « Confid-instantanée »
Robert McLellan et Predrag Mizdrak, Statistique Canada-
Résumé
L'architecture commune de production statistique (ACPS) est un cadre de type « branchez et utilisez » pour les composantes statistiques. Cette présentation mettra en valeur le travail effectué à Statistique Canada dans le cadre de l'ACPS pour un outil de confidentialité développé par le Australian Bureau of Statistics (ABS). Confid-instantané est un outil d'analyse où les résultats sont automatiquement et instantanément « confidentialisés ». Les présentateurs montreront comment ils ont adapté la mise en œuvre en R provenant du ABS pour en faire un ensemble de services qui permettent aux chercheurs d'explorer et des générer des modèles en ayant accès à des microdonnées confidentielles.
-