Résumés

Séance 1 – Discours principal

Échantillonnage d'enquête dans les statistiques officielles – certaines réflexions sur les orientations
Ray Chambers, National Institute for Applied Statistics Research Australia (NIASRA), University of Wollongong, Australie

Dans cet exposé, je mettrai l'accent sur ce que je prévois être les principaux problèmes méthodologiques liés aux enquêtes auxquelles les Instituts nationaux de statistique (INS) devront faire face au cours des prochaines années, et la façon dont les méthodologistes des INS devront modifier leur perception de l'« inférence dans les statistiques officielles », afin de pouvoir résoudre efficacement ces problèmes. Kreuter (2013) rend compte de façon éloquente de l'essence de ces enjeux émergents et souligne que « ces dernières années, les grandes organisations d'enquête ont déployé des efforts considérables pour améliorer l'information sur toutes les unités de l'échantillon au moyen de paradonnées, de données de fournisseurs commerciaux et grâce au couplage avec des données administratives, afin de permettre l'amélioration des opérations sur le terrain ou des ajustements pour tenir compte de la non-réponse ». L'inférence d'échantillonnage d'enquête fondée sur le plan de sondage, décrite pour la première fois dans Neyman (1934), ne peut résoudre ce nouveau type de problème d'inférence statistique, et l'accent qui est traditionnellement mis au niveau méthodologique dans les INS sur le plan d'échantillonnage et l'estimation est peu utile lorsque la réalité a davantage trait à l'intégration d'information de registres de population et de données d'échantillon fondées sur des sources assez différentes. L'inférence par échantillonnage devra inévitablement s'adapter à ce nouvel environnement de collecte et, ce faisant, fera l'objet d'un changement de paradigme, parce qu'il ne sera plus possible de caractériser l'incertitude inférentielle au moyen de la variabilité due à l'échantillonnage répété d'une population fixe, finie et bien définie. L'accent sera plutôt mis sur l'élaboration de modèles pour ces différentes sources d'incertitude et les inférences seront fondées sur la façon dont ils interagissent. Par conséquent, l'application de concepts bayésiens (p. ex. modèle bayésien calé) deviendra une option sérieuse pour les INS, et l'intégration de la variabilité associée au processus d'intérêt, au processus de saisie des données et au processus d'erreur de mesure deviendra la norme. Mon objectif dans cet exposé est de présenter la perspective d'un adepte de la modélisation concernant le statu quo. Ce faisant, je déterminerai les forces et les faiblesses des points de vue inférentiels fondés sur le plan de sondage et sur un modèle qui prévalent à l'heure actuelle en échantillonnage d'enquête, à tout le moins en ce qui a trait au monde des statistiques officielles. J'utiliserai ensuite des exemples d'analyse de données couplées, d'évaluation de l'erreur de couverture, d'estimation sur petits domaines, de plan de sondage adaptatif, de modélisation par réseau et de microsimulation pour illustrer pourquoi la perspective fondée sur un modèle (qu'il soit fréquentiste ou bayésien) constitue la meilleure façon pour les INS d'éviter la « schizophrénie inférentielle » aiguë et débilitante lorsqu'ils traitent des besoins d'information émergents d'aujourd'hui (et peut-être même de demain).

Séance 2A – Enquêtes Web 1

Explorations de l'échantillonnage non probabiliste par Internet
J. Michael Brick, Westat, États-Unis

La production d'estimations de populations finies à partir de l'échantillonnage probabiliste est une tradition qui remonte à loin et s'est révélée très efficace pour les grands échantillons. On a aussi utilisé pendant de nombreuses années d'autres formes d'inférences à partir d'échantillons non probabilistes, mais celles-ci ont été critiquées en raison du biais d'autosélection et souvent parce qu'elles ne fournissent pas d'information concernant la précision des estimations. Ces dernières années, l'accès plus vaste à Internet et la capacité de procéder à des collectes de données très peu coûteuses en ligne ont ravivé l'intérêt pour ce sujet.

Dans cet exposé, je passe brièvement en revue certaines méthodes couramment utilisées pour mener des enquêtes à partir d'échantillons non probabilistes. Des examens des méthodes d'échantillonnage non probabiliste et des évaluations de ces méthodes sont résumés. Les résultats laissent supposer qu'il existe des cas où les échantillons non probabilistes pourraient être considérés comme une option de rechange aux échantillons probabilistes. Enfin, un programme de recherche sur l'étude des inférences à partir d'échantillons reposant sur des panels en ligne est abordé.

Panels en ligne pour les statistiques officielles?
Jelke Bethlehem, Statistics Netherlands et Université de Leiden, Pays-Bas

Les nouveaux développements technologiques en informatique, mais aussi les nouveaux défis qui se posent dans la société, comme l'augmentation des taux de non-réponse et la diminution des budgets, pourraient amener des changements dans les méthodes d'enquête pour les statistiques officielles. Les panels en ligne sont devenus très populaires dans le monde des études de marché.

Presque tous les sondages d'opinion aux Pays-Bas sont fondés sur des panels en ligne. À première vue, ceux-ci semblent attrayants. Il s'agit d'une façon de recueillir des données rapidement et de façon économique. Ainsi, pourquoi n'utiliserions-nous pas des panels en ligne pour les statistiques officielles? Cet exposé explore les possibilités qui s'offrent. On tente de déterminer si un panel en ligne peut servir à compiler des statistiques exactes concernant la population générale.

Pour obtenir des statistiques exactes, le recrutement du panel doit être fondé sur un échantillonnage probabiliste. Cela pose déjà une première complication. Par ailleurs, les panels en ligne peuvent être sujets à un sous-dénombrement, à divers types de non-réponse et à des erreurs de mesure. En outre, la mise à jour du panel pose un défi. Ces problèmes méthodologiques sont abordés de façon plus détaillée.

Afin de déterminer dans quelle mesure il est réaliste d'utiliser un panel en ligne pour les statistiques officielles, Statistics Netherlands a mené un projet pilote dans lequel il a établi son propre panel en ligne. L'objectif du projet n'était pas de recruter un panel représentatif, mais simplement de prendre d'abord de l'expérience dans l'élaboration d'un panel en ligne. Certains résultats de ce projet pilote seront examinés.

Propriétés de mesure des enquêtes en ligne
Roger Tourangeau, Westat, États-Unis

Les enquêtes en ligne comportent des lacunes importantes du point de vue de leur représentativité, mais elles semblent comporter certaines bonnes propriétés de mesure. Cet exposé est axé sur les caractéristiques générales des enquêtes en ligne qui affectent la qualité des données, et plus particulièrement le fait que les enquêtes en ligne sont auto-administrées mais, contrairement aux questionnaires sur papier, permettent de la rétroaction aux répondants en temps réel. Un certain nombre d'expériences ont permis de comparer les enquêtes en ligne avec d'autres modes de collecte de données. Une méta-analyse de ces études montre que les enquêtes en ligne conservent les avantages des formes traditionnelles d'enquêtes auto-administrées; en particulier, elles réduisent le biais de désirabilité sociale par rapport aux questions administrées par un intervieweur. Par ailleurs, les enquêtes en ligne permettent de la rétroaction aux répondants sous diverses formes, y compris des totaux cumulés, des messages en vue d'obtenir des réponses aux questions laissées de côté et des indicateurs des progrès. Certaines de ces caractéristiques interactives semblent être efficaces, mais d'autres non. Par exemple, du fait qu'ils créent l'impression que quelqu'un s'intéresse au répondant, les questionnaires interactifs peuvent réduire les avantages découlant de l'auto-administration. De même, les indicateurs des progrès peuvent entraîner dans les faits une augmentation des interruptions. Cet exposé passe en revue les évidences de recherche concernant ces inconvénients possibles de l'interactivité des enquêtes en ligne. En conclusion, on examine certains développements futurs probables des enquêtes en ligne, à savoir l'intégration d'avatars comme « intervieweurs virtuels » et l'utilisation croissante de dispositifs mobiles (comme les ordinateurs tablettes et les téléphones intelligents) pour accéder aux enquêtes en ligne et y répondre.

Séance 2B – Collecte de données 1

Défis de la production de statistiques pour le Web : échantillonnage et collecte des données automatisées de pages Web au Brésil
Emerson Gomes dos Santos, Isabela Bertolini Coelho et Suzana Jaize Alves da Silva, Núcleo de Informação e Coordenação do Ponto, Brésil; Pedro Luis do Nascimento Silva, IBGE - Escola Nacional de Ciências Estatísticas, Brésil

Internet est probablement la technologie de l'information et des communications (TIC) la plus raffinée actuellement disponible dans la société. Sa structure et ses applications comportent des répercussions sociales, culturelles, économiques et politiques claires. Le Web est devenu l'application la plus connue sur Internet et peut être défini comme la partie d'Internet accessible au moyen de fureteurs. Des études des caractéristiques et des dimensions du Web exigent la collecte et l'analyse de données dans un environnement dynamique et complexe.

Le Centre d'information de réseau brésilien (NIC.br) a conçu et mené un projet pilote pour recueillir des données sur le Web, afin de produire des statistiques concernant les caractéristiques des pages Web, comme la taille et l'âge des pages, les langues, les types d'objets intégrés dans les pages, les données techniques, y compris les protocoles (IPv4, IPv6, HTML), et l'accessibilité, notamment.

Ce projet pilote est une première étape en vue de l'établissement d'une méthode pour recueillir des données dans un environnement dynamique, sans base de sondage. L'idée de base est de recueillir des données pour un échantillon de pages Web, automatiquement, en utilisant le logiciel appelé moteur de recherche Web. Plusieurs défis méthodologiques liés aux procédures d'échantillonnage ont été relevés dans le cadre de ce projet. La motivation de ce document est de diffuser les méthodes et les résultats de cette étude, ainsi que de démontrer les progrès actuels liés aux techniques d'échantillonnage dans un environnement dynamique.

Effet sur la qualité des données et le fardeau de réponse de l'utilisation d'appareils mobiles pour mener l'ACS
Rachel Horwitz, U.S. Census Bureau, États-Unis

Dans le cadre de l'American Community Survey (ACS), on a ajouté un mode de collecte de données par Internet à l'intérieur d'un plan à mode séquentiel en 2013. L'ACS utilise actuellement une seule application Web pour tous les répondants en ligne, peu importe s'ils répondent au moyen d'un ordinateur personnel ou d'un appareil mobile. Toutefois, au fur et à mesure de l'augmentation de la pénétration des appareils mobiles sur le marché, de plus en plus de répondants d'enquête utilisent des tablettes et des téléphones intelligents pour répondre à des enquêtes conçues pour des ordinateurs personnels. L'utilisation d'appareils mobiles pour répondre à ces enquêtes peut être plus difficile pour les répondants, en raison des délais de chargement plus longs, des plus petites polices de caractères, de la sélection tactile de l'option de réponse appropriée et du défilement accru. Ces difficultés peuvent se traduire par une qualité de données réduite si les répondants deviennent frustrés et ne peuvent surmonter ces obstacles.

L'ACS fournit une occasion unique de mesurer les répercussions de la réponse aux questions d'enquête au moyen d'un appareil mobile pour un échantillon probabiliste national. De façon plus particulière, cette étude utilise les abandons, les délais d'achèvement, le nombre de fois que les répondants passent à un appareil différent, le nombre moyen de réponses modifiées et le nombre moyen de messages d'erreur produits pour comparer la qualité des données entre les ordinateurs, les tablettes et les téléphones intelligents. L'utilisation d'un vaste échantillon national nous permet aussi de déterminer quels groupes démographiques utilisent des appareils mobiles pour répondre à l'enquête. La pénétration des appareils mobiles est plus grande dans certains des groupes traditionnellement difficiles à interviewer. Si une enquête est axée sur ces populations, il peut devenir encore plus important de veiller à ce qu'elle puisse être menée au moyen de tous les appareils.

Enquête sur les véhicules au Canada : collecte de données électronique
Émile Allie, Transports Canada

Au cours du dernier trimestre de 2011, Transports Canada, avec la participation d'Environnement Canada et de Ressources naturelles Canada, a entrepris une enquête trimestrielle, l'Enquête sur les véhicules au Canada, composante des véhicules légers (voitures, mini-fourgonnettes, camions légers (moins de 4,5 tonnes métriques), VUS). La collecte des données se fait en deux étapes. Tout d'abord, lorsque le propriétaire d'un véhicule sélectionné accepte de participer à l'enquête, nous recueillons des données concernant les conducteurs possibles (sexe, groupe d'âge) et le véhicule (véhicule principal, nombre de véhicules possédés), de façon électronique ou classique.

La deuxième étape, qui se situe au niveau des déplacements, est entièrement automatisée et repose sur un dispositif électronique relié au système d'information du véhicule. Au début de chaque déplacement, le conducteur fournit certaines données de base, grâce à une série d'écrans tactiles (numéro d'identification du conducteur, but du déplacement, nombre de passagers). Le reste de l'information est recueilli par le dispositif toutes les secondes – localisation GPS, vitesse, distance, temps, consommation d'essence, température du moteur, température de l'air d'admission... À la fin du déplacement, le conducteur est invité à indiquer la raison pour laquelle il s'arrête. Après 21 jours, le participant doit renvoyer le dispositif au gestionnaire d'enquête dans une boîte de retour affranchie.

Défis et leçons apprises par suite de la mise en œuvre de puces de voiture pour l'Enquête sur la consommation de carburant
Agnes Waye, Serge Godbout et Pierre Daoust, Statistique Canada

L'Enquête sur la consommation de carburant (ECC) a été créée en 2013 et est une enquête trimestrielle qui est conçue pour analyser la distance parcourue et la consommation d'essence des véhicules de passagers et d'autres véhicules pesant moins de 4 500 kilogrammes. La base de sondage est constituée de véhicules extraits des fichiers d'immatriculation de véhicules qui sont conservés par les ministères provinciaux. L'ECC utilise des puces de voiture comme mode de collecte pour une partie de ses unités échantillonnées, afin de recueillir des données sur les déplacements et le carburant consommé. L'utilisation de cette nouvelle technologie comporte de nombreux avantages, par exemple, la réduction du fardeau de réponse, des coûts de collecte et des effets sur la qualité des données. Pour les trimestres de 2013, 95 % des unités échantillonnées ont reçu des questionnaires sur papier, et 5 %, des puces de voiture, et au premier trimestre de 2014, 40 % des unités échantillonnées ont été suivies au moyen de puces de voiture. Cet exposé énonce la méthodologie du processus d'enquête, examine les avantages et les défis du traitement et de l'imputation pour les deux modes de collecte, présente certains résultats initiaux et conclut avec un sommaire des leçons apprises.

Pouvons-nous produire des statistiques fiables sur les grandes cultures au moyen d'approches de télédétection?
Jim Brisbane et Chris Mohl, Statistique Canada

Statistique Canada mène six enquêtes sur les grandes cultures pendant l'année, afin de mesurer les intentions d'ensemencement, l'ensemencement réel, les terres agricoles utilisées, les rendements et d'autres statistiques. Environ 100 000 fermes sont contactées chaque année à cette fin. Statistique Canada cherche continuellement des façons de réduire le fardeau d'enquête imposé aux exploitants agricoles. Parmi les options envisagées figure l'estimation de la superficie agricole et du rendement, grâce à l'utilisation d'images par satellite et d'approches de télédétection. Si ces approches sont couronnées de succès, elles pourraient permettre de produire des statistiques sans avoir à communiquer avec les exploitants agricoles. Statistique Canada a fait l'expérience de cette technologie par le passé, à petite échelle, mais n'a jamais tenté de remplacer une enquête proprement dite de cette façon. La réussite d'une telle approche dépend de nombreux facteurs, y compris la qualité et la fréquence des images par satellite, la disponibilité de données véritables sur le terrain qui peuvent être utilisées pour distinguer les différents types de cultures des images et des modèles de prédiction.

Cet exposé soulignera certaines des expériences passées de Statistique Canada en ce qui a trait aux approches par satellite et de télédétection et mettra l'accent sur les méthodes actuellement envisagées comme remplacements possibles pour les estimations de la superficie cultivée et du rendement pour une de ces enquêtes.

Séance 3A – Effets du mode de collecte des données

Inférence dans les enquêtes comportant un mode mixte de collecte des données
Jan van den Brakel, Statistics Netherlands et Université de Maastricht, Pays-Bas; Bart Buelens, Université de Maastricht, Pays-Bas

Il est de plus en plus attrayant d'avoir recours à plusieurs modes de collecte des données dans l'échantillonnage d'enquête. Cela découle des pressions exercées pour réduire les coûts administratifs, des tentatives visant à réduire les erreurs non dues à l'échantillonnage et des progrès technologiques menant à de nouvelles procédures de collecte des données. Les instituts nationaux de statistique produisent des statistiques officielles qui sont souvent fondées sur des enquêtes sur échantillon répétées à intervalles réguliers. La collecte des données au moyen d'un mode mixte séquentiel pose un problème, à savoir que la répartition des répondants entre les différents modes de collecte ne sera généralement pas constante dans les versions consécutives d'une enquête répétée. Cela pourrait faire en sorte que les effets associés à ces modes, comme le biais de mesure, pourraient varier au fil du temps. Les séries chronologiques fondées sur des enquêtes répétées qui utilisent un mode mixte rendront par conséquent compte d'une estimation plus gravement biaisée des changements au fil du temps des variables d'intérêt par rapport aux enquêtes n'utilisant qu'un mode.

Dans cette communication, on compare deux méthodes d'estimation qui sont robustes aux variations dans la répartition des répondants entre les différents modes de collecte des données. La première approche est fondée sur l'estimateur par la régression généralisée (GREG). Le biais de mesure entre les versions subséquentes d'une enquête répétée est stabilisé en calant la réponse selon des répartitions fixes entre les différents modes de collecte des données (Buelens et Van den Brakel, 2014). L'utilisation de cette approche fondée principalement sur le plan de sondage est motivée au moyen d'un modèle d'erreur de mesure pour les observations obtenues dans l'échantillon. La deuxième approche utilise un modèle linéaire pour estimer les erreurs de mesure et prédire les réponses individuelles selon les différents modes. Ces prédictions sont utilisées dans l'estimateur GREG pour obtenir des estimations de paramètres selon différents modes. Elle est fondée sur les travaux de Suzer-Gurtekin et coll. (2012). On compare les deux approches et on les applique à l'Enquête sur la population active des Pays-Bas.

Buelens, B. and J. van den Brakel (2014). Measurement error calibration in mixed-mode sample surveys. Sociological Methods & Research. Accepted for publication.
Suzer-Gurtekin, Z., S. Heeringa, and R. Vaillant (2012). Investigating the bias of alternative statistical inference methods in sequential mixed-mode surveys. In proceedings of the JSM, section on survey research methods, pp. 4711-4725.

Intégration du questionnaire électronique : répercussions sur le processus de collecte et les résultats de l'Enquête sur l'emploi, la rémunération et les heures de travail
Danielle Léger et Leon Jang, Statistique Canada

L'Enquête sur l'emploi, la rémunération et les heures de travail (EERH) produit des estimations mensuelles et détermine les variations d'un mois à l'autre pour des variables comme l'emploi, la rémunération et les heures de travail, à des niveaux industriels détaillés pour le Canada, les provinces et les territoires. Afin d'améliorer l'efficience des activités de collecte pour cette enquête, on a adopté le questionnaire électronique (QE) à l'automne 2012. Compte tenu de l'échéance prévue pour cette transition, ainsi que du calendrier de production de l'enquête, une stratégie de conversion a été élaborée en vue de l'intégration de ce nouveau mode. L'objectif de la stratégie était d'assurer une bonne adaptation de l'environnement de collecte, ainsi que de permettre la mise en œuvre d'un plan d'analyse permettant d'évaluer les répercussions de ce changement sur les résultats de l'enquête. Cette communication fournira un aperçu de la stratégie de conversion, des différents ajustements qui ont été effectués pendant la période de transition et des résultats des diverses évaluations qui ont été menées. Par exemple, on présentera les répercussions de l'intégration du QE sur le processus de collecte, le taux de réponse et le taux de suivi. En outre, on examinera aussi l'effet que ce nouveau mode de collecte a sur les estimations d'enquête. De façon plus particulière, on présentera les résultats d'un plan d'expérience randomisé qui a été adopté pour déterminer la présence d'un effet de mode.

Les enquêtes multimode au prisme de l'erreur d'enquête totale
Gaël de Peretti et Tiaray Razafindranovona, Institut National de la Statistique et des Etudes Economiques, France

Les instituts nationaux de statistique sont confrontés à une double exigence difficile à concilier. D'un côté, ils doivent fournir des informations toujours plus précises sur des sujets spécifiques, des populations difficiles d'accès ou minoritaires, avec des protocoles innovants permettant d'objectiver la mesure ou d'assurer sa confidentialité, etc. D'un autre côté, ils doivent faire face à des restrictions budgétaires dans un contexte où les ménages sont de plus en plus difficiles à joindre. Cette double injonction n'est pas sans effet sur la qualité des enquêtes, qualité au sens large, c'est-à-dire non seulement en termes de précision mais encore en termes de pertinence, comparabilité, cohérence, clarté, fraîcheur. Compte tenu du faible coût de la collecte par internet et de la très large diffusion d'internet au sein de la population, ces instituts voient dans ce mode de collecte moderne une solution pour résoudre leurs problèmes. Ainsi, le développement du recours à la collecte par internet, et plus généralement à la collecte multimode, serait la solution pour maximiser la qualité d'enquête (Lyberg, 2012) en particulier en termes d'erreur d'enquête totale (Groves et Lyberg, 2010) en faisant face aux problèmes de couverture, d'échantillonnage, de non-réponse ou de mesure, tout en respectant ces contraintes budgétaires. Cependant, si la collecte par internet est un mode peu coûteux, elle pose des problèmes méthodologiques non négligeables : couverture, auto-sélection ou biais de sélection, non-réponse et les difficultés de sa correction, « satisficing », etc. Aussi, avant de développer ou généraliser l'utilisation du multimode, l'Insee s'est lancé dans une vaste opération d'expérimentations afin d'étudier ces différentes questions méthodologiques, dont les premiers résultats montrent que le multimode est à la fois source de solutions et de nouveaux problèmes méthodologiques.

Séance 3B – Erreurs non dues à l'échantillonnage

Effort du travail sur le terrain, taux de réponse et répartition des résultats d'enquête : une méta-analyse à plusieurs niveaux
Patrick Sturgis, University of Southampton, Royaume-Uni; Franz Buschs, University of Westminster, Royaume-Uni; Joel Williams, TNS-BMRB, Royaume-Uni

Comme les organismes chargés des travaux sur le terrain consacrent des ressources plus considérables que jamais à l'atténuation de la diminution des taux de réponse dans les enquêtes au moyen d'interviews sur place, il est de plus en plus pressant de mieux comprendre le rapport entre le niveau d'effort, le taux de réponse et le biais de non réponse. Dans cette étude, nous évaluons comment les taux de réponse et la répartition des résultats changent selon le nombre de visites faites à un ménage. Notre approche est exhaustive plutôt que sélective : nous analysons les changements dans la répartition des réponses par suite de visites répétées pour plus de 500 variables d'enquête, dans quatre enquêtes majeures différentes au Royaume-Uni. Les quatre enquêtes couvrent des sujets différents et comportent des taux de réponse qui varient entre 54 % et 76 %. On compare à la fois des estimations non pondérées et stratifiées a posteriori. Nous codons chaque question selon un certain nombre de dimensions d'attributs différents, afin de produire une vaste typologie des types de questions, et nous analysons le biais de non réponse (défini comme la différence entre l'estimation ponctuelle à la visite n et la répartition finale des réponses pour l'ensemble de l'échantillon), à l'intérieur d'un cadre de méta-analyse à plusieurs niveaux, dans lequel les estimations du biais sont intégrées dans les visites et les questions, et les questions sont intégrées dans les enquêtes. Cette approche nous permet de modéliser comment le biais estimé varie de façon systématique en fonction du nombre de visites (effort du travail sur le terrain), du type de question et du sujet de l'enquête, ainsi que des interactions entre ces caractéristiques. Outre qu'elle contribue à notre compréhension de la façon dont l'effort de travail sur le terrain est lié au biais de non réponse, notre étude comprend aussi une évaluation de la rentabilité d'efforts additionnels sur le terrain, à différent moments du cycle de ces travaux.

Erreur de mesure des prestations d'aide sociale et ses répercussions sur les modèles à effets fixes
Johannes Eggs, Institut de recherche sur l'emploi (IAB), Allemagne

La majeure partie de la recherche sur l'influence et la portée de l'erreur de mesure dans les enquêtes est effectuée de façon transversale et non pas longitudinale. L'absence de recherche longitudinale sur les répercussions de l'erreur de mesure est liée à l'absence de données de validation longitudinales. Dans cet exposé, la portée et les répercussions de l'erreur de mesure peuvent être évaluées pour un nombre pouvant aller jusqu'à cinq vagues de panel. Cette étude est axée sur l'erreur de mesure des prestations d'aide sociale. On sait que l'étendue du sous dénombrement des prestations d'aide sociale est connue pour être considérable dans les enquêtes. Toutefois, les caractéristiques des répondants changent au fil du temps, de même que l'erreur de mesure. Des recherches antérieures ont démontré que l'erreur de mesure diminue dans des vagues de panel subséquentes. Néanmoins, la variation de l'erreur de mesure au fil du temps peut biaiser particulièrement les paramètres des modèles à effets fixes, qui dépendent des transitions d'un état à un autre. On utilise les données d'enquête de l'étude par panel "Labour Market and Social Security" (PASS) en Allemagne pour cette étude. Les données d'enquête sont couplées au niveau individuel pour consigner les données fournies par l'Agence de l'emploi de l'Allemagne.

Cet exposé met l'accent sur trois questions de recherche. 1) Les hypothèses classiques concernant les distributions et les corrélations de l'erreur de mesure des prestations d'aide sociale sont-elles respectées pour l'erreur de mesure des prestations d'aide sociale? 2) Afin de corriger le biais, une gamme de modèles d'erreur de mesure ont été adoptés au fil du temps. On aborde aussi les hypothèses relatives à ces modèles. 3) L'erreur de mesure des prestations d'aide sociale peut-elle déformer les estimations pour les modèles à effets fixes et dans quelle direction? À cette fin, on recalcule des analyses d'une étude antérieure au moyen de données administratives.

Modélisation des indicateurs de réponses d'autodénombrement et de suivi en analyse de survie à temps discret, tout en conservant les réponses tardives à l'autodénombrement
Abdellatif Demnati, Statistique Canada

La collecte de données à partir d'unités échantillonnées par la poste ou par Internet est beaucoup moins coûteuse que la tenue d'interviews. Ces méthodes font de l'autodénombrement une méthode de collecte attrayante pour les enquêtes et les recensements. En dépit des avantages qu'elle comporte, la collecte de données par autodénombrement, et plus particulièrement la collecte de données en ligne, peut produire des taux de non réponse élevés par rapport aux interviews. Un sous-échantillonnage des non répondants peut produire des estimations non biaisées. Les unités sous-échantillonnées qui n'ont pas répondu au moment du début des activités de suivi sont exposées à deux facteurs liés à la collecte des données, qui influencent la probabilité de réponse. Les facteurs et les interactions sont couramment abordés dans le contexte de l'analyse de régression et comportent des implications importantes pour l'interprétation des modèles statistiques. Comme l'occurrence de la réponse est intrinsèquement conditionnelle, nous enregistrons d'abord les occurrences de réponse à des intervalles discrets et nous caractérisons la probabilité de réponse au moyen d'un modèle à risque en temps discret. Cette approche facilite l'examen des cas où une réponse est la plus susceptible d'être fournie et de la façon dont la probabilité varie au fil du temps. En pratique, toutefois, les collectes de données d'autodénombrement et de suivi sont habituellement effectuées en parallèle, ce qui rend le sous-échantillonnage des non répondants difficile à appliquer dans certains cas. Dans ce cas, l'exclusion des réponses d'autodénombrement tardives, non obtenues auprès du sous-échantillon de suivi, une fois le suivi commencé, est courante pour éviter un biais de non réponse. Enfin, nous proposons un estimateur du total de population et un estimateur de la variance associée qui utilise toutes les réponses observées dans le contexte mentionné précédemment. Pour l'estimation de la variance, nous tenons compte de la corrélation au fil du temps pour la même unité.

Composer avec des données administratives, volumineuses et d'enquête : une évaluation de la qualité des bases de données des terres humides au Canada
Herbert Nkwimi Tchahou, Claude Girard et Martin Hamel, Statistique Canada

Bien que les milieux humides occupent seulement 6,4% de la superficie de notre planète, ils sont primordiaux à la survie des espèces terrestres. Ces écosystèmes requièrent une attention toute particulière au Canada puisque près de 25% de leur superficie mondiale se retrouve en sol canadien.

Environnement Canada (EC) possède des méga-bases de données où sont rassemblées toutes sortes d'informations sur les milieux humides provenant de diverses sources. Avant que les informations contenues dans ces bases de données ne puissent être utilisées pour soutenir quelque initiative environnementale que ce soit, elles se devaient d'abord d'être répertoriées puis évaluées quant à leur qualité.

Dans cet exposé, nous présentons un aperçu du projet pilote mené conjointement par EC et Statistique Canada afin d'évaluer la qualité des informations contenues dans ces bases de données, elles qui présentent à la fois certains des attributs propres aux données volumineuses (« Big Data »), aux données administratives et aux données d'enquête.

Séance 4A – Appariement de données 1

Analyse statistique de modèles de régression à partir de données couplées
Partha Lahiri, University of Maryland, États-Unis

Les organismes statistiques gouvernementaux utilisent fréquemment des méthodes de couplage informatisé des enregistrements (CIE) pour relier rapidement et avec précision deux fichiers importants qui comprennent des renseignements sur les mêmes personnes ou entités, à partir des données disponibles, qui habituellement ne comprennent pas de code d'identification unique sans erreur. Puisque le CIE utilise déjà des bases de données existantes, il permet de nouvelles analyses statistiques sans le temps et les ressources substantiels nécessaires pour recueillir de nouvelles données. La possibilité d'erreurs dans le couplage entraîne des problèmes d'estimation des rapports entre les variables dans l'ensemble de données couplées. Nous présenterons une méthode simple pour corriger les biais de mauvais appariement des estimateurs par les moindres carrés des coefficients de régression, utilisant une amélioration des modèles de mélange existants sur les mesures de la similitude entre des paires d'enregistrements, afin d'estimer les probabilités utilisées pour le calcul des poids de couplage d'enregistrements. Une étude de simulation est menée pour comparer le rendement de l'estimateur proposé et des options de rechange. La présentation est tirée de mes travaux avec Michael Larsen et Judith Law.

Qualité et analyse d'ensembles de fichiers nationaux
William E. Winkler, U.S. Census Bureau, États-Unis

Le but de nombreuses méthodes de traitement (ou nettoyage) des données est d'améliorer la qualité des fichiers pour les rendre appropriés à des analyses statistiques et économiques. Pour remplacer (ou imputer) les données manquantes et « corriger » les champs, nous avons besoin d'un logiciel généralisé qui met en œuvre le modèle de Fellegi-Holt (JASA 1976) afin de préserver les distributions conjointes et d'assurer que les enregistrements vérifient les vérifications (ou edits). Pour identifier/corriger les doublons dans et entre les fichiers, nous avons besoin d'un logiciel généralisé qui met en œuvre le modèle de Fellegi-Sunter (JASA 1969). Le but de ces procédures de traitement est de réduire les erreurs dans les fichiers à un niveau égal au plus à 1% (non atteignable présentement dans beaucoup de situations). Dans cette présentation, nous couvrons des méthodes de modélisation/vérification/imputation et de couplage d'enregistrements qui se fondent naturellement dans les méthodes d'ajustement de l'erreur de couplage pour les analyses statistiques des fichiers de données liées. Le logiciel de modélisation /vérification/ imputation a quatre algorithmes qui sont chacun 100 fois plus rapides que des algorithmes existant dans des logiciels commerciaux ou des logiciels expérimentaux d'université. Le logiciel de couplage d'enregistrements utilisé dans le recensement décennal de 2010 lie 10^17 paires (300 millions x 300 millions) en 30 heures et en utilisant 40 cpus sur une machine SGI Linux. C'est 50 fois plus rapide que les logiciels récents travaillant en mode parallèle de Stanford (Kawai et al. 2006) et 500 fois plus rapide que des logiciels utilisés dans certaines agences statistiques (Wright 2010). Les principales méthodes d'estimation appliquent l'algorithme EMH (Winkler 1993) qui généralise l'algorithme ECM (Meng and Rubin 1993) en passant de contraintes linéaires à convexes. Après l'introduction des deux méthodes de qualité, nous couvrons certains aspects de la recherche dans l'ajustement des analyses statistiques pour tenir compte de l'erreur de couplage. Ce domaine a débuté dans Scheuren and Winkler (1993) et nécessite un niveau additionnel considérable de recherche. Une erreur de couplage peut être vue comme un type d'échec de vérification où nous avons besoin d'une source de données auxiliaires ou bien d'un modèle significativement amélioré pour corriger l'erreur.

Estimation fondée sur le plan de sondage à partir de fichiers administratifs d'enregistrements couplés
Abel Dasylva, Statistique Canada

Le couplage d'enregistrements exact est un outil essentiel pour exploiter les fichiers administratifs, particulièrement lorsqu'on étudie les rapports entre de nombreuses variables qui ne sont pas comprises dans un seul fichier administratif. Il vise à déterminer les paires d'enregistrements associées à la même personne ou entité. Le résultat est un fichier couplé qui peut être utilisé pour estimer les paramètres de population, y compris des totaux et des ratios. Malheureusement, le processus de couplage est complexe et sujet à des erreurs, parce qu'il dépend habituellement de variables de couplage qui ne sont pas uniques et qui sont consignées avec des erreurs. Par conséquent, le fichier couplé comprend des erreurs de couplage, y compris des mauvais couplages entre des dossiers non reliés et des couplages manquants entre des dossiers reliés. Si elles ne sont pas prises en compte dans le processus d'estimation, ces erreurs peuvent entraîner des estimations biaisées.

Les travaux antérieurs dans ce domaine ont tenu compte de ces erreurs au moyen d'hypothèses concernant leur distribution. En général, la distribution présumée représente dans les faits une approximation très brute de la distribution véritable, en raison de la complexité inhérente du processus de couplage. Par conséquent, les estimateurs en découlant peuvent être sujets à un biais.

Un nouveau cadre méthodologique, qui tire ses racines de l'échantillonnage d'enquête traditionnel, est proposé pour obtenir des estimations fondées sur le plan de sondage à partir de fichiers administratifs couplés. Il comprend trois étapes. Tout d'abord, un échantillon probabiliste de paires d'enregistrements est sélectionné. En deuxième lieu, on procède à un examen manuel de toutes les paires échantillonnées. Enfin, des estimateurs fondés sur le plan de sondage sont calculés à partir des résultats de l'examen. Cette méthodologie mène à des estimateurs comportant une erreur d'échantillonnage fondée sur le plan de sondage, même lorsque le processus est uniquement fondé sur deux fichiers administratifs. Elle se démarque des travaux antérieurs fondés sur un modèle et fournit des estimateurs plus robustes. Ce résultat est obtenu en mettant les examens manuels au centre du processus d'estimation. L'utilisation des examens manuels est essentielle parce qu'il s'agit dans les faits d'une norme de référence concernant la qualité des décisions de couplage. Le cadre proposé peut aussi être appliqué à l'estimation à partir de données administratives et de données d'enquête couplées.

Séance 4B – Sources de données multiples

Estimation par domaine assistée par modèle en combinant des sources de données multiples, y compris des données d'enquête et des dossiers administratifs
Dan Liao et Phillip S. Kott, RTI International, États-Unis

Dans ce document, nous examinerons l'estimation par domaine à partir de données auxiliaires, par suite de la combinaison de sources de données multiples, y compris des données d'enquête et des dossiers administratifs. Deux approches concurrentes sont envisagées : pondération par calage et prédiction linéaire à pondération probabiliste. Lorsqu'il existe un indicateur de domaine dans les cibles de calage, ces deux approches produiront les mêmes résultats. Toutefois, qu'arrive-t-il autrement? Des comparaisons seront faites entre la validité (biais) et la fiabilité (variance) de ces deux méthodes, grâce à une étude de simulation fondée sur le fichier de données sur les naissances aux États-Unis de 2012. Un test de biais sera proposé pour déterminer si le biais d'une estimation par domaine calculée à partir de la méthode de prédiction pondérée est significativement différent de zéro ou non. Dans la négative, la variance de cette estimation par domaine peut être mesurée et comparée avec la variance de l'estimation du domaine correspondant calculée au moyen de la pondération par calage.

Ces méthodes concurrentes sont aussi fréquemment utilisées dans le cas d'un échantillon à deux degrés et lorsque les cibles de calage pour l'échantillon final sont calculées à partir de l'échantillon de premier degré. Nous examinerons les complications supplémentaires dans l'estimation de la variance qui découlent de l'existence de l'échantillonnage à deux phases.

Accroître et améliorer la recherche d'enquête grâce à l'approche multiniveaux et multisources (MN-MS)
Tom W. Smith, NORC at the University of Chicago, États-Unis

Afin de mieux comprendre la société humaine, les enquêtes doivent recueillir et analyser des données de multiniveaux et multisources (données MN-MS). Au niveau méthodologique, l'utilisation de données MN-MS en général et l'ajout aux données fournies par les répondants de données auxiliaires (DA) de bases de sondage et d'autres sources, ainsi que de paradonnées en particulier, peut contribuer de façon significative à mesurer et réduire l'erreur d'enquête totale. Par exemple, on peut s'en servir pour déceler et réduire le biais de non réponse, vérifier les interviews et valider les données fournies par les répondants, ainsi que d'autres façons. Essentiellement, les données MN-MS peuvent élargir considérablement la recherche axée sur la théorie, en permettant notamment une analyse contextuelle multiniveaux du quartier, de la collectivité et d'autres effets au niveau agrégé, ainsi qu'en ajoutant des données au niveau du cas qui ne peuvent pas être fournies par les répondants ou qui ne sont pas aussi précises et fiables que les DA (p. ex., données sur la santé des dossiers médicaux comparativement à la remémoration des soins médicaux reçus). Ainsi, l'approche MN-MS améliorera la robustesse méthodologique et les possibilités de base de la recherche d'enquête. Il s'agit d'un cadre général pour mener et améliorer ce type de recherche d'enquête.

L'avenir du plan de sondage total
Kees Zeelenberg, Statistics Netherlands, Pays-Bas

La qualité et l'erreur d'enquête totale (EET) revêtent une importance fondamentale pour les statistiques officielles et les instituts nationaux de statistique (INS). Toutefois, trois défis doivent être relevés : l'utilisation de données administratives, l'intégration des processus de production statistique et l'avènement des données volumineuses.

Contrairement aux données d'enquête, les instituts statistiques n'ont plus de contrôle sur la qualité, les concepts et le contenu de leurs données d'entrée statistiques. Nous nous penchons sur les conséquences de cette évolution pour le paradigme de l'EET. Nous démontrons que l'EET est toujours un principe pertinent et que la méthodologie statistique est toujours pertinente pour appliquer les principes d'EET à ces nouvelles formes de données statistiques brutes. Toutefois, il est urgent que les INS se penchent sur ces nouveaux domaines. Nous abordons divers aspects et façons de faire. Par exemple, nous devons savoir comment produire des statistiques représentatives de la population, à partir de ce type de données, et comment mesurer la qualité de ces données.

L'intégration des processus de production statistique dans les INS mène aussi à de nouvelles perceptions de la gestion de la qualité et de l'erreur d'enquête totale. Nous examinons comment gérer la qualité dans la chaîne qui va des statistiques de base aux statistiques finales intégrées, au moyen d'une forme de gestion de la qualité totale ou gestion de la chaîne.

Nous évoquons aussi ce que ces progrès pourraient signifier pour l'organisation et la gestion des ressources humaines des INS.

Séance 5 – Discours du gagnant du Prix Waksberg

Des modes multiples pour les enquêtes à des sources de données multiples pour les estimations
Constance F. Citro, Committee on National Statistics of the U.S. National Research Council/National Academy of Sciences, États-Unis

Les utilisateurs, les bailleurs de fonds et les producteurs de statistiques officielles veulent des estimations qui sont « plus larges, plus approfondies, plus rapides, améliorées et moins coûteuses » (selon Tim Holt, ancien chef de l'Office for National Statistics du Royaume-Uni), éléments auxquels j'ajouterais « plus pertinentes » et « moins fastidieuses ». Chacun de ces adjectifs présente des défis et des possibilités pour ceux qui produisent des statistiques. Depuis la Deuxième Guerre mondiale, nous nous sommes fiés dans une large mesure aux enquêtes sur échantillon probabiliste comme étant les meilleures, celles-ci étant très bonnes dans les faits, pour atteindre ces objectifs pour les estimations dans de nombreux domaines, y compris le revenu des ménages et le chômage, l'état de santé autodéclaré, l'emploi du temps, les victimes d'actes criminels, l'activité des entreprises, les flux de produits, les dépenses des consommateurs et des entreprises, etc. Par suite des taux de plus en plus faibles de réponse totale et partielle et l'évidence d'erreurs de déclaration, nous avons réagi de nombreuses façons, y compris en utilisant des modes d'enquête multiples, des méthodes de pondération et d'imputation plus raffinées, des plans adaptatifs, des essais cognitifs des questions d'enquête et d'autres méthodes pour maintenir la qualité des données. Dans le cas des statistiques sur le secteur des entreprises, afin de réduire le fardeau et les coûts, nous avons depuis longtemps cessé de dépendre uniquement des enquêtes pour produire les statistiques nécessaires, mais jusqu'à maintenant, nous n'avons pas fait de même pour les enquêtes auprès des ménages, à tout le moins aux États-Unis. Je prétends que nous pouvons et nous devons passer du paradigme de la production des meilleures estimations possible à partir d'une enquête à la production des meilleures estimations possible pour répondre aux besoins des utilisateurs, à partir de sources de données multiples. Ces sources comprennent les dossiers administratifs et, de plus en plus, des données sur les transactions et des données en ligne. Je fournis plusieurs exemples, y compris le revenu des ménages et les installations de plomberie des ménages, pour illustrer ma thèse. Je conclus en proposant des façons d'inculquer une culture de statistiques officielles ayant comme résultat final des statistiques pertinentes, à jour, exactes et peu coûteuses et qui traite les enquêtes, de même que les autres sources de données, comme des moyens d'atteindre cette fin.

Séance 6A – Erreur totale d'enquête

Estimation des variances pour les instruments utilisés pour mesurer l'activité physique
Wayne A. Fuller et Dave Osthus, Iowa State University, États-Unis

Dans le cadre des enquêtes qui utilisent un instrument de collecte sujet à une erreur de mesure importante, on utilise parfois un deuxième instrument comportant une variance plus faible de l'erreur pour un sous-échantillon de l'échantillon original. Cela permet le calage de l'instrument comportant une erreur importante sur l'instrument comportant un faible niveau d'erreur. La Physical Activity Measurement Survey est unique du fait que des mesures ont été obtenues au moyen de deux méthodes. Une mesure prend la forme d'une interview sur l'activité des personnes, et l'autre, d'un moniteur porté par le répondant. Les mesures multiples permettent de déterminer la variance au jour le jour et la variance de l'instrument. Les estimations des composantes de la variance et l'équation de calage estimé sont présentées pour l'échantillon des femmes.

Évaluation des composantes de l'erreur d'enquête totale pour l'intégration de sources de données multiples
John L. Eltinge, U.S. Bureau of Labor Statistics, États-Unis

Pendant de nombreuses années, les grands organismes statistiques ont combiné des données de sources multiples pour produire des estimations de moyennes de population, de totaux et d'autres quantités agrégées. Parmi les exemples courants figure l'estimation fondée sur la pondération par le quotient, par la régression, l'estimation composite et par calage. Les « sources multiples » courantes comprennent les données d'enquêtes par échantillon multiples, ainsi que les microdonnées ou les données agrégées de dossiers administratifs.

Plus récemment, on a manifesté de l'intérêt envers le développement des approches mentionnées précédemment afin d'utiliser des données d'autres sources, comme les dossiers d'opérations commerciales ou d'autres formes de « données organiques ». L'utilisation efficace de ces sources nécessite des données fiables sur plusieurs phénomènes, y compris les suivants.

  1. La propension des données d'une unité de population particulière à être couvertes par un groupe déterminé de sources de données. Pour une seule source de données, les modèles de propension obtenus peuvent être perçus comme des prolongements des modèles traditionnels élaborés pour évaluer la couverture incomplète de la base de sondage, les erreurs d'échantillonnage, la non-réponse globale, la non-réponse à une vague et la non-réponse partielle dans les enquêtes par échantillon traditionnelles, ainsi que des modèles connexes utilisés dans les ouvrages publiés sur les études d'observation. En outre, les modèles pour la propension conjointe d'une unité donnée à être incluse dans chacune des diverses sources de données mènent à des prolongements des ouvrages publiés précédemment sur l'estimation découlant d'enquêtes à bases multiples.
  2. Les propriétés de l'erreur des mesures faites sur une unité de population donnée, à partir d'une source de données déterminée. Les modèles pour ces erreurs peuvent être perçus comme des prolongements des modèles habituels au niveau de l'unité et au niveau de l'intervieweur pour les erreurs de mesure des enquêtes.
  3. Les rapports entre les variables sous-jacentes des vrais résultats et les variables auxiliaires connexes dont il est question dans (1) et (2).

Cet exposé va au-delà des approches précédentes de modèle linéaire pour les données d'enquête par échantillon, afin de produire un cadre général pour intégrer chacun des trois éléments qui précèdent dans l'élaboration d'estimateurs de données combinés et les diagnostics connexes. Une attention particulière est accordée aux outils qui peuvent aider un organisme statistique à évaluer la mesure dans laquelle l'inclusion d'une source de données additionnelle peut réduire l'erreur quadratique moyenne d'une catégorie particulière d'estimateurs de données combinés.

Gestion de la qualité dans un organisme statistique — un chemin semé d'embûches
Lilli Japec, Statistics Sweden, Suède

Statistics Sweden a, comme de nombreux autres instituts nationaux de statistique (INS), une longue tradition de qualité. Plus récemment, l'organisme a décidé de commencer à utiliser un certain nombre de cadres de travail pour résoudre les questions de qualité organisationnelle, de qualité des processus et de qualité des produits. Il est important de prendre en compte ces trois niveaux, étant donné que nous savons que la façon dont nous faisons les choses, par exemple, lorsque nous posons des questions, a des répercussions sur la qualité des produits et que, par conséquent, la qualité des processus représente un élément important du concept de qualité. Par ailleurs, la qualité organisationnelle, c'est-à-dire la gestion systématique des aspects comme la formation du personnel et le leadership, est essentielle pour assurer la qualité des processus.

Statistics Sweden utilise la EFQM (European Foundation for Quality Management) comme cadre de travail pour la qualité organisationnelle et ISO 20252 comme norme pour la qualité des processus pour les études de marché, les sondages d'opinion et les études sociales. En avril 2014, Statistics Sweden a été le premier institut national de statistique à être certifié selon la norme ISO 20252.

Parmi les défis auxquels Statistics Sweden a dû faire face en 2011 figuraient la mesure systématique et le contrôle des changements dans la qualité des produits, ainsi que leur présentation claire aux intervenants. De concert avec des experts-conseils externes, Paul Biemer et Dennis Trewin, Statistics Sweden a élaboré un outil pour cela appelé ASPIRE.

Afin d'assurer le maintien et l'amélioration de la qualité, Statistics Sweden a aussi établi un organisme d'assurance de la qualité comprenant un gestionnaire de la qualité, des responsables de la qualité et des vérificateurs internes et externes de la qualité.

Dans ma présentation, j'aborderai les composantes du système de gestion de la qualité de Statistics Sweden, ainsi que les défis auxquels nous avons fait face.

Séance 6B – Appariement de données 2

Évaluation et amélioration de la qualité, du potentiel analytique et de l'accessibilité des données, grâce au couplage de données administratives, de données d'enquête et de données ouvertes
Manfred Antoni et Alexandra Schmucker, Institut de recherche sur l'emploi (IAB), Allemagne

Dans le cadre des enquêtes, le problème de non-réponse totale se pose de plus en plus en raison des préoccupations croissantes concernant la protection des données, ainsi que de l'attrition du panel ou de la diminution de la disponibilité et de la coopération des répondants. Des problèmes de qualité se posent selon la non-réponse partielle ou les réponses erronées, particulièrement lorsque des erreurs de remémoration se produisent dans les interviews rétrospectives. De façon plus particulière, les interviews longitudinales entraînent des coûts et un fardeau de réponse élevés.

Parmi les solutions possibles aux problèmes de qualité et de coûts figure le couplage avec des données administratives ou ouvertes. Leur objectif de collecte peut avoir été au départ différent de celui de créer des données de recherche, mais elles offrent habituellement des renseignements précis et fiables couvrant de longues périodes de temps. Le couplage des données donne ainsi lieu à des économies et à une qualité des données plus grandes. Les données couplées comportent aussi un potentiel analytique plus grand pour les analyses de fond que les données qui les constituent, du fait de la combinaison d'ensembles de variables ou de l'ajout de niveaux d'observation (p. ex., employés dans les établissements dans les compagnies).

Par ailleurs, la recherche sur la qualité de l'une ou l'autre des sources de données devient possible, grâce à l'application d'analyses de validation et d'analyses de la non-réponse totale ou partielle, ou grâce à l'examen de la sélectivité du consentement au couplage d'enregistrements et de la réussite de celui-ci.

Notre présentation sera axée sur le potentiel, la qualité et l'accessibilité des données couplées du Centre de données de recherche de l'Agence fédérale d'emploi de l'Allemagne. Il s'agit de données administratives, de données d'enquête et de données ouvertes sur les personnes, les entreprises et les compagnies.

La surveillance des maladies chroniques au Québec par le jumelage de fichiers administratifs
Louis Rochette et Valérie Émond, Institut national de santé publique du Québec, Canada

En surveillance des maladies chroniques, la cueillette d'information est essentielle dans le but de mesurer l'ampleur des maladies, évaluer l'utilisation des services, identifier les groupes à risque et suivre l'évolution des maladies et des facteurs de risque dans le temps en vue de planifier et d'appliquer des programmes de prévention en santé publique. C'est dans ce contexte qu'a été créé le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ). Le SISMACQ est une base de données issue du jumelage de fichiers administratifs, couvrant les années 1996 à 2012, représentant une alternative intéressante aux données d'enquêtes puisqu'elle porte sur la totalité de la population, n'est pas affectée par le biais de rappel et permet de suivre la population dans le temps et dans l'espace. Cependant, la quantité de données traitées, le jumelage provenant de différentes sources et l'obligation de préserver la confidentialité représentent un défi nécessitant l'adoption d'une série de mesures méthodologiques et technologiques. Cette présentation a pour objet de présenter les méthodes choisies pour la construction de la cohorte populationnelle à partir des différentes sources de données brutes ainsi que de décrire les traitements apportées dans le but de minimiser les biais. Nous discuterons également de l'impact des changements qui peuvent survenir tout au long de la période d'étude et qui peuvent affecter les résultats tel que les changements de codification, de pratique ou d'organisation des soins.

Surdénombrement dans le Recensement de 2011 au Canada
Abel Dasylva, Robert-Charles Titus et Christian Thibault, Statistique Canada

L'Étude sur le surdénombrement du recensement (ESR) est une étude essentielle de mesure postcensitaire de la couverture. Son principal objectif est de produire des estimations du nombre de personnes dénombrées plusieurs fois, selon la province et le territoire, d'étudier leurs caractéristiques et de déterminer les raisons possibles des erreurs. L'ESR est fondée sur l'échantillonnage et l'examen administratif de groupes d'enregistrements reliés, qui sont le résultat d'un couplage à l'intérieur de la base de données des réponses au recensement et avec une base administrative. Dans cette communication, nous décrivons la nouvelle méthodologie de l'ESR de 2011. Cette méthodologie a intégré de nombreuses améliorations, y compris une plus grande utilisation du couplage d'enregistrements probabiliste et de l'estimation de paramètres de couplage au moyen d'un algorithme espérance-maximisation (EM), et l'utilisation efficace de données sur les ménages pour déceler davantage de cas de surdénombrement.

Fonctionnalités utiles au couplage d'enregistrements
Martin Lachance, Statistique Canada

Dans le domaine du couplage d'enregistrements, il existe un large éventail de comparateurs de chaînes de caractères, la forme la plus évidente étant l'appariement parfait entre deux séquences de mots. Les difficultés lors des comparaisons surviennent lorsque des facteurs influent sur la composition des chaînes (ex. : emploi de surnoms pour les prénoms de personnes, inversions de mots, erreurs typographiques, etc). Il faut alors faire appel à des comparateurs plus sophistiqués (ex. : Winkler, etc). De tels outils permettent d'établir des liens autrement difficiles à établir, donc de réduire le nombre de liens potentiellement manqués. Malheureusement, une partie de ces liens peuvent s'avérer de faux liens, communément appelés faux positifs.

Afin d'améliorer les appariements, un nombre intéressant de comparateurs de chaînes sophistiqués ont été développés, certains étant capables de gérer de longues séquences de mots, certains pouvant être combinés. Cette gamme d'outils est présentement disponible par l'intermédiaire d'un prototype de couplage d'enregistrements déterministe, MixMatch, lequel permet également de faire appel à des connaissances a priori afin de réduire le volume de faux positifs générés lors des appariements. Les fonctionnalités de ce prototype visent deux objectifs : augmenter les taux d'appariements, tout en essayant de minimiser le nombre de faux positifs.

Dossiers administratifs dans le recensement des États-Unis pour des logements collectifs : utilisations possibles et limites
Asaph Young Chun, U.S. Census Bureau et Jessica Gan, Rice University, États-Unis

Cette communication vise à présenter les utilisations statistiques possibles des dossiers administratifs dans le recensement des États-Unis pour des logements collectifs (LC). Le dénombrement des logements collectifs signifie la collecte de données dans des endroits difficiles d'accès, comme les établissements correctionnels, les établissements de soins infirmiers spécialisés, et les casernes militaires. Nous illustrons l'utilité des dossiers administratifs au moment de l'établissement de la base de sondage des LC, en vue d'améliorer la couverture. Nous examinons la disponibilité et l'utilisation possible de dossiers administratifs dans le dénombrement des LC. Nous analysons les résultats du Recensement de 2010, afin de déterminer dans quelle mesure les dossiers administratifs ont été potentiellement utilisés pour l'élaboration de la base de sondage et le dénombrement des LC, en accordant une attention spéciale à leurs avantages et à leurs limites. Nous examinons les avantages et les inconvénients de l'utilisation de dossiers administratifs par rapport à leurs répercussions pour la conceptualisation d'indicateurs de la qualité des données des dossiers administratifs dans les LC.

Séance 7A – Données volumineuses

Ce que les mégadonnées peuvent signifier pour les enquêtes
Mick P. Couper, Survey Research Center, University of Michigan, États-Unis

Deux tendances convergentes soulèvent des questions concernant l'avenir des enquêtes probabilistes à grande échelle menées par les instituts nationaux de statistique (INS). Tout d'abord, l'augmentation des coûts et des taux de non-réponse menace potentiellement la rentabilité et la valeur inférentielle des enquêtes. En deuxième lieu, l'intérêt est de plus en plus grand à l'égard des mégadonnées en remplacement des enquêtes. Il existe de nombreux types différents de mégadonnées, mais je mettrai l'accent particulièrement sur les données produites par l'entremise des médias sociaux. Dans cet exposé, je passerai en revue certaines des préoccupations concernant les mégadonnées, particulièrement dans la perspective des enquêtes. Je démontrerai que les enquêtes de grande qualité et les analyses de mégadonnées jouent un rôle important dans les travaux des INS. Toutefois, même s'il est peu probable que les mégadonnées remplacent les enquêtes de grande qualité, je crois que les deux méthodes peuvent remplir des fonctions complémentaires. Je tenterai de déterminer certains des critères qui doivent être respectés, ainsi que les questions auxquelles on doit répondre, avant que les mégadonnées puissent être utilisées pour faire des inférences fondées sur la population qui sont fiables.

Les mégadonnées comme source de données pour les statistiques officielles : expérience de Statistics Netherlands
Piet J.H. Daas, Statistics Netherlands, Pays-Bas

De plus en plus de données sont produites au moyen du nombre croissant de dispositifs électroniques qui nous entourent et que l'on retrouve sur Internet. La grande quantité de données et la fréquence élevée à laquelle elles sont produites ont donné lieu à l'avènement du terme « mégadonnées ». Compte tenu du fait que ces données rendent compte de nombreux aspects différents de nos vies au quotidien, et en raison de leur abondance et de leur disponibilité, les sources de mégadonnées sont très intéressantes du point de vue des statistiques officielles. Toutefois, les premières expériences obtenues par suite des analyses de grandes quantités d'enregistrements de détection de boucles de trafic de véhicules aux Pays-Bas, d'enregistrements des détails des appels de téléphone mobile et de messages des médias sociaux aux Pays-Bas révèlent qu'un certain nombre de défis doivent être résolus pour permettre l'application de ces sources de données aux statistiques officielles. Ces questions, ainsi que les leçons apprises pendant les études initiales, seront abordées et illustrées au moyen d'exemples. De façon plus particulière, on abordera les sujets suivants : les trois types généraux de mégadonnées définis, la nécessité d'accéder à des sommes importantes de données et de les analyser, la façon de traiter les données qui comportent un bruit et d'aborder la sélectivité (ainsi que notre propre biais concernant ce sujet), la façon d'aller au-delà de la corrélation, la façon de trouver les personnes ayant les bonnes compétences et la bonne attitude pour exécuter les travaux, ainsi que la façon dont nous avons traité les problèmes de protection des renseignements personnels et de sécurité.

Projet pilote de mégadonnées, avec des compteurs intelligents
Lily Ma, Statistique Canada

La Commission économique des Nations Unies pour l'Europe a déterminé que les mégadonnées représentent un enjeu clé pour les statistiques officielles. Le plus récent Plan d'entreprise de Statistique Canada comprend un examen exhaustif de sources de données de rechange pour remplacer ou compléter ses programmes existants ou s'y ajouter. Qu'entend-on exactement par mégadonnées? Qu'ont-elles à offrir aux statistiques officielles? Quels sont les risques? Quels sont les défis? Quelles sont les préoccupations en matière de protection des renseignements personnels? Quels sont certains des outils dont nous avons besoin? Quelles sont certaines des compétences dont nous avons besoin? Peuvent-elles remplacer ou compléter les enquêtes? L'automne dernier, Statistique Canada a investi dans un projet pilote sur les mégadonnées, afin de répondre à certaines de ces questions. Il s'agissait du premier projet d'enquête auprès des entreprises de cette sorte. Je vous communiquerai certaines des leçons apprises dans le cadre du projet pilote sur les mégadonnées reposant sur des données de compteurs intelligents d'électricité.

Séance 7B – Collecte de données 2

Effets de mode dans les données du Recensement de 2011 au Royaume-Uni : Aura-t-on besoin d'une stratégie d'imputation différente pour le Recensement de 2021 au Royaume-Uni?
Steven Rogers, Office for National Statistics, Royaume-Uni

Tout comme de nombreux autres instituts nationaux de statistique, l'Office for National Statistics (ONS) explore de nouvelles façons de répondre aux besoins et aux demandes du consommateur de données statistiques du XXIe siècle. Des initiatives permanentes, comme le projet Beyond 2011 (B2011) et le programme de collecte électronique des données (CED), ont été conçues de façon particulière pour examiner les enjeux méthodologiques liés aux sources de données et aux méthodes de collecte, au delà de ceux d'une enquête traditionnelle ou d'un recensement. Étant donné que l'imputation joue un rôle important dans tout cycle d'enquête, du fait qu'elle sert à réduire le biais de non-réponse dans les estimations d'enquête, l'équipe du contrôle et de l'imputation de l'ONS a entrepris de comprendre les répercussions possibles que d'autres méthodes de collecte de données pourraient avoir sur la conception de stratégies d'imputation appropriées. Nous présentons certains résultats préliminaires d'une recherche fondée sur les données du Recensement de 2011. Les programmes B2011 et CED laissent supposer qu'en 2021, l'ONS pourrait tenir un autre recensement reposant principalement sur un questionnaire en ligne. Nous nous posons la question suivante : dans ce cas, y a-t-il des données probantes du Recensement de 2011 au Royaume-Uni qui montrent qu'une stratégie d'imputation appropriée devrait inclure un mécanisme d'effet de mode discret?

Une contrainte : collecter moins. Notre mission : faire le mieux possible.
Olivier Haag, Pierre-Arnaud Pendoli et Sébastien Faivre, Institut National de la Statistique et des Etudes Economiques (INSEE), France

En France, les contraintes budgétaires ne permettent pratiquement plus d'embaucher des enquêteurs occasionnels pour prendre en compte des problèmes de collecte localisés. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée.

Pour les enquêtes Insee, réalisées à partir d'un échantillon maître, les difficultés apparaissent lors de l'absence prolongée d'un enquêteur sur l'ensemble de la durée de la collecte d'une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l'enquête, ce qui génère de fait un biais dans les estimations.

Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en œuvre en fonction du moment où le problème est diagnostiqué.

  • Si l'« abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en œuvre. Elle consiste à interroger un minimum de ménages dans la zone de collecte « en difficulté » au détriment d'autres zones pour lesquelles aucun problème de collecte n'est a priori diagnostiqué. Il s'agit donc de minimiser la dispersion des poids dans le cadre des moyens de collecte initialement alloués à l'enquête.
  • Si l'« abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en œuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d'un échantillon par rapport à la population de base. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d'analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d'intensifier les efforts de collecte sur les groupes précédemment identifiés.

Introduction d'éléments de plan adaptatif dans l'étude par panel sur le marché du travail et la sécurité sociale (PASS)
Mark Trappmann, Gerrit Müller, Frauke Kreuter, Institut de recherche sur l'emploi (IAB), Allemagne

PASS est l'une des grandes enquêtes allemandes par panel. Elle met l'accent sur le chômage et la dynamique de la pauvreté. Depuis 2007, environ 15 000 personnes dans environ 10 000 ménages sont interviewées chaque année. La PASS utilise un plan à mode mixte séquentiel d'IPAO et d'ITAO. Les données peuvent être couplées à des dossiers administratifs détaillés sur les antécédents d'emploi de tous les répondants qui fournissent un consentement éclairé.

Depuis la vague 4, des paradonnées détaillées sont disponibles sur une base bihebdomadaire pendant les travaux sur le terrain. Depuis la vague 6 (2012), elles ont été utilisées pour procéder à des interventions éclairées dans les travaux sur le terrain relatifs au panel. Cet exposé donne un aperçu des éléments de ce plan adaptatif, avec un accent sur deux expériences concernant les moments de contact optimaux et les incitatifs des intervieweurs à interviewer des cas à faible propension.

Dans la première expérience, les moments de contact de la partie de l'étude par ITAO ont été adaptés au jour de la semaine et au moment du jour de l'interview réussie de la vague précédente. Alors que 80 % des ménages ont reçu ce traitement, 20 % des interviews ont été planifiées de façon aléatoire. Cette adaptation réduit légèrement le nombre moyen de tentatives de contact jusqu'à ce qu'un contact soit établi, mais n'a qu'un effet peu significatif sur la collaboration au moment du premier contact.

Pour la deuxième expérience, on a estimé les propensions de réponse pour les cas d'IPAO pendant les travaux sur le terrain à partir des antécédents de contact et des données de la base de sondage. À la dernière étape de la collecte des données, on a promis des primes considérables aux intervieweurs qui complétaient les cas comportant une faible propension de réponse prédite. Cette prime a été offerte pour une moitié choisie de façon aléatoire des cas comportant une faible propension. Nous avons déterminé que les incitatifs ont entraîné une probabilité plus forte d'état final (interview ou refus), tandis que le nombre de cas toujours ouverts à la fin des travaux sur le terrain (problèmes d'adresse, non-contacts, rendez-vous annulés) a diminué. Toutefois, les taux de réponse ne sont pas significativement plus élevés pour le groupe visé par l'expérience. À partir de ces résultats, nous avons mis en œuvre une expérience combinant des incitatifs aux intervieweurs et aux répondants dans la vague actuelle.

Mise à l'essai des stratégies de collecte pour les enquêtes en ligne fondées sur l'autodéclaration
Margaret Wu, Lecily Hunter et François Brisebois, Statistique Canada

En janvier et février 2014, Statistique Canada a réalisé un test en vue de mesurer l'efficacité des différentes stratégies de collecte au moyen d'une enquête en ligne fondée sur l'autodéclaration. On a communiqué avec les unités échantillonnées en leur envoyant des lettres de présentation par la poste et on leur a demandé de répondre à l'enquête en ligne, sans contact avec un intervieweur. Le test visait à mesurer dans quelles proportions les gens acceptent de répondre à une enquête en ligne et à mesurer les profils des répondants et des non-répondants. On a testé différents échantillons et différentes lettres afin de déterminer l'efficacité relative des diverses méthodes. Les résultats du projet serviront à renseigner les responsables de diverses enquêtes sociales qui se préparent à ajouter à leurs enquêtes la possibilité d'y répondre par Internet. L'affiche présentera la méthode générale du test ainsi que les résultats observés pendant la collecte et l'analyse des profils.

Gestion innovatrice de collecte et d'analyse dans le Programme intégré de la statistique des entreprises
Fraser Mills, Serge Godbout, Frédéric Picard et Keven Bosa, Statistique Canada

Statistique Canada a entrepris un remaniement majeur de ses enquêtes auprès des entreprises, le Programme intégré de la statistique des entreprises (PISE), afin de remplacer l'Enquête unifiée auprès des entreprises (EUE). Une des composantes clés du nouveau cadre est la méthodologie de gestion adaptative de l'analyse et de la collecte. Cette méthode a été élaborée pour réduire les interventions manuelles tout en permettant d'obtenir une qualité semblable à un coût plus faible. On se sert de données historiques et partiellement recueillies, d'estimations et d'indicateurs de qualité qui sont produits pendant que la collecte est toujours en cours. Des cotes sont calculées pour chaque unité de collecte afin d'évaluer son impact en ce qui a trait à l'indicateur de qualité. Les cotes sont par la suite agrégées à l'intérieur de chaque unité de collecte en vue de créer une mesure d'impact globale. À partir de ces dernières, on établit des listes de priorités pour guider les décisions concernant le suivi des cas de non-réponse, la vérification sélective et le suivi des questionnaires rejetés au contrôle.

L'exposé portera sur les indicateurs de qualité et les cotes de mesure d'impact. Plus précisément, on décrira la méthodologie qui sous-tend les cotes de mesure d'impact et on la mettra en relation avec la théorie de la variance due à l'imputation. On parlera également des hypothèses utilisées pour arriver à la création des cotes de mesure d'impact.

Séance 8A – Microsimulations 1

La modélisation des ménages complexes et non ordinaires : exemple de Demo4, le modèle démographique du projet européen Sustaincity
Sophie Pennec, Elisabeth Morand et Laurent Toulemon, Institut National d'Etudes Démographiques, France

Dans le cadre du projet européen SustainCity, un modèle de microsimulation des individus et ménages a été créé en vue de simuler la population de différentes métropoles européennes. L'objectif du projet était d'unir plusieurs modèles de microsimulation de transports et d'occupation des sols (land use modelling), de leur adjoindre un module dynamique de population et d'appliquer ces approches de microsimulation à trois zones géographiques d'Europe (la région d'Île-de-France et les agglomérations de Bruxelles et Zurich).

Dans le projet SustainCity, le nombre et la structure des agents de base que sont les ménages sont déduits d'un modèle démographique spécifique qui simule les comportements individuels. Pour des raisons de simplicité dans la conception, le modèle dynamique a été conçu comme un module autonome au sein du projet SustainCity et peut donc être utilisé seul pour des applications uniquement démographiques.

Le modèle proposé est un modèle transversal (fondé sur une population initiale d'une année donnée), fermé (les individus sont explicitement liés les uns aux autres) et utilisant des transitions annuelles pour simuler les comportements. Afin d'être fourni aux différents membres du consortium SustainCity, le modèle démographique devait présenter une facilité d'emploi (tel que une interface graphique et des menus de modification des paramètres), c'est pourquoi nous avons utilisé le langage développé par Statistique Canada, Modgen. Le modèle simule des événements au niveau individuel (mortalité, fécondité, formation et dissolution des unions, départ des enfants du foyer des parents) et en déduit les modifications correspondantes des ménages. En plus des ménages simples composés d'une famille (couples ou adultes et enfants) au maximum, le modèle s'intéresse aussi aux ménages complexes, c'est-à-dire à tous les autres modes de cohabitation (ménages à plusieurs générations, colocation…) ainsi qu'aux ménages non ordinaires. La présentation portera plus spécifiquement sur la définition et la modélisation des ménages complexes et les ménages non-ordinaires (collectifs) avec une application au cas de l'île de France.

Modélisation des premières étapes de la vie (MEL-C) : un outil de soutien pour les décideurs
Barry Milne, Roy Lay-Yee, Jessica Thomas, Martin von Randow et Peter Davis, Centre of Methods and Policy Application in the Social Sciences (COMPASS), University of Auckland, Nouvelle-Zélande

La microsimulation repose sur des données du monde réel pour créer un monde artificiel qui imite l'original, mais grâce auquel des expériences virtuelles peuvent être menées. La modélisation des premières étapes de la vie (MEL-C) est un modèle de microsimulation qui utilise des estimations tirées d'études longitudinales en Nouvelle-Zélande, afin de déterminer les transitions de la naissance à l'âge de 13 ans, pour un échantillon synthétique représentatif d'enfants de la Nouvelle-Zélande. MEL-C est axé sur la simulation de trois résultats principaux : utilisation des services de santé, littératie à un jeune âge et comportement antisocial. Parmi les prédicteurs qui ont été modélisés figurent les suivants : caractéristiques démographiques, caractéristiques familiales, influences prénatales et périnatales, et participation à des activités précoces de formation. Je décrirai comment le modèle peut être interrogé pour vérifier les scénarios « Qu'arriverait il si? », p. ex., Qu'arriverait il si les taux de tabagisme pendant la grossesse étaient plus faibles?; quelles interventions comportent les plus grands avantages pour les groupes défavorisés ou minoritaires? Je démontrerai aussi le logiciel qui a été élaboré pour manipuler le modèle.

La microsimulation à Statistique Canada : le passé, le présent et l'avenir
Chantal Hicks et Martin Spielauer, Statistique Canada

Statistique Canada élabore depuis longtemps des modèles de microsimulation, ainsi que des méthodes et des outils qui facilitent leur construction. Les modèles sont utilisés pour les analyses socioéconomiques, les analyses de la santé, les projections démographiques et les projections de la main d'œuvre. Qu'ont ces modèles en commun? Ils intègrent tous diverses sources de données dans des plateformes cohérentes qui permettent de répondre à des questions auxquelles il est impossible de répondre au moyen d'un ensemble unique de données. Par conséquent, les modèles de microsimulation augmentent la pertinence des données, tout en améliorant leur cohérence et leur qualité. En outre, de nombreux modèles créent et utilisent des bases de données synthétiques qui ne sont pas confidentielles, c'est-à-dire qui peuvent être partagées avec le public, ce qui accroît encore l'accessibilité des données. La plupart des activités de microsimulation à Statistique Canada sont financées par des clients externes, y compris d'autres ministères et organismes fédéraux et provinciaux, des chercheurs universitaires et des groupes de réflexion. En plus des modèles de microsimulation qu'il élabore et met à jour, Statistique Canada partage aussi sa technologie et son expertise dans le monde entier. Cet exposé donne un aperçu des activités de microsimulation à Statistique Canada, de leur historique, de leur justification, des défis actuels, ainsi que des objectifs pour l'avenir.

Séance 8B – Enquêtes Web 2

Enquêtes par panel en ligne – un défi pour les statistiques officielles
Jörgen Svensson, Statistics Sweden, Suède

Au cours de la dernière décennie, on a déterminé que les enquêtes par panel sur le Web représentaient une méthode rapide et économique pour les études de marché. Les nouveaux progrès des technologies de l'information sont à la base de cela, et plus particulièrement la croissance rapide continue de l'utilisation d'Internet et des ordinateurs dans le public. En outre, les taux croissants de non réponse et l'augmentation des prix imposés au secteur des enquêtes sont à l'origine de ce changement. Toutefois, il existe certains risques inhérents graves liés aux enquêtes en ligne par panel, parmi lesquels le biais de sélection n'est pas le moindre, en raison de l'autosélection des répondants. Il existe aussi des risques d'erreurs de couverture et de mesure. L'absence d'un cadre inférentiel et d'indicateurs de la qualité des données représente un obstacle à l'utilisation d'une approche par panel en ligne pour obtenir des statistiques de grande qualité concernant des populations générales. Toutefois, il semble y avoir des défis croissants pour certains instituts nationaux de statistique, en raison d'une nouvelle forme de concurrence à l'égard de statistiques ponctuelles, et même de statistiques officielles d'enquêtes par panel en ligne.

Cette communication explore la question de la conception et de l'utilisation des panels en ligne de façon scientifiquement éprouvée. On fournit un aperçu d'une norme de la Société d'enquête suédoise pour la mesure du rendement, afin d'évaluer certains aspects de qualité des résultats d'enquêtes par panel en ligne. On aborde de façon détaillée les risques de décomposition du biais et d'atténuation du biais. Certaines idées sont présentées pour combiner des enquêtes par panel en ligne et des enquêtes traditionnelles, afin d'obtenir une inférence contrôlée économique.

Au sujet des corrections du biais pour les enquêtes en ligne
Lingling Fan, Wendy Lou et Victoria Landsman, University of Toronto, Canada

Les enquêtes en ligne sont devenues un mode attrayant de collecte des données au cours des dernières décennies, mais de par leur conception, elles excluent l'ensemble de la population n'ayant pas accès à Internet. En outre, elles n'ont pas des taux de réponse élevés, ce qui fait que les biais de non couverture et de non-réponse sont plus préoccupants dans ce genre d'enquêtes. L'imputation est une méthode couramment utilisée pour traiter la non-réponse partielle, un ensemble complet de données pouvant être créé en comblant les valeurs manquantes. Dans cette étude, nous utiliserons des méthodes d'imputation, y compris l'imputation hot deck, l'imputation à structure arborescente et l'imputation par régression logistique bayésienne, pour résoudre le biais de non couverture et le biais de non-réponse dans les enquêtes en ligne. Nous présentons des résultats de simulation pour illustrer le rendement des méthodes selon divers scénarios, en fonction de la disponibilité de données additionnelles pour la population de référence, ce qui semble prometteur. On abordera aussi des prolongements possibles de ces approches et les orientations des travaux futurs.

Biais de non-réponse dans un panel en ligne probabiliste : l'effet des primes monétaires conditionnelles et non conditionnelles
Ulrich Krieger, Université de Mannheim, Allemagne

Le panel Internet allemand (GIP) est un nouveau panel en ligne à grande échelle fondé sur un échantillon probabiliste de personnes vivant dans des ménages en Allemagne. En 2012, on est entré en rapport avec les ménages hors ligne, au moyen d'une brève interview en personne. Par la suite, tous les membres des ménages ont été invités à répondre aux questionnaires du GIP, tous les deux mois. Pour réduire le biais de non couverture, on a fourni aux ménages n'ayant pas accès à Internet le matériel nécessaire et/ou un accès Internet à large bande.

Le recrutement pour le GIP comprenait diverses étapes : l'interview sur place des ménages, des invitations envoyées par la poste pour participer à l'enquête en ligne, des lettres de rappel, un suivi par téléphone et des rappels finaux envoyés par la poste. Au cours de l'étape sur place, nous avons mené une expérience comportant des primes inconditionnelles de 5 € et conditionnelles de 10 € aux ménages. En outre, on a mené une expérience à partir de primes personnelles non conditionnelles de 5 € au cours du premier rappel.

Nous examinons les effets de la variation expérimentale du processus de recrutement sur la composition de l'échantillon du GIP. Nous utiliserons les données du recensement allemand comme repère pour évaluer la représentativité du panel et la façon dont elle est touchée par les différentes mesures de recrutement et expériences de prime. Nous tentons de déterminer si un échantillon probabiliste en ligne soigneusement recruté convient pour la recherche sociale et économique.

Effet de la rétroaction interactive instantanée et tardive sur l'accélération de la réponse et la non-différenciation dans les questions de grille
Tanja Kunz et Marek Fuchs, Université technique de Darmstadt, Allemagne

Dans les enquêtes en ligne, on peut utiliser la rétroaction interactive pour améliorer la qualité des réponses. Des recherches antérieures ont révélé son efficacité du point de vue de l'accélération de la réponse et de la non-différenciation dans les questions de grille (Conrad et coll., 2009, 2011; Zhang, 2012, 2013). La rétroaction interactive peut avoir lieu : 1) une fois que le répondant a déjà soumis l'ensemble de la grille, comme dans le cas des études antérieures (rétroaction tardive), ou 2) lorsqu'il est toujours en train de répondre aux questions de la grille (rétroaction instantanée).

Dans une expérience randomisée entre sujets intégrée dans une enquête en ligne auprès d'étudiants de première année d'université (n = 1,696), on a comparé l'efficacité de la rétroaction instantanée sur l'accélération de la réponse (expérience 1) et la non-différenciation (expérience 2) dans des grilles et de la rétroaction tardive ou de l'absence de rétroaction. Les résultats montrent les avantages de l'utilisation de la rétroaction instantanée, celle ci permettant une plus grande différenciation entre les questions, ce qui réduit à la fois la non-différenciation et l'accélération de la réponse de façon plus fiable que la rétroaction tardive. Par ailleurs, les effets de la rétroaction tardive sur l'accélération de la réponse ont pris la forme de délais d'achèvement plus longs dans les faits. Toutefois, étant donné que ces délais d'achèvement plus longs ne s'accompagnent pas d'une diminution de la non-différenciation par rapport à la rétroaction instantanée, le temps additionnel utilisé ne semble pas être du temps productif. Ainsi, les résultats montrent que le moment précis de la rétroaction interactive est décisif au chapitre de la réduction des comportements de satisfaction, la rétroaction instantanée étant plus efficace que la rétroaction pour réduire l'accélération de la réponse et la non-différenciation dans les questions de grille.

Sont-ils prêts à passer en ligne? Premiers résultats d'une transition possible de l'IPC à l'IPAO/IWAO dans une enquête par panel auprès d'établissements
Peter Ellguth et Susanne Kohaut, Institut de recherche sur l'emploi (IAB), Allemagne

Le Panel des établissements de l'IAB est l'enquête la plus exhaustive auprès des établissements menée en Allemagne, près de 16 000 entreprises participant chaque année. Des interviews sur place utilisant papier et crayon (IPC) sont menées depuis le début de l'enquête en 1993. Comme c'est le cas pour toutes les enquêtes par panel, il est particulièrement important d'obtenir des taux de réponse élevés, et cela s'appuie dans ce cas sur la possibilité de laisser le questionnaire aux répondants pour qu'ils le remplissent eux mêmes (environ 20 % des interviews).

Parallèlement, d'autres méthodes d'enquête assistée par ordinateur sont disponibles et comportent des avantages incontestables. Lorsque l'on modifie le mode d'enquête du Panel des établissements de l'IAB, un des défis consiste à veiller à ce qu'il soit toujours possible de remplir le questionnaire sans qu'un intervieweur soit présent. Autrement, le taux de non réponse (non réponse totale et non réponse partielle) augmentera. Pour relever ce défi, des interviews sur place (assistées par ordinateur) (IPAO) combinées à une version en ligne du questionnaire (IWAO) semblent une solution prometteuse.

À ce jour, on sait peu de choses concernant la capacité ou la volonté de participer à une telle enquête au niveau de l'établissement. Par conséquent, on a inclus des questions concernant l'accès à Internet, le désir de remplir le questionnaire en ligne et les raisons du refus dans la vague de 2012 du Panel des établissements de l'IAB.

Dans cette communication, certains résultats clés seront présentés, qui pourraient être intéressants dans le cadre du débat général sur les techniques d'enquête. Les premiers résultats montrent un refus généralisé de participer à une enquête en ligne. Nous aimerions examiner de plus près les établissements, afin de déterminer les caractéristiques des entreprises capables de participer à une enquête en ligne ou prêtes à le faire, ainsi que sur ce que l'on pourrait apprendre concernant le tirage de l'échantillon, les travaux sur le terrain et la collecte des données.

Séance 9A – Indicateurs de qualité pour les données administratives

Contexte informatif différent pour l'utilisation statistique des données administratives
Loredana Di Consiglio et Piero Demetrio Falorsi, Institut statistique national italien-ISTAT, Italie

Les responsables du projet SN-MIAD du Réseau statistique sont chargés de l'élaboration de méthodologies pour une utilisation intégrée des données administratives dans le processus statistique. Le projet est présidé par l'Institut national de statistique de l'Italie et se compose de représentants de l'Australian Bureau of Statistics, de Statistique Canada et de Statistics New Zealand. Le projet SN-MIAD vise à fournir des lignes directrices pour exploiter les données administratives à des fins statistiques. De façon plus particulière, un cadre de qualité est élaboré, une mise en correspondance des utilisations possibles est fournie, et un schéma du contexte informatif possible est proposé.

Cet exposé met l'accent sur ce dernier aspect. De façon plus particulière, nous ferons une distinction entre les dimensions qui sont liées aux caractéristiques de la source, avec un lien avec l'accessibilité et avec les caractéristiques qui sont reliées à la structure des données administratives et ses rapports avec les concepts statistiques. Nous appelons la première catégorie de caractéristiques le cadre d'accès, et la deuxième, le cadre de données. Dans cet exposé, nous nous concentrerons principalement sur la deuxième catégorie de caractéristiques qui sont liées de façon particulière au type d'information qui peut être obtenue de la source secondaire. De façon particulière, ces caractéristiques ont trait à la population administrative cible et à la mesure de cette population, ainsi qu'à la façon dont elle est (ou pourrait être) reliée avec la population cible et les concepts statistiques cibles. On soulignera en outre le lien entre les contextes informatifs et le cadre de qualité.

Un cadre d'évaluation des données administratives
Mylène Lavigne, Martin Lessard et Christian Nadeau, Statistique Canada

Les contraintes budgétaires auxquelles font face les instituts nationaux de statistique, la diminution des taux de réponse, l'augmentation du fardeau de réponse, l'amélioration des techniques de couplage d'enregistrements et l'augmentation de la puissance des ordinateurs sont autant de facteurs favorisant une croissance de l'utilisation de données administratives pour la production d'information statistique. Se faisant, ces instituts doivent tenir compte de plusieurs aspects liés à de telles utilisations au cours du processus d'acquisition de nouvelles sources de données administratives. Parmi ces facteurs, on note les enjeux de confidentialité et de vie privée, les aspects légaux et financier et l'impact sur la qualité des produits statistiques qui en résultera. Cette dernière découle en partie de la qualité des intrants utilisés. Il est donc nécessaire, au moment de décider d'acquérir de nouvelles sources de données administratives et de les utiliser à des fins statistiques, d'en faire l'évaluation afin de déterminer si elles sont adaptées à l'utilisation que l'on compte en faire.

À cette fin, un cadre d'évaluation de la qualité des données administratives est en cours d'élaboration à Statistique Canada. S'appuyant sur le Cadre d'assurance de la qualité de l'organisme, il comprend essentiellement deux phases d'évaluation. Une première phase est effectuée sans accès aux données convoitées, et une deuxième à partir d'une version partielle ou préliminaire de celles-ci. La première phase permet essentiellement d'évaluer la pertinence, la cohérence, l'actualité, l'intelligibilité et l'accessibilité des données alors que l'exactitude est principalement évaluée à la deuxième phase. Le cadre et les outils d'évaluation suggérés aux deux phases sont présentés dans cet article.

Élaboration d'indicateurs de qualité pour les statistiques des entreprises, à partir de données administratives : résultat d'une collaboration à l'échelle de l'Europe
Daniel Lewis et John-Mark Frost, Office for National Statistics, Royaume-Uni

Du fait de l'utilisation croissante des données administratives pour la production de statistiques sur les entreprises, les producteurs de statistiques doivent déterminer comment évaluer la qualité. Un projet à l'échelle de l'Europe (ESSnet Admin Data) a été créé pour aider les producteurs de statistiques officielles à relever ce défi, grâce à l'élaboration d'indicateurs de qualité pour les statistiques sur les entreprises faisant intervenir des données administratives. L'équipe, dont les membres proviennent d'un certain nombre d'instituts nationaux de statistique (INS), a élaboré :

  • une liste d'indicateurs de qualité de base, y compris des indicateurs quantitatifs et des indicateurs qualitatifs complémentaires;
  • un ensemble d'indicateurs composites, qui regroupe les indicateurs de qualité de base en « thèmes » correspondant aux dimensions européennes de la qualité des produits, afin de fournir un aperçu plus global de la qualité des produits statistiques; et
  • des lignes directrices concernant l'exactitude des statistiques de source mixte (données d'enquête et données administratives).

Ceux-ci peuvent être mis en œuvre dans le cadre d'un système de gestion de la qualité, en vue d'évaluer et d'améliorer la qualité, et peuvent aussi être utilisés pour informer les utilisateurs de la qualité des statistiques produites.

Cet exposé passera en revue les résultats globaux du projet et réunira les trois principaux éléments qui, à notre avis, fournissent une ressource utile aux producteurs de statistiques. L'exposé fournira aussi des renseignements concernant les autres travaux d'ESSnet Admin Data, y compris les méthodes élaborées et déterminées comme représentant des pratiques exemplaires pour aider les INS à maximiser leur utilisation des données administratives.

Séance 9B – Échantillonnage et estimation

Le nouveau système généralisé d'échantillonnage G-Sam
Carlos Leon, Statistique Canada

Dans les dernières années plusieurs des systèmes informatiques faisant partie du programme des systèmes généralisés de Statistique Canada ont bénéficié d'importantes cures de rajeunissement. Ainsi l'ancien GSAM/SGE a fait peau neuve pour devenir G-Sam, qui offre plusieurs nouvelles fonctionnalités telles la sélection et la coordination des échantillons, la stratification et la répartition optimales. Au cours de cette présentation nous ferons une visite guidée des différents modules G-Sam, de la méthodologie sous-jacente jusqu'aux questions pratiques d'utilisation dans un environnement de production, en passant par les méthodes de recherche opérationnelle utilisées ainsi qu' une démonstration en temps réel des capacités du système.

Méthodologie du fichier de microdonnées à grande diffusion de l'Enquête nationale auprès des ménages de 2011 – « Comment établir un équilibre entre les plus grands besoins d'information et les exigences de faible risque de divulgation dans les microdonnées? »
William Liu et François Verret, Statistique Canada

L'Enquête nationale auprès des ménages (ENM) de 2011 est une enquête volontaire qui a remplacé le traditionnel questionnaire détaillé obligatoire du Recensement canadien de la population. Dans le cadre de l'ENM, on a échantillonné environ 30 % des ménages canadiens et on a obtenu un taux de réponse non pondéré de 69 %. En comparaison, le formulaire détaillé de l'ancien recensement a été envoyé à 20 % des ménages et a obtenu un taux de réponse de 94 %. À partir des données du formulaire détaillé, deux fichiers de microdonnées à grande diffusion (FMGD) sont habituellement produits : le FMGD individuel et le FMGD hiérarchique. Les deux fournissent des renseignements sur les personnes, mais le FMGD hiérarchique fournit aussi des renseignements sur le ménage et les rapports familiaux entre les personnes. Afin de produire deux FMGD qui couvrent l'ensemble du pays également et qui ne se chevauchent pas, on a appliqué une stratégie spéciale de sous-échantillonnage. Dans les analyses de la confidentialité, la difficulté a augmenté de façon marquée dans la production de 2011, en raison des nombreuses nouvelles variables, des données géographiques plus détaillées et de la nature volontaire de l'ENM. Cet exposé décrira la méthodologie du FMGD de l'ENM de 2011 et l'équilibre qu'il comporte entre les plus grands besoins d'information et les exigences de faible risque de divulgation dans les microdonnées.

Étude du plan de sondage « produit » à partir de l'exemple de l'enquête Elfe
Guillaume Chauvet, Ecole Nationale de la Statistique et de l'Analyse de l'Information (Crest/Ensai), France; Hélène Juillard et Anne Ruiz-Gazen, Université Toulouse, France

L'Etude Longitudinale Française depuis l'Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion à la maternité. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l'un des 25 jours répartis parmi les quatre saisons de l'année 2011, ont été sélectionnés. Cet échantillon est le résultat d'un plan de sondage non standard que nous appelons échantillonnage produit et qui se présente, pour cette enquête, sous la forme du croisement de deux échantillonnages indépendants : celui des maternités et celui des jours. Si l'on peut facilement imaginer un effet grappe dû à l'échantillonnage de maternités, on peut aussi imaginer un effet grappe dû à l'échantillonnage des jours. Contrairement au plan de sondages à deux degrés classique, le plan produit ne vérifie pas la propriété d'indépendance.

Nous proposons une étude approfondie et générale du plan produit et de l'estimation de paramètres simples et complexes pour ce plan. L'estimation de la variance est aussi étudiée en détail avec des propositions et comparaisons d'estimateurs de variance simplifiés. Le cas où les deux plans d'échantillonnage sont des plans aléatoires simples sans remise ou stratifiés aléatoires simples sans remise est notamment considéré. Nous envisageons enfin la comparaison entre le plan produit et le plan à deux degrés classique d'un point de vue théorique mais aussi en utilisant des simulations.

Optimisation de la taille de l'échantillon au moyen de données de bases de sondage
Noriki Armando Ibarra Medina, Instituto Nacional de Estadistica y Geographia, Mexique

Lorsque l'on conçoit une enquête par échantillon probabiliste, on devrait accorder une attention spéciale à la sélection des unités d'échantillonnage, afin qu'elles soient parfaitement déterminées et que les variables d'enquête puissent être mesurées. Une méthode de sélection de l'échantillon, ainsi qu'une taille d'échantillon, seront nécessaires pour tenter de déterminer les unités d'échantillonnage qui seront incluses dans l'échantillon. Le calcul de la taille de l'échantillon tient aussi compte des rajustements pour la non-réponse, ce qui fait que même s'il existe des unités pour lesquelles il n'est pas possible d'obtenir des observations des variables à l'étude, des données suffisantes peuvent être mesurées concernant les unités qui restent, afin d'assurer la conformité avec le plan d'échantillonnage proposé.

L'Institut national de statistique et de géographie (INEGI, Mexique) conçoit de telles enquêtes par échantillon, dans lesquelles la sélection des échantillons fondée sur une base d'échantillonnage (logements) est intégrée à des grappes de logements et comprend cinq panels; un panel particulier est mis à jour tous les trois mois, tandis que les autres demeurent fixes. À l'intérieur de chaque grappe, le type de logement (habité ou inhabité) est mis à jour. Ainsi, tous les panels comportent des périodes de référence de mise à jour différentes.

Les dynamiques du type de logement (changements entre les types de logements) augmenteront au fil du temps, ce qui fait qu'un rajustement de la taille effective de l'échantillon est proposé :

formule

où :

ci := nombre de corrections, c'est-à-dire le taux de réponse attendu pour les logements sélectionnés à l'intérieur d'un panel particulier comportant i périodes trimestrielles périmées depuis la dernière mise à jour. Cela est fondé sur des statistiques historiques et des séries chronologiques pour différents taux de réponse attendus, sur la base de la période de panel de mise à jour.

ni := logements sélectionnés à l'intérieur des panels comportant i périodes trimestrielles périmées depuis la dernière mise à jour.

Par conséquent, il sera possible d'établir le budget des économies potentielles découlant des réductions du calcul de la taille de l'échantillon.

Organisation de collecte et d'appariement de données pour la surveillance épidémiologique des travailleurs potentiellement exposés aux nanomatériaux en France (EpiNano)
Delphine Jezewski-Serra, Laurène Delabre, Stéphane Ducamp, Yuriko Iwatsubo et Irina Guseva Canu, Institut de Veille Sanitaire, France

Le dispositif de surveillance EpiNano développé actuellement au sein du département Santé Travail de l'Institut de Veille Sanitaire (InVS) consiste à mettre en place une cohorte prospective afin de suivre l'évolution de l'état de santé des personnes pouvant être exposées professionnellement aux nanomatériaux manufacturés.

Ce dispositif est basé, dans un premier temps, sur le recueil de données d'hygiène industrielle afin de caractériser l'exposition aux nanomatériaux des différents postes de travail au sein des entreprises. Ces données, saisies par le biais de questionnaires électroniques par des hygiénistes industriels, seront ensuite croisées avec les données issues des auto-questionnaires complétées par les cohortistes (type et conditions de travail, utilisation d'équipement de protection individuelle, santé déclarée…). Les données ainsi collectées seront ensuite appariées (après anonymisation des personnes) avec les données de santé des bases médico-administratives nationales (bases de l'assurance maladie (Sniiram), des hospitalisations (PMSI) et des certificats de décès (CépiDc)). Cela permettra un suivi passif des évènements de santé. Des questionnaires de suivi seront soumis régulièrement aux participants. Afin de gagner en réactivité ainsi qu'en rapidité de traitement de l'information collectée, il est prévu que le recueil de données s'effectue sous format électronique.

La constitution de la cohorte devrait durer 3 ans et son suivi généraliste s'étendra, au minimum, sur 20 ans. La mise en place d'études ad hoc explorant des hypothèses de recherche spécifiques par des équipes extérieures à l'InVS est envisagée.

Nous espérons pouvoir suivre, à terme, environ 2 000 travailleurs potentiellement exposés aux nanomatériaux manufacturés en France afin d'identifier les possibles effets sur la santé à moyen et long terme d'une exposition professionnelle aux nanomatériaux.

Séance 10A – Méthodes alternatives d'échantillonnage

Inférence et diagnostics pour les données provenant d'un échantillonnage déterminé selon le répondant
Krista J. Gile, University of Massachusetts, Amherst, États-Unis

L'échantillonnage déterminé selon le répondant est un genre d'échantillonnage en réseau par dépistage de liens, qui est utilisé pour étudier les populations difficiles à joindre. À partir d'un échantillon de convenance, chaque personne échantillonnée reçoit deux ou trois coupons comportant un numéro d'identification unique à distribuer à d'autres membres de la population cible, ce qui les rend admissibles à l'étude. Cette méthode est efficace pour recueillir des données auprès de vastes échantillons diversifiés de nombreuses populations.

Malheureusement, l'échantillonnage est affecté par les nombreuses caractéristiques du réseau et du processus. Dans cet exposé, nous présentons les progrès réalisés au chapitre des diagnostics d'échantillon pour ces caractéristiques, ainsi que les progrès de l'inférence tenant compte de ces caractéristiques.

L'estimation à partir d'enquêtes non probabilistes et la question de la validité externe
Jill A. Dever, RTI International, États-Unis

Les plans d'échantillonnage probabilistes, c'est-à-dire ceux reposant sur des échantillons tirés de la population cible au moyen d'un mécanisme aléatoire connu, sont considérés par de nombreuses personnes comme la norme par excellence pour les enquêtes. La théorie existe depuis le début des années 1930 et sert à produire des estimations démographiques à partir de ces échantillons, sous les désignations suivantes : estimation fondée sur le plan de sondage, estimation fondée sur la randomisation et estimation fondée sur un modèle.

L'échantillonnage probabiliste comporte deux exigences clés, à savoir : 1) le couplage de l'échantillon et de la population cible est connu, et 2) toute non-réponse découlant de l'échantillon est sans conséquence. Dans le premier cas, on utilise les poids de base calculés selon la probabilité inverse de sélection. Dans le deuxième cas, on suppose que les unités échantillonnées non répondantes sont manquantes au hasard, à tout le moins une fois que les poids de base ont été corrigés. Les deux exigences sont nécessaires pour que la validité externe des estimations ne soit pas compromise. Le problème de la non-réponse de plus en plus grande aux enquêtes probabilistes, toutefois, fait partie des critiques qu'il n'est pas facile de réfuter. Entre en jeu l'échantillonnage non probabiliste.

Les études non probabilistes suscitent une attention particulière depuis quelques années, mais elles ne sont pas nouvelles. Ces enquêtes, qui sont considérées comme étant moins coûteuses, plus rapides (voire meilleures) que les plans d'échantillonnage avec probabilité, permettent de saisir les données des participants au moyen de diverses méthodes, comme des enquêtes par panel à participation volontaire. Il faut à la fois se pencher sur le couplage et sur la probabilité de participation à l'enquête pour répondre à la question de la validité externe.

Cette communication résume d'abord les travaux effectués jusqu'à ce jour concernant les analyses à partir de plans d'échantillonnage non probabilistes et leurs répercussions sur la validité externe. Dans cette optique, nous élargissons la recherche en fournissant des conditions de mise en garde lorsque la validité externe est de toute évidence en question et, de même, lorsqu'elle ne l'est pas.

Examen de quelques caractéristiques de l'échantillonnage équilibré en sondage
Guillaume Chauvet, CREST-ENSAI Ecole Nationale de la Statistique et de l'Analyse de l'Information, France; David Haziza, Université de Montréal, Canada et Éric Lesage, CREST-ENSAI Ecole Nationale de la Statistique et de l'Analyse de l'Information, France

L'échantillonnage équilibré a suscité une attention marquée ces dernières années. Il existe de nombreux algorithmes permettant de sélectionner un échantillon équilibré ou approximativement équilibré. On peut répartir ces algorithmes en deux grandes familles : la méthode du Cube (Deville and Tillé, 2004) et les méthodes réjectives. L'intérêt de ces méthodes est d'éviter la sélection d'échantillons jugés indésirables au regard de l'information auxiliaire et de réduire la variance de l'estimateur du total de la variable d'intérêt lorsque cette dernière est corrélée aux variables auxiliaires utilisées dans les contraintes d'équilibrage.

Pour les méthodes réjectives, les probabilités d'inclusion sont complexes et inconnues mais la qualité de l'équilibrage est contrôlée. A l'inverse, pour la méthode du Cube, les probabilités d'inclusion sont fixées a priori et respectées, par contre, l'équilibrage est moins bien contrôlé.

Dans cette présentation, nous discutons des propriétés de plusieurs procédures d'estimation associées au tirage réjectif de Fuller (Fuller, 2009) et à la méthode du Cube et commentons les résultats d'une étude par simulation.

Séance 10B – Microsimulations 2

Simario : un progiciel R pour la microsimulation dynamique
Jessica McLay, Oliver Mannion, Janet Pearson et Barry Milne, University of Auckland, Nouvelle-Zélande

Il existe une gamme variée de logiciels et de langages de programmation qui sont utilisés pour la microsimulation. Simario est le premier progiciel R créé pour effectuer de la microsimulation dynamique. Simario comprend un ensemble de fonctions R qui permettent d'établir une microsimulation dynamique (ou non dynamique). R est réputé pour la manipulation des données, le langage étant construit en fonction de vecteurs, de matrices, de tableaux, de listes et d'objets. Il est aussi réputé pour la simulation facile à partir de nombreuses distributions statistiques, binomiale, normale, Poisson, binomiale négative et ainsi de suite. Ces capacités sont exploitées, afin de créer un cadre souple pour la microsimulation. On utilise un modèle de microsimulation simple pour démontrer comment utiliser les fonctions de Simario pour créer une microsimulation qui fonctionne. Le processus englobe tous les aspects de la programmation d'un modèle de microsimulation, y compris : la population de départ, les fichiers de définition des variables, l'inclusion de probabilités de transition et d'estimations de paramètres à partir de modèles statistiques, la simulation de différents types de variables au fil du temps, le résumé de données d'exécution individuelles, le regroupement de sommaires d'exécutions multiples, les fonctions de consultation des résultats et l'exécution de scénarios « qu'arriverait il si ». Les caractéristiques particulières du cadre Simario sont mentionnées, y compris la souplesse des estimations de paramètres et de la manipulation des variables, la capacité d'exécuter des scénarios en changeant la distribution d'une variable dans la population, la capacité d'exécuter des scénarios relativement à un sous-groupe de la population et des fonctions particulières pour consulter les résultats de la simulation pour tout sous-groupe précisé par l'utilisateur. On fait aussi état des limites actuelles de Simario. On s'attend à ce que le progiciel Simario soit publié dans le site Web de CRAN, à la fin de 2014.

Le modèle de projections démographiques Demosim : mise à jour et nouveaux développements
Éric Caron-Malenfant, Statistique Canada

Demosim est un modèle de microsimulation de Statistique Canada qui, prenant pour point de départ les microdonnées des recensements de la population, a été conçu pour effectuer des projections de la population selon diverses caractéristiques (groupe de minorités visibles, identité autochtone, scolarité, etc.) pour une sélection de régions géographiques comprenant les régions métropolitaines de recensement et les réserves indiennes. Tenant compte de manière dynamique d'une gamme étendue de caractéristiques associées à l'occurrence des événements simulés, il a mené notamment à la diffusion des Projections de la diversité de la population canadienne, 2006-2031 et des Projections de la population selon l'identité autochtone, 2006-2031.

L'objectif de la communication proposée est de présenter un aperçu des nouveaux développements qui seront implantés dans Demosim aux fins des nouvelles projections démographiques effectuées avec ce modèle dans un contexte de partenariat avec d'autres ministères fédéraux. Outre la mise à jour de la population de base du modèle au moyen des microdonnées de l'Enquête nationale auprès des ménages de 2011, les nouveaux développements comprennent : l'ajout de nouvelles régions géographiques, de nouvelles variables (catégories d'admission des immigrants, familles et ménages autochtones, variables linguistiques) et de nouveaux événements permettant la projection de ces variables. De plus, cette communication présentera les possibilités qu'offre l'usage de nouvelles sources de données telles que des appariements de fichiers pour la constitution de certains des paramètres du modèle, comme ceux relatifs aux changements de niveaux de scolarité et aux changement de déclaration de l'identité autochtone au cours de la vie.

Relation entre la scolarité et la participation au marché du travail chez les peuples autochtones : analyse de simulation effectuée à l'aide du modèle de projections démographiques Demosim
Martin Spielauer, Statistique Canada

Cette étude vise à quantifier l'incidence des niveaux de scolarité sur la participation des peuples autochtones au marché du travail dans l'avenir. À l'aide du modèle de projections démographiques Demosim de Statistique Canada, nous sommes en mesure de simuler divers scénarios de variation de la scolarité et les effets qui en découlent sur la population active jusqu'en 2056. Environ la moitié des différences observées dans les taux de participation au marché du travail entre les Autochtones et les personnes nées au Canada qui n'appartiennent ni à un peuple autochtone, ni à un groupe de minorité visible peut être attribuée aux différences dans le niveau de scolarité. Selon un scénario de « croissance moyenne-tendance récente », au cours des quatre prochaines décennies la croissance de la population des Autochtones entraînera une augmentation de 45 % de la taille de sa population active si les différences relatives dans les niveaux de scolarité persistent. Pour ce qui est des scénarios de scolarité comblant les écarts, ce chiffre pourrait connaître une augmentation de près de 70 %. Parallèlement, il semble que la composition de la population active autochtone sera extrêmement différente dans l'avenir. Bien que l'incidence de l'accroissement de la scolarité sur la population active future soit importante, il a été déterminé que le changement serait lent et graduel, les jeunes cohortes successives d'âge scolaire n'ayant pas encore accédé au marché du travail et renouvelé la population active.

Projection des familles et ménages autochtones et non autochtones à l'aide du modèle de projections démographiques Demosim
Jean-Dominique Morency, Statistique Canada

Dans le cadre de cette présentation, nous proposons de présenter le fonctionnement d'un nouveau module permettant de projeter les familles et les ménages autochtones et non autochtones à l'aide du modèle de projections démographiques Demosim. Bien que des projections des familles et ménages autochtones et non autochtones – dans le cadre d'exercices de projections distincts – aient déjà été réalisées dans le passé, il s'agit de la première fois au Canada que des projections de familles et de ménages autochtones et non autochtones sont réalisés de manière simultanée – Demosim projetant l'ensemble de la population canadienne – et qu'elles sont réalisées à l'aide d'un modèle par microsimulation.

Après avoir présenté les objectifs de ces projections, nous nous attarderons, dans un premier temps, à définir ce que nous entendons par famille et ménage autochtone et non autochtone. Dans un second temps, nous détaillerons la méthodologie utilisée pour réaliser les projections : attribution des caractéristiques des familles et des ménages à chaque personne dans la population de base et application de taux de personne repère de la famille et des taux de soutiens de ménage pour obtenir un décompte du nombre de familles et ménages pour chaque année de projection.

Projections de la population active au moyen de Demosim : nouveaux développements
Laurent Martel, Statistique Canada

Populaires auprès des médias et des institutions bancaires et financières, les projections de la population active réalisées au moyen du modèle de microsimulation Demosim présente l'avantage de pouvoir tenir explicitement compte des changements futurs dans la composition de la population à l'égard de l'éducation et de la diversité ethnoculturelle. Demosim permet également de réaliser des études de sensibilité uniques, par exemple de mesurer l'effet sur la participation au marché du travail dans l'avenir d'une hausse du niveau de scolarité de certaines populations, ou encore d'une meilleure intégration économique des immigrants.

Le but de cette présentation est de montrer les nouveaux développements proposés en matière de population active dans le cadre de la mise à jour du modèle Demosim sur la base des données de l'Enquête nationale auprès des ménages. Plus précisément, on montrera les méthodes permettant de calculer les différentiels dans les taux de participation au marché du travail pour diverses variables: éducation, statut d'immigrant, de minorité visible et autochtone, régions incluant les réserves indiennes, lieu de naissance, etc. De plus, on montrera comment les récents appariements de données permettent d'améliorer ce module de Demosim, notamment en rendant possible l'ajout de variables non présentes dans l'ENM comme par exemple la catégorie d'immigrants, une variable clef de l'intégration économique des immigrants.

Séance 11 – Approches d'inférence dans les sondages

Le recours au calage bayésien pour la conception et l'analyse
Donald B. Rubin, Harvard University, États-Unis

Certains statisticiens préconisent le recours au modèle bayésien pour l'élaboration de procédures et de caractéristiques opérationnelles fréquentistes afin de veiller à ce que des procédures données soient calées selon un éventail de situations réalistes. Dans cette communication, nous appuyons l'utilisation de cette approche à l'étape de la conception, c'est-à-dire avant que les données n'aient effectivement été recueillies et observées. Cependant, nous distinguons ce type de calage de celui, plus raffiné et reposant sur des conditions, que doit utiliser le statisticien après avoir vu les données et sélectionné des procédures sur lesquelles se fonder pour tirer des conclusions à leur sujet.

Discussion
J.N.K. Rao, Carleton University, Canada
Ray Chambers, National Institute for Applied Statistics Research Australia (NIASRA), University of Wollongong, Australie

Séance de présentation par affiches

Le codage automatique des professions
Arne Bethmann, Manfred Antoni, Malte Schierholz, Markus Zielonka, Daniel Bela et Knut Wenzig, Institute Institut de recherche sur l'emploi (IAB), Allemagne

Au cours des dernières années, plusieurs études par panel à grande échelle réalisées en Allemagne ont fait ressortir la nécessité du codage des questions d'enquête ouvertes sur les professions des répondants (p. ex. NEPS, SOEP et PASS). Jusqu'à présent, le codage des professions en Allemagne se fait principalement de façon semi-automatique, au moyen d'approches fondées sur le dictionnaire, avec codage manuel subséquent des cas qui n'ont pas pu être codés automatiquement.

Comme le codage manuel des professions génère des coûts considérablement plus élevés que le codage automatique, il est très souhaitable, du point de vue du coût des enquêtes, d'augmenter la proportion de codage qui peut être effectué automatiquement. Parallèlement, la qualité du codage revêt une importance primordiale et doit être examinée de près. La qualité du codage automatique devrait au moins correspondre à celle du codage manuel afin que les économies de coût ne se fassent pas au détriment de l'exactitude de l'information. Du point de vue de l'erreur d'enquête totale, cela libérerait des ressources consacrées précédemment à la réduction de l'erreur de traitement et permettrait de les utiliser pour réduire d'autres sources d'erreur.

Contrairement aux approches fondées sur le dictionnaire, qui sont utilisées principalement pour le codage automatique des professions dans les enquêtes allemandes, nous utiliserons différents algorithmes d'apprentissage automatique (p. ex. estimateur naïf bayésien ou k des plus proches voisins). Étant donné que nous avons à notre disposition un très grand nombre de professions codées manuellement dans le cadre d'études récentes, nous les utiliserons comme données de formation pour la classification automatique. Cela nous permettra d'évaluer le rendement, la qualité et, par conséquent, la faisabilité des algorithmes d'apprentissage automatique pour le codage automatique des questions d'enquête ouvertes sur les professions.

Le couplage sécuritaire d'enregistrements : chiffrement, appariement, analyse
Aleksander Essex, Western University; Khaled El Emam, CHEO Research Institute; Luk Arbuckle, Privacy Analytics; Matthew Tucciarone, CHEO Research Institute, Canada

Imaginez que vous souhaitez trouver des enregistrements dans un ensemble de données auquel vous n'avez pas accès parce que vous n'avez pas le consentement ou les pouvoirs appropriés. Vous ne voulez pas non plus que le détenteur des données, ou un tiers, sache ce que vous cherchez, alors il n'est pas possible de leur demander les enregistrements. Vous voulez trouver Pierre Untel, vous ne voulez pas que le détentenur de données sache que vous le cherchez, et cela vous est égal de savoir si Pierrette Unetelle est dans l'ensemble de données. Vous pourriez souhaiter coupler des enregistrements à des fins de recherche, de détection de fraude, d'élimination des doubles ou de surveillance. Toutefois, sans façon de regrouper ces enregistrements tout en assurant la confidentialité et la protection des données de nature délicate, il vous sera difficile de partager les données entre des organisations.

Qu'arriverait-il si vous pouviez trouver ces enregistrements, sans voir les autres enregistrements qui ne vous intéressent pas et sans divulguer au détenteur des données ce que vous souhaitez trouver? Cela peut être fait avec un niveau élevé de sécurité au moyen de systèmes de chiffrement à clé publique et, plus particulièrement, le chiffrement homomorphique, seuls les appariements devant être renvoyés et déchiffrés par le demandeur des données. On n'a recours à aucun tiers sécurisé et aucune donnée n'est déchiffrée, sauf par le demandeur. Un tiers semi-sécurisé sert de détenteur des clés, mais tout ce qu'il apprend dans le cadre de sa participation à un couplage sécuritaire d'enregistrements est le nombre d'enregistrements appariés entre les deux ensembles de données. Nous utiliserons une étude de cas pour expliquer le protocole.

L'influence des intervieweurs sur le biais dans le revenu déclaré
Manfred Antoni, Basha Vicari et Daniel Bela, Institut de recherche sur l'emploi (IAB), Allemagne

Des questions sur des sujets délicats comme le revenu donnent souvent lieu à des taux relativement élevés de non-réponse partielle ou d'erreur de mesure. Plusieurs analyses ont été effectuées au sujet de la non-réponse partielle, mais on sait peu de choses sur les réponses erronées. Parmi les explications possibles de ces réponses erronées figure le biais de désirabilité sociale, qui peut entraîner une surdéclaration des attributs souhaitables ou une sous-déclaration des attributs non souhaitables. Toutefois, un intervieweur compétent peut empêcher un tel comportement. Nous examinons l'influence des caractéristiques du répondant et de l'intervieweur sur l'exactitude du revenu déclaré.

À partir de données d'enquête et de données administratives couplées, nous pouvons déterminer la portée du biais de désirabilité sociale dans les revenus déclarés. Les données de l'étude nationale par panel sur l'éducation en Allemagne (NEPS) sert de point de départ pour le couplage. Outre les données d'enquête, la NEPS fournit des paradonnées riches, y compris les caractéristiques de l'intervieweur et des données sur le contexte. Environ 90 % des répondants ont consenti à un couplage de leurs données d'enquête et de données administratives de l'agence d'emploi fédérale de l'Allemagne. Ces données longitudinales sur les gains sont très fiables, étant donné qu'elles sont fondées sur des avis obligatoires des employeurs au système de sécurité sociale. Les sources de données ont été combinées au moyen de techniques de couplage d'enregistrements pour des identificateurs non uniques.

Nous incluons les caractéristiques de l'intervieweur et du répondant, ainsi que leurs interactions, dans notre modèle, afin d'estimer leur influence respective sur l'incidence et la taille du biais dans les revenus déclarés. Cela nous permet de contrôler les caractéristiques latentes de l'intervieweur qui pourraient avoir influencé le comportement de réponse du répondant, pendant chaque interview d'un intervieweur donné.

L'indice des prix des services bancaires d'investissement : une nouvelle approche pour l'utilisation des données administratives
Min Xie, Nael Hajjar et Lucy Opsitnik, Statistique Canada

L'Indice des prix des services bancaires d'investissement (IPSBI) mesurera les changements dans les prix des services bancaires d'investissement, afin de déflater la production des services bancaires d'investissement (qui font partie du SCIAN 52311). Les services bancaires d'investissement comprennent la souscription de titres (dette et capitaux propres), ainsi que les services consultatifs de fusion et d'acquisition (F & A).

Ce secteur est très réglementé au Canada, et les entreprises cotées en bourse doivent déclarer les nouvelles émissions et les fusions et acquisitions, ce qui fait qu'une somme considérable de données administratives sont disponibles. Certaines organisations privées, comme Bloomberg et Financial Post, suivent ces activités par l'entremise de sources de réglementation, comme le Système for Electronic Document and Retrieval (SEDAR), ainsi que les annonces des sociétés. Ces données sont catégorisées dans des bases de données longitudinales qui sont mises à la disposition du public au moyen d'abonnements. Afin d'élaborer un indice de prix pour les activités de l'industrie et d'assurer une couverture suffisante, plusieurs options sont disponibles, y compris : l'utilisation de données administratives exclusivement, un mélange de données administratives et d'approches fondées sur un modèle ou une approche fondée sur un modèle.

Cet exposé porte sur ces options et examine la pertinence et l'utilité des données administratives disponibles. Tout d'abord, nous présentons une analyse de l'industrie de trois points de vue : activité de l'industrie, SCIAN et production du SCN. Puis nous examinons les données administratives disponibles, la couverture et les limites. Ensuite, nous résumons les options pour l'élaboration d'indices de prix à partir des données administratives disponibles, et nous examinons les limites, tout en proposant des stratégies d'atténuation (quand prendre en compte des données supplémentaires et comment les intégrer). Cette approche mixte va au-delà des enquêtes traditionnelles et explore une option de rechange à l'approche d'établissement de prix selon un modèle, afin de créer ce nouvel indice de prix des services financiers au Canada.