Techniques d’enquête

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Décembre 2014

La revue Techniques d'enquête Volume 40, numéro 2 (décembre 2014) comprend les 11 articles suivants :

Article sollicité Waksberg :

Des modes multiples pour les enquêtes à des sources de données multiples pour les estimations

Constance F. Citro

Résumé

Les utilisateurs et les fournisseurs de statistiques officielles, ainsi que ceux qui en assurent le financement, veulent des estimations « plus vastes, plus approfondies, plus rapides, de meilleure qualité et moins coûteuses » (selon Tim Holt, ancien chef de l’Office for National Statistics du Royaume-Uni), attributs auxquels j’ajouterais « plus pertinentes » et « moins fastidieuses ». Depuis la Deuxième Guerre mondiale, nous dépendons dans une large mesure des enquêtes sur échantillon probabiliste - celles-ci étant très bonnes dans les faits - pour atteindre ces objectifs pour les estimations dans de nombreux domaines, y compris le revenu des ménages et le chômage, l’état de santé autodéclaré, l’emploi du temps, les victimes d’actes criminels, l’activité des entreprises, les flux de produits, les dépenses des consommateurs et des entreprises, etc. Par suite des taux de plus en plus faibles de réponse totale et partielle et des preuves d’erreur de déclaration, nous avons réagi de nombreuses façons, y compris en utilisant des modes d’enquête multiples, des méthodes de pondération et d’imputation plus raffinées, l’échantillonnage adaptable, des essais cognitifs des questions d’enquête et d’autres méthodes pour maintenir la qualité des données. Dans le cas des statistiques sur le secteur des entreprises, afin de réduire le fardeau et les coûts, nous avons cessé depuis longtemps de recourir uniquement à des enquêtes pour produire les estimations nécessaires, mais jusqu’à présent, nous ne l’avons pas fait pour les enquêtes auprès des ménages, du moins pas aux États-Unis. Je soutiens que nous pouvons et que nous devons passer du paradigme de production des meilleures estimations possible à partir d’une enquête à la production des meilleures estimations possible pour répondre aux besoins des utilisateurs, à partir de sources de données multiples. Ces sources comprennent les dossiers administratifs et, de plus en plus, des données sur les transactions et des données en ligne. Je me sers de deux exemples - ceux du revenu des ménages et des installations de plomberie - pour illustrer ma thèse. Je propose des moyens d’inculquer une culture de la statistique officielle dont l’objectif est d’aboutir à des statistiques pertinentes, à jour, exactes et peu coûteuses, et qui traite les enquêtes, de même que les autres sources de données, comme des moyens d’atteindre cet objectif.

Articles réguliers :

Approches fréquentiste et bayésienne pour comparer les composantes de la variance de l’intervieweur dans deux groupes d’intervieweurs d’enquête

Brady T. West et Michael R. Elliott

Résumé

Les méthodologistes d’enquête étudient depuis longtemps les effets des intervieweurs sur la variance des estimations d’enquête. Les modèles statistiques tenant compte des effets aléatoires des intervieweurs sont souvent intégrés à ce genre d’études, et l’intérêt de la recherche repose sur l’ampleur de la composante de la variance de l’intervieweur. Une question peut se poser au cours d’une étude méthodologique : différents groupes d’intervieweurs (p. ex. ceux ayant de l’expérience relative à une enquête donnée par rapport aux nouvelles recrues, ou les intervieweurs IPAO par rapport aux intervieweurs ITAO) ont-ils des composantes de variance considérablement différentes dans ces modèles? Des écarts importants peuvent indiquer un besoin de formation supplémentaire pour certains sous-groupes, les propriétés moins optimales de différents modes ou styles d’interview pour certaines questions d’enquête (en ce qui concerne l’erreur quadratique moyenne globale des estimations d’enquête). Les chercheurs d’enquête désirant des réponses à ces types de questions disposent de différents outils statistiques. Le présent article cherche à fournir un aperçu des approches fréquentiste et bayésienne de rechange de la comparaison des composantes de la variance dans différents groupes d’intervieweurs d’enquête, au moyen d’un cadre de modélisation linéaire généralisée hiérarchique qui tient compte de différents types de variables d’enquête. Nous considérons d’abord les avantages et les limites de chaque approche, en comparant les méthodes utilisées pour l’estimation et l’inférence. Nous présentons ensuite une étude de simulation, en évaluant de façon empirique la capacité de chaque approche d’estimer efficacement les différences entre les composantes de la variance. Nous appliquons alors les deux approches à une analyse des données d’enquête réelles recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États-Unis. Nous concluons que les deux approches ont tendance à donner des inférences très semblables et nous présentons des suggestions à mettre en pratique, compte tenu des différences subtiles observées.

L’agrégation bootstrap des estimateurs non différenciables dans les enquêtes complexes

Jianqiang C. Wang, Jean D. Opsomer et Haonan Wang

Résumé

L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

Imputation fractionnaire hot deck pour une inférence robuste sous un modèle de non-réponse partielle en échantillonnage

Jae Kwang Kim et Shu Yang

Résumé

L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

Gains possibles lors de l’utilisation de l’information sur les coûts au niveau de l’unité dans un cadre assisté par modèle

David G. Steel et Robert Graham Clark

Résumé

Quand nous élaborons le plan de sondage d’une enquête, nous essayons de produire un bon plan compte tenu du budget disponible. L’information sur les coûts peut être utilisée pour établir des plans de sondage qui minimisent la variance d’échantillonnage d’un estimateur du total pour un coût fixe. Les progrès dans le domaine des systèmes de gestion d’enquête signifient qu’aujourd’hui, il est parfois possible d’estimer le coût d’inclusion de chaque unité dans l’échantillon. Le présent article décrit l’élaboration d’approches relativement simples pour déterminer si les avantages pouvant découler de l’utilisation de cette information sur les coûts au niveau de l’unité sont susceptibles d’avoir une utilité pratique. Nous montrons que le facteur important est le ratio du coefficient de variation du coût sur le coefficient de variation de l’erreur relative des coefficients de coût estimés.

Solutions optimales dans les problèmes de sélection contrôlée avec stratification à deux dimensions

Sun Woong Kim, Steven G. Heeringa et Peter W. Solenberger

Résumé

Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

Estimations composites harmonisées issues d’échantillons chevauchants pour les taux de croissance et les totaux

Paul Knottnerus

Résumé

Lorsque les enquêtes mensuelles auprès des entreprises ne sont pas entièrement chevauchantes, il existe deux estimateurs différents du taux de croissance mensuelle du chiffre d’affaires, i) l’un fondé sur les totaux de population estimés mensuellement et ii) l’autre fondé purement sur les entreprises observées aux deux occasions dans la partie chevauchante des enquêtes correspondantes. Les estimations et les variances résultantes pourraient être assez différentes. Le présent article a pour but de proposer un estimateur composite optimal du taux de croissance, ainsi que des totaux de population.

L’estimation des flux bruts dans les enquêtes complexes avec non-réponse aléatoire

Andrés Gutiérrez, Leonardo Trujillo et Pedro Luis do Nascimento Silva

Résumé

Les enquêtes par panel à renouvellement servent à calculer des estimations des flux bruts entre deux périodes consécutives de mesure. Le présent article examine une procédure générale pour estimer les flux bruts lorsque l’enquête par panel à renouvellement a été générée à partir d’un plan de sondage complexe avec non-réponse aléatoire. Une approche à pseudo-maximum de vraisemblance est envisagée dans le contexte d’un modèle à deux degrés de chaînes de Markov pour le classement des personnes dans les catégories de l’enquête et pour la modélisation de la non-réponse.

Tests du khi-carré dans les enquêtes à base de sondage double

Yan Lu

Résumé

Afin d’obtenir une meilleure couverture de la population d’intérêt et de réduire les coûts, un certain nombre d’enquêtes s’appuient sur un plan à base de sondage double, suivant lequel des échantillons indépendants sont tirés de deux bases de sondage chevauchantes. La présente étude porte sur les tests du khi-carré dans les enquêtes à base de sondage double en présence de données catégoriques. Nous étendons le test de Wald généralisé (Wald 1943), ainsi que les tests avec correction d’ordre un et correction d’ordre deux de Rao-Scott (Rao et Scott 1981) pour passer d’une enquête à base de sondage unique à une enquête à base de sondage double, et nous déterminons les distributions asymptotiques. Des simulations montrent que les deux tests avec correction de type Rao-Scott donnent de bons résultats, et il est donc recommandé de les utiliser dans les enquêtes à base de sondage double. Un exemple sert à illustrer l’utilisation des tests élaborés.

Communications brèves :

Méthodes d'estimation sur bases de sondage multiples dans le cadre de plans de sondage à deux degrés

Guillaume Chauvet et Guylène Tandeau de Marsac

Résumé

Lorsqu'on s'intéresse à une population finie, il arrive qu'il soit nécessaire de tirer des échantillons dans plusieurs bases de sondage pour représenter l'ensemble des individus. Nous nous intéressons ici au cas de deux échantillons sélectionnés selon un plan à deux degrés, avec un premier degré de tirage commun. Nous appliquons les méthodes de Hartley (1962), Bankier (1986), et Kalton et Anderson (1986), et nous montrons que ces méthodes peuvent être appliquées conditionnellement au premier degré de tirage. Nous comparons également la performance de plusieurs estimateurs dans le cadre d'une étude par simulations. Nos résultats suggèrent que le choix d'un estimateur en présence de bases de sondage multiples se fasse de façon prudente, et qu'un estimateur simple est parfois préférable même s'il n'utilise qu'une partie de l'information collectée.

Combinaison de l’information de plusieurs enquêtes complexes

Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan

Résumé

Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

Date de modification :