Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

35 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (52)

Tout (52) (25 of 52 results)

  • Produits techniques : 11-522-X201700014735
    Description :

    La diffusion de microdonnées exige habituellement des méthodes de réduction et de modification des données, et le degré d’application de ces méthodes dépend des méthodes de contrôle qui seront nécessaires pour accéder aux données et les utiliser. Le calcul sécurisé est une approche qui, dans certaines circonstances, convient davantage pour accéder aux données à des fins statistiques; il permet le calcul de fonctions analytiques à l’égard de données chiffrées sans qu’il soit nécessaire de déchiffrer les données sources sous-jacentes pour procéder à une analyse statistique. Cette approche permet aussi à plusieurs emplacements de fournir des données, tout en garantissant une protection rigoureuse de la vie privée. De cette façon, les données peuvent être regroupées, et les fournisseurs de données peuvent calculer des fonctions analytiques, sans qu’aucune des parties ne connaisse les entrées des autres. À l’aide de certains résultats théoriques et d’exemples réels issus du domaine des soins de santé, nous expliquerons comment le calcul sécurisé peut être appliqué dans des contextes pratiques.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014723
    Description :

    Le U.S. Census Bureau est à la recherche de façons d’utiliser les dossiers administratifs dans les opérations d’enquête et les opérations décennales afin de réduire les coûts et le fardeau des répondants, tout en préservant la qualité des données. Parmi les utilisations possibles des dossiers administratifs figure l’utilisation des données en l’absence de réponses sur la race et l’origine hispanique. Lorsque les dossiers administratifs fédéraux et de tiers sont compilés, les réponses concernant la race et l’origine hispanique ne sont pas toujours les mêmes pour la même personne dans les différentes sources de dossiers administratifs. Nous explorons différents ensembles de règles opérationnelles servant à attribuer une réponse pour la race et l’origine hispanique lorsque ces réponses diffèrent entre les sources. Nous décrivons aussi les caractéristiques des personnes dont les données sur la race et l’origine hispanique correspondent, ne correspondent pas et sont manquantes pour plusieurs variables démographiques, des ménages et contextuelles. Nous avons déterminé que les personnes appartenant à des minorités, et plus particulièrement les personnes d’origine hispanique, sont plus susceptibles d’avoir des réponses sur l’origine hispanique et la race qui ne correspondent pas dans les dossiers administratifs que dans le Recensement de 2010. Les Hispaniques sont moins susceptibles d’avoir des données manquantes sur l’origine hispanique, mais plus susceptibles d’avoir des données manquantes sur la race dans les dossiers administratifs. Les Asiatiques non hispaniques et les habitants des îles du Pacifique non hispaniques sont plus susceptibles d’avoir des données manquantes sur la race et l’origine hispanique dans les dossiers administratifs. Les personnes plus jeunes, les locataires, les personnes vivant dans des ménages de deux personnes ou plus, les personnes qui ont répondu au recensement dans le cadre de l’opération de suivi de la non-réponse ainsi que les personnes résidant dans des régions urbaines sont plus susceptibles d’avoir des réponses sur la race et l’origine ethnique qui ne correspondent pas.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014739
    Description :

    Les ensembles de données de la statistique de l’état civil, comme la Base canadienne de données sur la mortalité, n’ont pas d’identificateurs pour certaines populations d’intérêt, comme les Premières Nations, les Métis et les Inuits. Le couplage d’enregistrements entre les données de la statistique de l’état civil et les ensembles de données d’enquête ou autres ensembles de données administratives peuvent permettre de contourner cette limite. Le présent document décrit un couplage de la Base canadienne de données sur la mortalité et du Recensement de la population de 2006, ainsi que l’analyse prévue à partir des données couplées.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014732
    Description :

    L’Institute for Employment Research (IAB) est le service de recherche de l’Agence fédérale allemande de placement. Par l’entremise du Centre de données de recherche (FDZ) à l’IAB, des données administratives et des données d’enquête sur les personnes et les établissements sont fournies aux chercheurs. En collaboration avec l’Institute for the Study of Labor (IZA), le FDZ a mis en œuvre l’application de soumission des travaux (JoSuA), qui permet aux chercheurs de soumettre des travaux, en vue du traitement des données à distance grâce à une interface Web personnalisée. Par ailleurs, deux types de fichiers de sortie produits pour l’utilisateur peuvent être reconnus dans l’environnement JoSuA, ce qui permet de fournir des services d’examen de la divulgation plus rapides et plus efficaces.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014747
    Description :

    La Base de données longitudinales sur les immigrants (BDIM) combine des données du Fichier des immigrants reçus (FIR) et des fichiers annuels de l’impôt. Ce couplage d’enregistrements est effectué au moyen d’une base de données de déclarants fiscaux. Le FIR comprend tous les immigrants qui ont été admis au Canada depuis 1980. En vue de remanier la BDIM, on a étudié la possibilité d’ajouter les résidents temporaires (RT) et les immigrants qui ont été admis entre 1952 et 1979 (PRE80). L’ajout de ces renseignements donnerait un aperçu plus complet de la population immigrante vivant au Canada. Afin d’intégrer les fichiers des RT et des PRE80 dans la BDIM, on a procédé à un couplage d’enregistrements entre ces deux fichiers et la base de données des déclarants fiscaux. Cet exercice a posé un défi, en partie en raison de la présence d’enregistrements en double dans les fichiers et de liens conflictuels entre les différents couplages d’enregistrements.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 82-003-X201501114243
    Description :

    Un outil de surveillance a été élaboré afin d’évaluer les données sur l’apport alimentaire recueillies dans le cadre d’enquêtes en fonction de Bien manger avec le Guide alimentaire canadien (GAC). L’outil permet de classer les aliments du Fichier canadien sur les éléments nutritifs (FCÉN) en fonction de leur degré de conformité avec les recommandations du GAC. Le présent article décrit l’exercice de validation effectué pour s’assurer que les aliments du FCÉN considérés « conformes aux recommandations du GAC » aient été classés de façon appropriée.

    Date de diffusion : 2015-11-18

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214092
    Description :

    Les méthodologistes d’enquête étudient depuis longtemps les effets des intervieweurs sur la variance des estimations d’enquête. Les modèles statistiques tenant compte des effets aléatoires des intervieweurs sont souvent intégrés à ce genre d’études, et l’intérêt de la recherche repose sur l’ampleur de la composante de la variance de l’intervieweur. Une question peut se poser au cours d’une étude méthodologique : différents groupes d’intervieweurs (p. ex. ceux ayant de l’expérience relative à une enquête donnée par rapport aux nouvelles recrues, ou les intervieweurs IPAO par rapport aux intervieweurs ITAO) ont-ils des composantes de variance considérablement différentes dans ces modèles? Des écarts importants peuvent indiquer un besoin de formation supplémentaire pour certains sous-groupes, les propriétés moins optimales de différents modes ou styles d’interview pour certaines questions d’enquête (en ce qui concerne l’erreur quadratique moyenne globale des estimations d’enquête). Les chercheurs d’enquête désirant des réponses à ces types de questions disposent de différents outils statistiques. Le présent article cherche à fournir un aperçu des approches fréquentiste et bayésienne de rechange de la comparaison des composantes de la variance dans différents groupes d’intervieweurs d’enquête, au moyen d’un cadre de modélisation linéaire généralisée hiérarchique qui tient compte de différents types de variables d’enquête. Nous considérons d’abord les avantages et les limites de chaque approche, en comparant les méthodes utilisées pour l’estimation et l’inférence. Nous présentons ensuite une étude de simulation, en évaluant de façon empirique la capacité de chaque approche d’estimer efficacement les différences entre les composantes de la variance. Nous appliquons alors les deux approches à une analyse des données d’enquête réelles recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États-Unis. Nous concluons que les deux approches ont tendance à donner des inférences très semblables et nous présentons des suggestions à mettre en pratique, compte tenu des différences subtiles observées.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014282
    Description :

    Le Panel des établissements de l’IAB est l’enquête auprès des établissements la plus complète qui soit menée en Allemagne, 16 000 entreprises y participant chaque année. Des interviews sur place en utilisant papier et crayon (IPC) sont réalisées depuis 1993. Un projet courant a pour objet d’examiner les effets possibles du passage de l’enquête à la méthode d’interview sur place assistée par ordinateur (IPAO) combinée à une version en ligne du questionnaire (IWAO). En guise de première étape, des questions sur l’accès à Internet, le désir de remplir le questionnaire en ligne et les raisons du refus ont été incluses dans la vague de 2012 de l’enquête. Les premiers résultats révèlent un refus généralisé de participer à une enquête en ligne. Un examen plus approfondi montre que les petits établissements, les participants de longue date à l’enquête et les répondants d’un certain âge sont réticents à l’idée d’utiliser Internet.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014262
    Description :

    Bien que l’erreur de mesure soit une source de biais en analyse statistique, ses conséquences possibles sont pour la plupart ignorées. Les modèles à effets fixes représentent une classe de modèles sur lesquels l’erreur de mesure peut avoir une incidence particulière. La validation des réponses recueillies lors de cinq vagues d’une enquête par panel sur les prestations d’aide sociale au moyen de données de registre a permis de déterminer la taille et la forme de l’erreur de mesure longitudinale. L’étude montre que l’erreur de mesure des prestations d’aide sociale est autocorrélée et non différentielle. Toutefois, si l’on estime les coefficients des modèles à effets fixes longitudinaux des prestations d’aide sociale en fonction de l’état de santé subjectif pour les hommes et pour les femmes, les coefficients ne sont biaisés que pour la sous-population masculine.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201200211758
    Description :

    Le présent article décrit l'élaboration de deux méthodes bayésiennes d'inférence au sujet des quantiles de variables d'intérêt continues d'une population finie sous échantillonnage avec probabilités inégales. La première de ces méthodes consiste à estimer les fonctions de répartition des variables étudiées continues en ajustant un certain nombre de modèles de régression probit avec splines pénalisées sur les probabilités d'inclusion. Les quantiles de population finie sont alors obtenus par inversion des fonctions de répartition estimées. Cette méthode demande considérablement de calculs. La deuxième méthode consiste à prédire les valeurs pour les unités non échantillonnées en supposant qu'il existe une relation variant de façon lisse entre la variable étudiée continue et la probabilité d'inclusion, en modélisant la fonction moyenne ainsi que de la fonction de variance en se servant de splines. Les deux estimateurs bayésiens fondés sur un modèle avec splines donnent un compromis désirable entre la robustesse et l'efficacité. Des études par simulation montrent que les deux méthodes produisent une racine carrée de l'erreur quadratique moyenne plus faible que l'estimateur pondéré par les poids de sondage et que les estimateurs par le ratio et par différence décrits dans Rao, Kovar et Mantel (RKM 1990), et qu'ils sont plus robustes à la spécification incorrecte du modèle que l'estimateur fondé sur un modèle de régression passant par l'origine décrit dans Chambers et Dunstan (1986). Lorsque la taille de l'échantillon est petite, les intervalles de crédibilité à 95 % des deux nouvelles méthodes ont une couverture plus proche du niveau nominal que l'estimateur pondéré par les poids de sondage.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201000111250
    Description :

    Nous proposons un estimateur de prédiction bayésien avec splines pénalisées (PBSP pour Bayesian Penalized Spline Predictive) pour une proportion de population finie sous échantillonnage avec probabilités inégales. Cette nouvelle méthode permet d'intégrer directement les probabilités d'inclusion dans l'estimation d'une proportion de population, en effectuant une régression probit du résultat binaire sur la fonction spline pénalisée des probabilités d'inclusion. La loi prédictive a posteriori de la proportion de population est obtenue en utilisant l'échantillonnage de Gibbs. Nous démontrons les avantages de l'estimateur PBSP comparativement à l'estimateur de Hájek (HK), à l'estimateur par la régression généralisée (RG) et aux estimateurs de prédiction fondés sur un modèle paramétrique au moyen d'études en simulation et d'un exemple réel de vérification fiscale. Les études en simulation montrent que l'estimateur PBSP est plus efficace et donne un intervalle de crédibilité à 95 % dont la probabilité de couverture est meilleure et dont la largeur moyenne est plus étroite que les estimateurs HK et RG, surtout quand la proportion de population est proche de zéro ou de un, ou que l'échantillon est petit. Comparativement aux estimateurs de prédiction fondés sur un modèle linéaire, les estimateurs PBSP sont robustes à l'erreur de spécification du modèle et à la présence d'observations influentes dans l'échantillon.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200900211045
    Description :

    Dans l'analyse de données d'enquête, on se sert souvent du nombre de degrés de liberté pour évaluer la stabilité des estimateurs de variance fondé sur le plan de sondage. Par exemple, ce nombre de degrés de liberté est utilisé pour construire les intervalles de confiances fondés sur des approximations de la loi t, ainsi que des tests t connexes. En outre, un petit nombre de degrés de liberté donne une idée qualitative des limites possibles d'un estimateur de variance particulier dans une application. Parfois, le calcul du nombre de degrés de liberté s'appuie sur des formes de l'approximation de Satterthwaite. Ces calculs fondés sur l'approche de Satterthwaite dépendent principalement des grandeurs relatives des variances au niveau de la strate. Cependant, pour des plans de sondage comportant la sélection d'un petit nombre d'unités primaires par strate, les estimateurs de variance au niveau de la strate classiques ne fournissent que des renseignements limités sur les variances réelles de strate. Le cas échéant, les calculs habituels fondés sur l'approche de Satterthwaite peuvent poser des problèmes, surtout dans les analyses portant sur des sous-populations concentrées dans un nombre relativement faible de strates. Pour résoudre ce problème, nous utilisons dans le présent article les estimations des variances à l'intérieur des unités primaires d'échantillonnage (variances intra-UPE) pour fournir de l'information auxiliaire sur les grandeurs relatives des variances globales au niveau de la strate. Les résultats des analyses indiquent que l'estimateur du nombre de degrés de liberté résultant est meilleur que les estimateurs de type Satterthwaite modifiés, à condition que : a) les variances globales au niveau de la strate soient approximativement proportionnelles aux variances intra-strate correspondantes et b) les variances des estimateurs de variance intra-UPE soient relativement faibles. En outre, nous élaborons des méthodes à erreurs sur les variables qui permettent de vérifier empiriquement les conditions a) et b). Pour ces vérifications de modèle, nous établissons des distributions de référence fondées sur des simulations qui diffèrent considérablement des distributions de référence fondées sur les approximations normales en grand échantillon habituelles. Nous appliquons les méthodes proposées à quatre variables de la troisième National Health and Nutrition Examination Survey (NHANES III) réalisée aux États-Unis.

    Date de diffusion : 2009-12-23

  • Produits techniques : 11-522-X200800011014
    Description :

    Dans de nombreux pays, l'amélioration des statistiques économiques est au nombre des grandes priorités du 21e siècle. L'accent est mis, d'abord et avant tout, sur la qualité des comptes nationaux, tant annuels que trimestriels. À cet égard, la qualité des données sur les entreprises les plus grandes joue un rôle essentiel. L'analyse de cohérence est un outil fort utile pour s'assurer que les données fournies par ces entreprises sont de bonne qualité. Par cohérence, nous entendons que les données provenant de diverses sources concordent et brossent un tableau logique du développement de ces entreprises. Une analyse de cohérence efficace est généralement une tâche ardue qui consiste principalement à recueillir des données de différentes sources afin de les comparer de façon structurée. Au cours des deux dernières années, de grands progrès ont été accomplis à Statistics Sweden en ce qui concerne l'amélioration des routines servant à l'analyse de cohérence. Nous avons construit un outil TI qui recueille les données sur les plus grandes entreprises auprès d'un grand nombre de sources et les présente de manière structurée et logique, et nous avons élaboré une approche systématique d'analyse trimestrielle des données destinée aux comptes nationaux. Le présent article décrit les travaux effectués dans ces deux domaines et donne un aperçu de l'outil TI et des routines retenues.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010991
    Description :

    Dans le processus d'évaluation des plans d'enquête prospectifs, les organismes statistiques doivent généralement tenir compte d'un grand nombre de facteurs pouvant avoir une incidence considérable sur le coût de l'enquête et la qualité des données. Or, les compromis entre le coût et la qualité sont souvent compliqués par les limites relatives à la quantité d'information disponible au regard des coûts fixes et des coûts marginaux liés au remaniement des instruments et à leur mise à l'essai sur le terrain, au nombre d'unités d'échantillonnage du premier degré et d'éléments compris dans l'échantillon, à l'affectation de sections d'instrument et aux modes de collecte appropriés pour des éléments d'échantillon précis ainsi qu'au nombre d'interviews et à leur périodicité (dans le cas des enquêtes longitudinales). D'autre part, les concepteurs disposent souvent de renseignements limités sur l'incidence de ces facteurs sur la qualité des données.

    Les auteurs appliquent des méthodes normalisées d'optimisation de la conception pour neutraliser l'incertitude entourant les composantes susmentionnées liées au coût et à la qualité. Une attention particulière est portée au niveau de précision requis des renseignements sur le coût et la qualité pour que ceux-ci soient d'une quelconque utilité dans le processus de conception, à la nature délicate des compromis coût-qualité relativement aux changements dans les hypothèses concernant les formes fonctionnelles ainsi qu'aux répercussions des travaux préliminaires au regard de la collecte de renseignements sur le coût et la qualité. De plus, la communication examine les différences entre le coût et la qualité dans la mise à l'essai sur le terrain et le travail de production, l'intégration des renseignements sur le coût et la qualité sur le plan de la production à l'adaptation de la conception de même que les coûts et les risques opérationnels découlant de la collecte de données détaillées sur le coût et la qualité pendant la phase de production. Les méthodes proposées sont motivées par le travail avec le remaniement cloisonné de l'interview et les composantes liées au journal de la Consumer Expenditure Survey des États-Unis.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010970
    Description :

    RTI International mène une étude longitudinale sur l'éducation. L'un des volets de l'étude consistait à recueillir des relevés de notes et des catalogues de cours auprès des écoles secondaires fréquentées par les personnes comprises dans l'échantillon. Il fallait aussi saisir et coder les renseignements tirés de ces documents. Le défi était de taille puisque les relevés et les catalogues, dont le contenu et la présentation variaient grandement, ont été recueillis auprès de différents types d'écoles, dont des écoles publiques, privées et religieuses de tout le pays. La difficulté consistait à concevoir un système perfectionné pouvant être utilisé simultanément par de nombreux utilisateurs. RTI a mis au point un système de saisie et de codage des données tirées des relevés de notes et des catalogues de cours d'études secondaires. Doté de toutes les caractéristiques d'un système de saisie et de codage haut de gamme, évolué, multi-utilisateur, multitâche, convivial et d'entretien peu coûteux, le système est basé sur le Web et possède trois grandes fonctions : la saisie et le codage des données des relevés et des catalogues, le contrôle de la qualité des données à l'étape de la saisie (par les opérateurs) et le contrôle de la qualité des données à l'étape du codage (par les gestionnaires). Compte tenu de la nature complexe de la saisie et du codage des données des relevés et des catalogues, le système a été conçu pour être souple et pour permettre le transport des données saisies et codées dans tout le système afin de réduire le temps de saisie. Il peut aussi guider logiquement les utilisateurs dans toutes les pages liées à un type d'activité, afficher l'information nécessaire pour faciliter la saisie et suivre toutes les activités de saisie, de codage et de contrôle de la qualité. Les données de centaines de catalogues et de milliers de relevés de notes ont été saisies, codées et vérifiées à l'aide du système. La présente communication aborde les besoins et la conception du système, les problèmes de mise en oeuvre et les solutions adoptées, ainsi que les leçons tirées de cette expérience.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010987
    Description :

    Ces dernières années, d'importants progrès ont été réalisés dans le domaine de la collecte des données en ligne. Aujourd'hui, un grand nombre de bureaux de la statistique offrent une option de réponse en ligne pour de nombreux types d'enquête. L'opinion selon laquelle la collecte de données en ligne peut accroître la qualité des données tout en réduisant les coûts de collecte est très répandue. L'expérience a montré que les entreprises auxquelles a été offerte l'option de remplir un questionnaire en ligne au lieu d'un questionnaire imprimé ont mis du temps à adopter l'option en ligne. Par ailleurs, les expériences ont également montré qu'en favorisant la réponse en ligne plutôt que l'utilisation d'un questionnaire imprimé, il est possible d'accroître le taux d'adoption de l'option en ligne. Cependant, les études décrivant ce qui se passe lorsque la stratégie de prise de contact est modifiée radicalement et que l'option de réponse en ligne est la seule offerte dans une enquête auprès des entreprises complexe sont encore rares. En 2008, Statistics Sweden a décidé d'utiliser une stratégie axée à peu près uniquement sur le Web dans l'enquête sur la production industrielle (PRODCOM). Le questionnaire en ligne a été élaboré au moyen de l'outil généralisé de conception d'enquêtes en ligne utilisé par l'organisme. Le présent article décrit la solution en ligne et certaines expériences relatives à l'enquête PRODCOM de 2008, y compris les données de traitement sur les taux de réponse et les ratios d'erreurs, ainsi que les résultats d'un suivi cognitif à l'enquête. Certaines importantes leçons apprises sont également présentées.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010956
    Description :

    L'utilisation de l'interview enregistrée assistée par ordinateur (IEAO) comme outil pour déceler la falsification des interviews est de plus en plus fréquente dans les études par sondage (Biemer, 2000, 2003; Thissen, 2007). De même, les spécialistes de la recherche sur les enquêtes commencent à accroître l'utilité de l'IEAO en combinant les enregistrements sonores au codage pour résoudre les problèmes de qualité des données (Herget, 2001; Hansen, 2005; McGee, 2007). La communication porte sur les résultats d'une étude intégrée dans la National Home and Hospice Care Survey (NHHCS) réalisée auprès des établissements de santé par le National Center for Health Statistics, dans laquelle le codage du comportement fondé sur l'IEAO et des paradonnées particulières à l'IEAO ont été utilisés pour 1) repérer et corriger les problèmes de comportement des intervieweurs ou ceux relatifs aux questions au début de la période de collecte des données, avant qu'ils n'aient un effet négatif sur la qualité des données et 2) trouver des moyens de réduire l'erreur de mesure dans les futures exécutions de la NHHCS. Au cours des neuf premières semaines de la période de travail sur le terrain de 30 semaines, l'IEAO a été utilisée pour enregistrer chez tous les intervieweurs l'administration d'un sous-ensemble de questions de l'application de la NHHCS. Les enregistrements ont été reliés à l'application d'interview et aux données de sortie, puis codés selon l'un de deux modes, à savoir le codage par intervieweur ou le codage par question. La méthode de codage par intervieweur a permis d'examiner les problèmes particuliers à un intervieweur, ainsi que les problèmes plus généraux s'appliquant éventuellement à tous les intervieweurs. La méthode de codage par question a produit des données fournissant des éclaircissements sur l'intelligibilité des questions et d'autres problèmes de réponse. Sous ce mode, les codeurs ont codé plusieurs applications de la même question par plusieurs intervieweurs. Grâce à l'approche du codage par question, les chercheurs ont relevé des problèmes ayant trait à trois questions importantes de l'enquête durant les premières semaines de la collecte des données et ont donné aux intervieweurs des directives quant à la façon de traiter ces questions à mesure que la collecte des données s'est poursuivie. Les résultats du codage des enregistrements sonores (qui étaient reliés à l'application d'enquête et aux données de sortie) fourniront des renseignements qui permettront d'améliorer l'énoncé des questions et la formation des intervieweurs en prévision de la prochaine vague de la NHHCS et orienteront les travaux en vue de poursuivre l'amélioration de l'application d'IEAO et du système de codage.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110809
    Description :

    L'échantillonnage par grappes et l'échantillonnage à plusieurs degrés nécessitent l'échantillonnage d'unités auprès de plus d'une population. Il y a habituellement de l'information auxiliaire disponible sur la population et sur l'échantillon à chacun de ces niveaux. Les poids de calage d'un échantillon sont généralement produits uniquement au moyen de l'information auxiliaire à ce niveau. Cette approche laisse de côté de l'information disponible aux autres niveaux. En outre, il est souvent utile de coupler les poids de calage entre les échantillons à différents niveaux. Grâce à la pondération intégrée de l'échantillonnage par grappes, les poids des unités d'une grappe sont tous identiques et équivalents au poids de la grappe. On présente une généralisation de la pondération intégrée aux plans d'échantillonnage à plusieurs degrés. Ce processus s'appelle la pondération couplée.

    Date de diffusion : 2009-08-11

  • Articles et rapports : 12-001-X200900110880
    Description :

    Le présent article décrit un cadre pour l'estimation par calage sous les plans d'échantillonnage à deux phases. Les travaux présentés découlent de la poursuite du développement de logiciels généralisés d'estimation à Statistique Canada. Un objectif important de ce développement est d'offrir une grande gamme d'options en vue d'utiliser efficacement l'information auxiliaire dans différents plans d'échantillonnage. Cet objectif est reflété dans la méthodologie générale pour les plans d'échantillonnage à deux phases exposée dans le présent article.

    Nous considérons le plan d'échantillonnage à deux phases classique. Un échantillon de première phase est tiré à partir d'une population finie, puis un échantillon de deuxième phase est tiré en tant que sous échantillon du premier. La variable étudiée, dont le total de population inconnu doit être estimé, est observée uniquement pour les unités contenues dans l'échantillon de deuxième phase. Des plans d'échantillonnage arbitraires sont permis à chaque phase de l'échantillonnage. Divers types d'information auxiliaire sont identifiés pour le calcul des poids de calage à chaque phase. Les variables auxiliaires et les variables étudiées peuvent être continues ou catégoriques.

    L'article apporte une contribution à quatre domaines importants dans le contexte général du calage pour les plans d'échantillonnage à deux phases :1) nous dégageons trois grands types d'information auxiliaire pour les plans à deux phases et les utilisons dans l'estimation. L'information est intégrée dans les poids en deux étapes : un calage de première phase et un calage de deuxième phase. Nous discutons de la composition des vecteurs auxiliaires appropriés pour chaque étape et utilisons une méthode de linéarisation pour arriver aux résidus qui déterminent la variance asymptotique de l'estimateur par calage ;2) nous examinons l'effet de divers choix de poids de départ pour le calage. Les deux choix « naturels » produisent généralement des estimateurs légèrement différents. Cependant, sous certaines conditions, ces deux estimateurs ont la même variance asymptotique ;3) nous réexaminons l'estimation de la variance pour l'estimateur par calage à deux phases. Nous proposons une nouvelle méthode qui peut représenter une amélioration considérable par rapport à la technique habituelle de conditionnement sur l'échantillon de première phase. Une simulation décrite à la section 10 sert à valider les avantages de cette nouvelle méthode ;4) nous comparons l'approche par calage à la méthode de régression assistée par modèle classique qui comporte l'ajustement d'un modèle de régression linéaire à deux niveaux. Nous montrons que l'estimateur assisté par modèle a des propriétés semblables à celles d'un estimateur par calage à deux phases.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800210760
    Description :

    Pour concevoir un échantillon aléatoire simple stratifié sans remise à partir d'une population finie, il faut résoudre deux grandes questions : définir une règle de partition de la population en strates et répartir les unités d'échantillonnage entre les strates sélectionnées. Dans le présent article, nous examinons une stratégie arborescente en vue d'aborder conjointement ces deux questions quand l'enquête est polyvalente et que de l'information multivariée, quantitative ou qualitative, est disponible. Nous formons les strates à l'aide d'un algorithme divisif hiérarchique qui sélectionne des partitions de plus en plus fines en minimisant, à chaque étape, la répartition d'échantillon requise pour atteindre les niveaux de précision établis pour chaque variable étudiée. De cette façon, nous pouvons satisfaire un grand nombre de contraintes sans augmenter fortement la taille globale d'échantillon et sans écarter certaines variables sélectionnées pour la stratification ni diminuer le nombre de leurs intervalles de classe. En outre, l'algorithme a tendance à ne pas définir de strate vide ou presque vide, ce qui évite de devoir regrouper certaines strates. Nous avons appliqué la méthode au remaniement de l'Enquête sur la structure des exploitations agricoles en Italie. Les résultats indiquent que le gain d'efficacité réalisé en utilisant notre stratégie n'est pas trivial. Pour une taille d'échantillon donnée, cette méthode permet d'obtenir la précision requise en exploitant un nombre de strates qui est habituellement égal à une fraction très faible du nombre de strates disponibles quand on combine toutes les classes possibles provenant de n'importe quelle covariable.

    Date de diffusion : 2008-12-23

  • Produits techniques : 11-522-X200600110410
    Description :

    Survey of Occupational Illnesses and Injuries (SOII) des États Unis est une enquête à grande échelle effectuée auprès des établissements et réalisée par le Bureau of Labor Statistics. Elle a pour but de mesurer les taux d'incidence et les conséquences des maladies et des blessures professionnelles dans certaines industries à l'échelle du pays et de l'État. À l'heure actuelle, cette enquête s'appuie sur des méthodes relativement simples pour la détection et le traitement des valeurs aberrantes. Les méthodes de détection des valeurs aberrantes reposent sur la comparaison des taux d'incidence déclarés en ce qui concerne l'établissement à la distribution correspondante des déclarations dans des cellules particulières définies par le croisement des classifications selon l'État et selon l'industrie. Les méthodes de traitement comportent le remplacement des poids probabilistes type par un poids dont la valeur est fixée à un, suivi par un étalonnage.

    Des méthodes plus complexes pourraient être utilisées pour la détection et le traitement des valeurs aberrantes dans la SOII, par exemple des méthodes de détection qui s'appuient sur des fonctions d'influence, des poids probabilistes et des observations multivariées, ou des méthodes de traitement fondées sur la winsorisation ou l'estimation M. L'évaluation des avantages pratiques de ces méthodes plus complexes nécessite la prise en considération de trois facteurs importants. Premièrement, les valeurs très extrêmes sont relativement rares, mais lorsqu'elles se produisent, elles peuvent avoir un effet important sur les estimateurs de la SOII dans les cellules définies par le croisement des États et des industries. Par conséquent, l'évaluation pratique de l'effet des méthodes de détection des valeurs aberrantes se concentre principalement sur les queues des distributions des estimateurs, plutôt que sur les mesures de performance agrégées normalisées, comme la variance ou l'erreur quadratique moyenne. Deuxièmement, les évaluations analytiques et fondées sur des données sont axées sur l'amélioration progressive obtenue grâce à l'utilisation de méthodes plus complexes, comparativement aux résultats produits par les méthodes simples suivies à l'heure actuelle. Troisièmement, l'élaboration des outils susmentionnés nécessite le recours à une théorie asymptotique qui n'est pas tout à fait standard pour refléter les compromis en ce qui a trait aux effets associés à, respectivement, l'accroissement de la taille des échantillons, l'accroissement du nombre de cellules pour la publication et l'évolution des queues des distributions sous jacentes des observations.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110442
    Description :

    Le projet Healthy Outcomes of Pregnancy Education du district de Columbia est un essai randomisé financé par le National Institute of Child Health and Human Development et visant à mettre à l'essai l'efficacité d'une intervention intégrée de sensibilisation et de counselling (IISC) comparé aux soins habituels (SH) afin de réduire quatre comportements à risque chez les femmes enceintes. Les participantes ont été interviewées quatre fois. On a eu recours à la technique de l'imputation multiple pour estimer les données des interviews manquantes. La technique de l'imputation multiple a été appliquée deux fois : toutes les données ont été imputées simultanément une première fois et les données concernant les femmes des groupes IISC et SH ont été imputées séparément une deuxième fois. Les résultats des analyses des ensembles de données imputées et des données avant imputation sont comparés.

    Date de diffusion : 2008-03-17

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (21)

Analyses (21) (21 of 21 results)

  • Articles et rapports : 82-003-X201501114243
    Description :

    Un outil de surveillance a été élaboré afin d’évaluer les données sur l’apport alimentaire recueillies dans le cadre d’enquêtes en fonction de Bien manger avec le Guide alimentaire canadien (GAC). L’outil permet de classer les aliments du Fichier canadien sur les éléments nutritifs (FCÉN) en fonction de leur degré de conformité avec les recommandations du GAC. Le présent article décrit l’exercice de validation effectué pour s’assurer que les aliments du FCÉN considérés « conformes aux recommandations du GAC » aient été classés de façon appropriée.

    Date de diffusion : 2015-11-18

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214092
    Description :

    Les méthodologistes d’enquête étudient depuis longtemps les effets des intervieweurs sur la variance des estimations d’enquête. Les modèles statistiques tenant compte des effets aléatoires des intervieweurs sont souvent intégrés à ce genre d’études, et l’intérêt de la recherche repose sur l’ampleur de la composante de la variance de l’intervieweur. Une question peut se poser au cours d’une étude méthodologique : différents groupes d’intervieweurs (p. ex. ceux ayant de l’expérience relative à une enquête donnée par rapport aux nouvelles recrues, ou les intervieweurs IPAO par rapport aux intervieweurs ITAO) ont-ils des composantes de variance considérablement différentes dans ces modèles? Des écarts importants peuvent indiquer un besoin de formation supplémentaire pour certains sous-groupes, les propriétés moins optimales de différents modes ou styles d’interview pour certaines questions d’enquête (en ce qui concerne l’erreur quadratique moyenne globale des estimations d’enquête). Les chercheurs d’enquête désirant des réponses à ces types de questions disposent de différents outils statistiques. Le présent article cherche à fournir un aperçu des approches fréquentiste et bayésienne de rechange de la comparaison des composantes de la variance dans différents groupes d’intervieweurs d’enquête, au moyen d’un cadre de modélisation linéaire généralisée hiérarchique qui tient compte de différents types de variables d’enquête. Nous considérons d’abord les avantages et les limites de chaque approche, en comparant les méthodes utilisées pour l’estimation et l’inférence. Nous présentons ensuite une étude de simulation, en évaluant de façon empirique la capacité de chaque approche d’estimer efficacement les différences entre les composantes de la variance. Nous appliquons alors les deux approches à une analyse des données d’enquête réelles recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États-Unis. Nous concluons que les deux approches ont tendance à donner des inférences très semblables et nous présentons des suggestions à mettre en pratique, compte tenu des différences subtiles observées.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201200211758
    Description :

    Le présent article décrit l'élaboration de deux méthodes bayésiennes d'inférence au sujet des quantiles de variables d'intérêt continues d'une population finie sous échantillonnage avec probabilités inégales. La première de ces méthodes consiste à estimer les fonctions de répartition des variables étudiées continues en ajustant un certain nombre de modèles de régression probit avec splines pénalisées sur les probabilités d'inclusion. Les quantiles de population finie sont alors obtenus par inversion des fonctions de répartition estimées. Cette méthode demande considérablement de calculs. La deuxième méthode consiste à prédire les valeurs pour les unités non échantillonnées en supposant qu'il existe une relation variant de façon lisse entre la variable étudiée continue et la probabilité d'inclusion, en modélisant la fonction moyenne ainsi que de la fonction de variance en se servant de splines. Les deux estimateurs bayésiens fondés sur un modèle avec splines donnent un compromis désirable entre la robustesse et l'efficacité. Des études par simulation montrent que les deux méthodes produisent une racine carrée de l'erreur quadratique moyenne plus faible que l'estimateur pondéré par les poids de sondage et que les estimateurs par le ratio et par différence décrits dans Rao, Kovar et Mantel (RKM 1990), et qu'ils sont plus robustes à la spécification incorrecte du modèle que l'estimateur fondé sur un modèle de régression passant par l'origine décrit dans Chambers et Dunstan (1986). Lorsque la taille de l'échantillon est petite, les intervalles de crédibilité à 95 % des deux nouvelles méthodes ont une couverture plus proche du niveau nominal que l'estimateur pondéré par les poids de sondage.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201000111250
    Description :

    Nous proposons un estimateur de prédiction bayésien avec splines pénalisées (PBSP pour Bayesian Penalized Spline Predictive) pour une proportion de population finie sous échantillonnage avec probabilités inégales. Cette nouvelle méthode permet d'intégrer directement les probabilités d'inclusion dans l'estimation d'une proportion de population, en effectuant une régression probit du résultat binaire sur la fonction spline pénalisée des probabilités d'inclusion. La loi prédictive a posteriori de la proportion de population est obtenue en utilisant l'échantillonnage de Gibbs. Nous démontrons les avantages de l'estimateur PBSP comparativement à l'estimateur de Hájek (HK), à l'estimateur par la régression généralisée (RG) et aux estimateurs de prédiction fondés sur un modèle paramétrique au moyen d'études en simulation et d'un exemple réel de vérification fiscale. Les études en simulation montrent que l'estimateur PBSP est plus efficace et donne un intervalle de crédibilité à 95 % dont la probabilité de couverture est meilleure et dont la largeur moyenne est plus étroite que les estimateurs HK et RG, surtout quand la proportion de population est proche de zéro ou de un, ou que l'échantillon est petit. Comparativement aux estimateurs de prédiction fondés sur un modèle linéaire, les estimateurs PBSP sont robustes à l'erreur de spécification du modèle et à la présence d'observations influentes dans l'échantillon.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200900211045
    Description :

    Dans l'analyse de données d'enquête, on se sert souvent du nombre de degrés de liberté pour évaluer la stabilité des estimateurs de variance fondé sur le plan de sondage. Par exemple, ce nombre de degrés de liberté est utilisé pour construire les intervalles de confiances fondés sur des approximations de la loi t, ainsi que des tests t connexes. En outre, un petit nombre de degrés de liberté donne une idée qualitative des limites possibles d'un estimateur de variance particulier dans une application. Parfois, le calcul du nombre de degrés de liberté s'appuie sur des formes de l'approximation de Satterthwaite. Ces calculs fondés sur l'approche de Satterthwaite dépendent principalement des grandeurs relatives des variances au niveau de la strate. Cependant, pour des plans de sondage comportant la sélection d'un petit nombre d'unités primaires par strate, les estimateurs de variance au niveau de la strate classiques ne fournissent que des renseignements limités sur les variances réelles de strate. Le cas échéant, les calculs habituels fondés sur l'approche de Satterthwaite peuvent poser des problèmes, surtout dans les analyses portant sur des sous-populations concentrées dans un nombre relativement faible de strates. Pour résoudre ce problème, nous utilisons dans le présent article les estimations des variances à l'intérieur des unités primaires d'échantillonnage (variances intra-UPE) pour fournir de l'information auxiliaire sur les grandeurs relatives des variances globales au niveau de la strate. Les résultats des analyses indiquent que l'estimateur du nombre de degrés de liberté résultant est meilleur que les estimateurs de type Satterthwaite modifiés, à condition que : a) les variances globales au niveau de la strate soient approximativement proportionnelles aux variances intra-strate correspondantes et b) les variances des estimateurs de variance intra-UPE soient relativement faibles. En outre, nous élaborons des méthodes à erreurs sur les variables qui permettent de vérifier empiriquement les conditions a) et b). Pour ces vérifications de modèle, nous établissons des distributions de référence fondées sur des simulations qui diffèrent considérablement des distributions de référence fondées sur les approximations normales en grand échantillon habituelles. Nous appliquons les méthodes proposées à quatre variables de la troisième National Health and Nutrition Examination Survey (NHANES III) réalisée aux États-Unis.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200900110880
    Description :

    Le présent article décrit un cadre pour l'estimation par calage sous les plans d'échantillonnage à deux phases. Les travaux présentés découlent de la poursuite du développement de logiciels généralisés d'estimation à Statistique Canada. Un objectif important de ce développement est d'offrir une grande gamme d'options en vue d'utiliser efficacement l'information auxiliaire dans différents plans d'échantillonnage. Cet objectif est reflété dans la méthodologie générale pour les plans d'échantillonnage à deux phases exposée dans le présent article.

    Nous considérons le plan d'échantillonnage à deux phases classique. Un échantillon de première phase est tiré à partir d'une population finie, puis un échantillon de deuxième phase est tiré en tant que sous échantillon du premier. La variable étudiée, dont le total de population inconnu doit être estimé, est observée uniquement pour les unités contenues dans l'échantillon de deuxième phase. Des plans d'échantillonnage arbitraires sont permis à chaque phase de l'échantillonnage. Divers types d'information auxiliaire sont identifiés pour le calcul des poids de calage à chaque phase. Les variables auxiliaires et les variables étudiées peuvent être continues ou catégoriques.

    L'article apporte une contribution à quatre domaines importants dans le contexte général du calage pour les plans d'échantillonnage à deux phases :1) nous dégageons trois grands types d'information auxiliaire pour les plans à deux phases et les utilisons dans l'estimation. L'information est intégrée dans les poids en deux étapes : un calage de première phase et un calage de deuxième phase. Nous discutons de la composition des vecteurs auxiliaires appropriés pour chaque étape et utilisons une méthode de linéarisation pour arriver aux résidus qui déterminent la variance asymptotique de l'estimateur par calage ;2) nous examinons l'effet de divers choix de poids de départ pour le calage. Les deux choix « naturels » produisent généralement des estimateurs légèrement différents. Cependant, sous certaines conditions, ces deux estimateurs ont la même variance asymptotique ;3) nous réexaminons l'estimation de la variance pour l'estimateur par calage à deux phases. Nous proposons une nouvelle méthode qui peut représenter une amélioration considérable par rapport à la technique habituelle de conditionnement sur l'échantillon de première phase. Une simulation décrite à la section 10 sert à valider les avantages de cette nouvelle méthode ;4) nous comparons l'approche par calage à la méthode de régression assistée par modèle classique qui comporte l'ajustement d'un modèle de régression linéaire à deux niveaux. Nous montrons que l'estimateur assisté par modèle a des propriétés semblables à celles d'un estimateur par calage à deux phases.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800210760
    Description :

    Pour concevoir un échantillon aléatoire simple stratifié sans remise à partir d'une population finie, il faut résoudre deux grandes questions : définir une règle de partition de la population en strates et répartir les unités d'échantillonnage entre les strates sélectionnées. Dans le présent article, nous examinons une stratégie arborescente en vue d'aborder conjointement ces deux questions quand l'enquête est polyvalente et que de l'information multivariée, quantitative ou qualitative, est disponible. Nous formons les strates à l'aide d'un algorithme divisif hiérarchique qui sélectionne des partitions de plus en plus fines en minimisant, à chaque étape, la répartition d'échantillon requise pour atteindre les niveaux de précision établis pour chaque variable étudiée. De cette façon, nous pouvons satisfaire un grand nombre de contraintes sans augmenter fortement la taille globale d'échantillon et sans écarter certaines variables sélectionnées pour la stratification ni diminuer le nombre de leurs intervalles de classe. En outre, l'algorithme a tendance à ne pas définir de strate vide ou presque vide, ce qui évite de devoir regrouper certaines strates. Nous avons appliqué la méthode au remaniement de l'Enquête sur la structure des exploitations agricoles en Italie. Les résultats indiquent que le gain d'efficacité réalisé en utilisant notre stratégie n'est pas trivial. Pour une taille d'échantillon donnée, cette méthode permet d'obtenir la précision requise en exploitant un nombre de strates qui est habituellement égal à une fraction très faible du nombre de strates disponibles quand on combine toutes les classes possibles provenant de n'importe quelle covariable.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200700210498
    Description :

    Dans le présent document, nous décrivons une méthodologie utilisée pour combiner un échantillon de convenance avec un échantillon probabiliste afin de produire un estimateur ayant une erreur quadratique moyenne (EQM) plus faible que les estimateurs fondés uniquement sur un échantillon probabiliste. Nous examinons ensuite les propriétés de l'estimateur composite obtenu, qui est en fait une combinaison linéaire des estimateurs de l'échantillon de convenance et de l'échantillon probabiliste, les poids étant fonction du biais. Nous discutons des propriétés de l'estimateur dans le contexte de l'échantillonnage de convenance électronique. Notre analyse démontre que le recours à un échantillon de convenance pour suppléer un échantillon probabiliste en vue d'améliorer l'EQM de l'estimation pourrait s'avérer utile seulement dans des circonstances restreintes. Premièrement, le biais résiduel de l'estimateur fondé sur l'échantillon de convenance doit être très faible, représentant tout au plus 0,1 de l'écart-type de la population obtenue. En cas de résultat dichotomique, cela signifie un biais ne dépassant pas cinq points de pourcentage à 50 % de prévalence, et trois points de pourcentage à 10 % de prévalence. Deuxièmement, l'échantillon probabiliste devrait contenir au moins 1 000 à 10 000 observations pour donner lieu à une estimation adéquate du biais de l'estimateur de l'échantillon de convenance. Troisièmement, il doit être rentable et faisable de recueillir au moins des milliers (et probablement des dizaines de milliers) d'observations à partir de l'échantillon électronique de convenance. Les conclusions au sujet de l'utilité limitée des échantillons de convenance lorsque le biais de l'estimateur comporte un écart-type de plus de 0,1 s'appliquent également à l'utilisation directe des estimateurs en fonction de cet échantillon.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 82-003-S200700010362
    Description :

    Le présent article résume la conception, la méthodologie et les résultats du prétest de l'Enquête canadienne sur les mesures de la santé, qui s'est déroulé d'octobre à décembre 2004 à Calgary, Alberta.

    Date de diffusion : 2007-12-05

  • Articles et rapports : 12-001-X20070019849
    Description :

    Dans les sondages où les unités ont des probabilités inégales d'inclusion dans l'échantillon, les associations entre la probabilité d'inclusion et la statistique d'intérêt peuvent causer un biais. Des poids égaux à l'inverse de la probabilité d'inclusion sont souvent utilisés pour neutraliser ce biais. Les plans de sondage fortement disproportionnels comportent des poids de valeur élevée qui peuvent introduire une variabilité indésirable dans les statistiques telles que l'estimateur de la moyenne de population ou l'estimateur de la pente de la régression de population. La réduction des poids consiste à modifier ceux dont la valeur est élevée à une valeur seuil fixe et à ajuster ceux inférieurs à cette valeur de façon à ce que la somme de ces poids réduits demeure égale à la somme des poids non réduits, ce qui réduit la variabilité au prix de l'introduction d'un certain biais. La plupart des approches ordinaires sont ponctuelles en ce sens qu'elles n'utilisent pas les données en vue d'optimiser le compromis entre le biais et la variance. Les approches dictées par les données qui sont décrites dans la littérature sont un peu plus efficaces que les estimateurs entièrement pondérés. Dans le présent article, nous élaborons des méthodes bayésiennes de réduction des poids d'estimateurs par la régression linéaire et par la régression linéaire généralisée sous des plans de sondage avec probabilités d'inclusion inégales. Nous décrivons une application à l'estimation du risque de blessure chez les enfants installés sur le siège arrière dans les camionnettes compactes à cabine allongée à l'aide des données de la Partners for Child Passenger Safety surveillance survey.

    Date de diffusion : 2007-06-28

  • Articles et rapports : 12-001-X20030026780
    Description :

    Les erreurs et d'autres problèmes de couverture associés aux recensements de population sont examinés à la lumière des travaux publiés récemment. Plus précisément, quand on apparie les dénombrements réels du recensement aux chiffres correspondants tirés de l'enquête postcensitaire, on obtient des résultats agrégés fondés sur un système d'enregistrement double qui fournissent certaines statistiques sur l'erreur de couverture.

    Dans le présent article, les questions liées à l'erreur de couverture et diverses solutions sont examinées dans le contexte des résultats du dernier Recensement de la population de la Turquie. La comparaison, au niveau régional, de la couverture du recensement fondée sur les données de ce dernier et celles de l'enquête postcensitaire témoigne d'une variabilité interrégionales. Certaines recommandations méthodologiques sont faites en vue d'une amélioration éventuelle des procédures courantes de dénombrement.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 88-003-X20020026371
    Description :

    Au moment d'élaborer les questions d'enquête des questionnaires, l'une des règles empiriques consiste à « faire preuve de concision et de simplicité ». Cet article est le troisième d'une série de leçons tirées des tests cognitifs liés à l'Enquête sur les pratiques de gestion des connaissances. Il rend compte des réponses que suscitent les longues questions, les questionnaires détaillés ou les trop nombreuses cases de réponse.

    Date de diffusion : 2002-06-14

  • Articles et rapports : 88-003-X20020026369
    Description :

    L'élimination des réponses « neutres » aux questions d'opinion a non seulement pour effet d'inciter les répondants à prendre position, mais elle les amène aussi subtilement à lire la question. Voyez comment nous avons utilisé ce concept et tiré parti de cet avantage dans le cadre de l'Enquête sur les pratiques de gestion des connaissances de 2001.

    Date de diffusion : 2002-06-14

  • Articles et rapports : 12-001-X19990024884
    Description :

    Dans le dernier article de ce numéro spécial, Estevao et Särndal étudient deux types d'estimateurs fondés sur le plan de sondage servant à établir l'estimation par domaine. Le premier, l'estimateur de prédiction linéaire, constitué en fonction d'un principe d'ajustement de modèle, nécessite des informations auxiliaires connues au niveau du domaine et donne lieu à des poids qui dépendent du domaine à évaluer. Le deuxième, l'estimateur uni-poids, comprend des poids qui sont indépendants du domaine à estimer. Manifestement, son avantage est qu'on n'a pas à calculer les différents systèmes de poids pour chaque domaine d'intérêt. Les auteurs comparent ces estimateurs et déterminent dans quelles situations l'un est préférable à l'autre.

    Date de diffusion : 2000-03-01

  • Articles et rapports : 12-001-X19970013103
    Description :

    Les auteurs décrivent certaines méthodes diagnostiques simples utilisées pour guider la construction de cellules de correction pour la non-réponse. S'inspirant des travaux de Little (1986), ils étudient la construction de cellules de correction par regroupement d'unités d'échantillonnage selon la probabilité estimée de réponse ou selon la réponse estimée aux questions de l'enquête. Ils examinent plus particulièrement l'évaluation de la sensibilité des estimations corrigées de la moyenne à la variation de k, c'est-à-dire le nombre de cellules utilisées, le dépistage de cellules particulières qui nécessitent une mise au point supplémentaire, la comparaison des estimations corrigées et non corrigées de la moyenne et la comparaison des estimations obtenues au moyen des cellules fondées sur la probabilité estimée de réponse, d'une part, et sur la réponse estimée aux questions, d'autre part. Les auteurs justifient les méthodes proposées et les illustrent par une application à l'estimation du revenu moyen des unités de la U.S. Consumer Expenditure Survey.

    Date de diffusion : 1997-08-18

  • Articles et rapports : 12-001-X19960022982
    Description :

    Les travaux sur les enquêtes par échantillonnage exigent souvent qu'on recoure aux estimateurs des composantes de la variance associés à l'échantillonnage, à l'intérieur des unités primaires d'échantillonnage et entre celles-ci. Dans ce genre de travail, il peut s'avérer important d'avoir une idée de la stabilité des estimateurs des composantes de la variance, bref de savoir si ces estimateurs présentent une variance relativement faible. Nous examinerons ici plusieurs façons de mesurer la stabilité des estimateurs des composantes de la variance reposant sur le plan d'échantillonnage et des quantités connexes, d'après les données. Dans le développement, on mettra en relief les méthodes applicables aux enquêtes caractérisées par un nombre moyen ou important de strates et un petit nombre d'unités primaires d'échantillonnage par strate. Nous attirons principalement l'attention sur la variance intrinséque d'un estimateur de la variance intra-UPÉ et sur deux termes connexes se rapportant aux degés de liberté. Une méthode de simulation permet d'établir si la stabilité observée est cohérente avec les hypothèses types sur la stabilité de l'estimateur de la variance. Nous présentons aussi deux séries de mesures de stabilité pour les estimateurs des composantes de la variance inter-UPÉ reposant sur le plan d'échantillonnage et le ratio de la variance globale avec la variance intra-UPÉ. Les méthodes proposées sont appliquées aux données venant des interviews et des examens de la U.S. Third National Health and Nutrition Examination Survey (NHANES III). Les résultats montrent que les propriétés de la stabilité véritable peuvent changer sensiblement d'une variable à l'autre. Par ailleurs, pour certaines variables, les estimateurs de la variance intra-UPÉ semblent considérablement moins stables qu'on aurait pu s'y attendre consécutivement à un simple dénombrement des unités secondaires de chaque strate.

    Date de diffusion : 1997-01-30

  • Articles et rapports : 12-001-X199500214395
    Description :

    Lorsqu’on remanie un échantillon selon un plan stratifié à plusieurs degrés, il est parfois indiqué de maximiser le nombre d’unités primaires d’échantillonnage retenues dans le nouvel échantillon sans modifier les probabilités de sélection inconditionnelle. Il existe à cette fin une solution optimale qui s’appuie sur la théorie du transport pour une classe très générale de plans d’échantillonnage. Toutefois, à la connaissance des auteurs, cette méthode n’a jamais été utilisée pour la refonte d’une enquête. Cela s’explique en partie du fait que même pour une strate de taille modérée, le problème de transport résultant pourrait être trop grand pour se prêter à une solution pratique. Dans le présent article, nous proposons un algorithme de transport modifié à taille réduite permettant de maximiser le chevauchement, ce qui réduit sensiblement les dimensions du problème. Cette méthode a été utilisée lors du remaniement récent de l’Enquête sur le revenu et la participation aux programmes (Survey of Income and Program Participation, ou SIPP). Nous décrivons brièvement le rendement de l’algorithme à taille réduite, d’une part pour le chevauchement du SIPP en conditions réelles, et d’autre part pour des simulations artificielles antérieures du chevauchement du SIPP. Même si cette méthode n’est pas optimale et ne risque de produire, en théorie, que des améliorations négligeables du chevauchement attendu comparativement à la sélection indépendante, elle ouvre en pratique la voie à des améliorations importantes du chevauchement par rapport à la sélection indépendante dans le cas du SIPP et produit généralement un chevauchement presque optimal.

    Date de diffusion : 1995-12-15

  • Articles et rapports : 12-001-X198800214583
    Description :

    Cette note d’information met en lumière les points forts et les points faibles du langage SQL.

    Date de diffusion : 1988-12-15

Références (31)

Références (31) (25 of 31 results)

  • Produits techniques : 11-522-X201700014735
    Description :

    La diffusion de microdonnées exige habituellement des méthodes de réduction et de modification des données, et le degré d’application de ces méthodes dépend des méthodes de contrôle qui seront nécessaires pour accéder aux données et les utiliser. Le calcul sécurisé est une approche qui, dans certaines circonstances, convient davantage pour accéder aux données à des fins statistiques; il permet le calcul de fonctions analytiques à l’égard de données chiffrées sans qu’il soit nécessaire de déchiffrer les données sources sous-jacentes pour procéder à une analyse statistique. Cette approche permet aussi à plusieurs emplacements de fournir des données, tout en garantissant une protection rigoureuse de la vie privée. De cette façon, les données peuvent être regroupées, et les fournisseurs de données peuvent calculer des fonctions analytiques, sans qu’aucune des parties ne connaisse les entrées des autres. À l’aide de certains résultats théoriques et d’exemples réels issus du domaine des soins de santé, nous expliquerons comment le calcul sécurisé peut être appliqué dans des contextes pratiques.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014723
    Description :

    Le U.S. Census Bureau est à la recherche de façons d’utiliser les dossiers administratifs dans les opérations d’enquête et les opérations décennales afin de réduire les coûts et le fardeau des répondants, tout en préservant la qualité des données. Parmi les utilisations possibles des dossiers administratifs figure l’utilisation des données en l’absence de réponses sur la race et l’origine hispanique. Lorsque les dossiers administratifs fédéraux et de tiers sont compilés, les réponses concernant la race et l’origine hispanique ne sont pas toujours les mêmes pour la même personne dans les différentes sources de dossiers administratifs. Nous explorons différents ensembles de règles opérationnelles servant à attribuer une réponse pour la race et l’origine hispanique lorsque ces réponses diffèrent entre les sources. Nous décrivons aussi les caractéristiques des personnes dont les données sur la race et l’origine hispanique correspondent, ne correspondent pas et sont manquantes pour plusieurs variables démographiques, des ménages et contextuelles. Nous avons déterminé que les personnes appartenant à des minorités, et plus particulièrement les personnes d’origine hispanique, sont plus susceptibles d’avoir des réponses sur l’origine hispanique et la race qui ne correspondent pas dans les dossiers administratifs que dans le Recensement de 2010. Les Hispaniques sont moins susceptibles d’avoir des données manquantes sur l’origine hispanique, mais plus susceptibles d’avoir des données manquantes sur la race dans les dossiers administratifs. Les Asiatiques non hispaniques et les habitants des îles du Pacifique non hispaniques sont plus susceptibles d’avoir des données manquantes sur la race et l’origine hispanique dans les dossiers administratifs. Les personnes plus jeunes, les locataires, les personnes vivant dans des ménages de deux personnes ou plus, les personnes qui ont répondu au recensement dans le cadre de l’opération de suivi de la non-réponse ainsi que les personnes résidant dans des régions urbaines sont plus susceptibles d’avoir des réponses sur la race et l’origine ethnique qui ne correspondent pas.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014739
    Description :

    Les ensembles de données de la statistique de l’état civil, comme la Base canadienne de données sur la mortalité, n’ont pas d’identificateurs pour certaines populations d’intérêt, comme les Premières Nations, les Métis et les Inuits. Le couplage d’enregistrements entre les données de la statistique de l’état civil et les ensembles de données d’enquête ou autres ensembles de données administratives peuvent permettre de contourner cette limite. Le présent document décrit un couplage de la Base canadienne de données sur la mortalité et du Recensement de la population de 2006, ainsi que l’analyse prévue à partir des données couplées.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014732
    Description :

    L’Institute for Employment Research (IAB) est le service de recherche de l’Agence fédérale allemande de placement. Par l’entremise du Centre de données de recherche (FDZ) à l’IAB, des données administratives et des données d’enquête sur les personnes et les établissements sont fournies aux chercheurs. En collaboration avec l’Institute for the Study of Labor (IZA), le FDZ a mis en œuvre l’application de soumission des travaux (JoSuA), qui permet aux chercheurs de soumettre des travaux, en vue du traitement des données à distance grâce à une interface Web personnalisée. Par ailleurs, deux types de fichiers de sortie produits pour l’utilisateur peuvent être reconnus dans l’environnement JoSuA, ce qui permet de fournir des services d’examen de la divulgation plus rapides et plus efficaces.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014747
    Description :

    La Base de données longitudinales sur les immigrants (BDIM) combine des données du Fichier des immigrants reçus (FIR) et des fichiers annuels de l’impôt. Ce couplage d’enregistrements est effectué au moyen d’une base de données de déclarants fiscaux. Le FIR comprend tous les immigrants qui ont été admis au Canada depuis 1980. En vue de remanier la BDIM, on a étudié la possibilité d’ajouter les résidents temporaires (RT) et les immigrants qui ont été admis entre 1952 et 1979 (PRE80). L’ajout de ces renseignements donnerait un aperçu plus complet de la population immigrante vivant au Canada. Afin d’intégrer les fichiers des RT et des PRE80 dans la BDIM, on a procédé à un couplage d’enregistrements entre ces deux fichiers et la base de données des déclarants fiscaux. Cet exercice a posé un défi, en partie en raison de la présence d’enregistrements en double dans les fichiers et de liens conflictuels entre les différents couplages d’enregistrements.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014282
    Description :

    Le Panel des établissements de l’IAB est l’enquête auprès des établissements la plus complète qui soit menée en Allemagne, 16 000 entreprises y participant chaque année. Des interviews sur place en utilisant papier et crayon (IPC) sont réalisées depuis 1993. Un projet courant a pour objet d’examiner les effets possibles du passage de l’enquête à la méthode d’interview sur place assistée par ordinateur (IPAO) combinée à une version en ligne du questionnaire (IWAO). En guise de première étape, des questions sur l’accès à Internet, le désir de remplir le questionnaire en ligne et les raisons du refus ont été incluses dans la vague de 2012 de l’enquête. Les premiers résultats révèlent un refus généralisé de participer à une enquête en ligne. Un examen plus approfondi montre que les petits établissements, les participants de longue date à l’enquête et les répondants d’un certain âge sont réticents à l’idée d’utiliser Internet.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014262
    Description :

    Bien que l’erreur de mesure soit une source de biais en analyse statistique, ses conséquences possibles sont pour la plupart ignorées. Les modèles à effets fixes représentent une classe de modèles sur lesquels l’erreur de mesure peut avoir une incidence particulière. La validation des réponses recueillies lors de cinq vagues d’une enquête par panel sur les prestations d’aide sociale au moyen de données de registre a permis de déterminer la taille et la forme de l’erreur de mesure longitudinale. L’étude montre que l’erreur de mesure des prestations d’aide sociale est autocorrélée et non différentielle. Toutefois, si l’on estime les coefficients des modèles à effets fixes longitudinaux des prestations d’aide sociale en fonction de l’état de santé subjectif pour les hommes et pour les femmes, les coefficients ne sont biaisés que pour la sous-population masculine.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800011014
    Description :

    Dans de nombreux pays, l'amélioration des statistiques économiques est au nombre des grandes priorités du 21e siècle. L'accent est mis, d'abord et avant tout, sur la qualité des comptes nationaux, tant annuels que trimestriels. À cet égard, la qualité des données sur les entreprises les plus grandes joue un rôle essentiel. L'analyse de cohérence est un outil fort utile pour s'assurer que les données fournies par ces entreprises sont de bonne qualité. Par cohérence, nous entendons que les données provenant de diverses sources concordent et brossent un tableau logique du développement de ces entreprises. Une analyse de cohérence efficace est généralement une tâche ardue qui consiste principalement à recueillir des données de différentes sources afin de les comparer de façon structurée. Au cours des deux dernières années, de grands progrès ont été accomplis à Statistics Sweden en ce qui concerne l'amélioration des routines servant à l'analyse de cohérence. Nous avons construit un outil TI qui recueille les données sur les plus grandes entreprises auprès d'un grand nombre de sources et les présente de manière structurée et logique, et nous avons élaboré une approche systématique d'analyse trimestrielle des données destinée aux comptes nationaux. Le présent article décrit les travaux effectués dans ces deux domaines et donne un aperçu de l'outil TI et des routines retenues.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010991
    Description :

    Dans le processus d'évaluation des plans d'enquête prospectifs, les organismes statistiques doivent généralement tenir compte d'un grand nombre de facteurs pouvant avoir une incidence considérable sur le coût de l'enquête et la qualité des données. Or, les compromis entre le coût et la qualité sont souvent compliqués par les limites relatives à la quantité d'information disponible au regard des coûts fixes et des coûts marginaux liés au remaniement des instruments et à leur mise à l'essai sur le terrain, au nombre d'unités d'échantillonnage du premier degré et d'éléments compris dans l'échantillon, à l'affectation de sections d'instrument et aux modes de collecte appropriés pour des éléments d'échantillon précis ainsi qu'au nombre d'interviews et à leur périodicité (dans le cas des enquêtes longitudinales). D'autre part, les concepteurs disposent souvent de renseignements limités sur l'incidence de ces facteurs sur la qualité des données.

    Les auteurs appliquent des méthodes normalisées d'optimisation de la conception pour neutraliser l'incertitude entourant les composantes susmentionnées liées au coût et à la qualité. Une attention particulière est portée au niveau de précision requis des renseignements sur le coût et la qualité pour que ceux-ci soient d'une quelconque utilité dans le processus de conception, à la nature délicate des compromis coût-qualité relativement aux changements dans les hypothèses concernant les formes fonctionnelles ainsi qu'aux répercussions des travaux préliminaires au regard de la collecte de renseignements sur le coût et la qualité. De plus, la communication examine les différences entre le coût et la qualité dans la mise à l'essai sur le terrain et le travail de production, l'intégration des renseignements sur le coût et la qualité sur le plan de la production à l'adaptation de la conception de même que les coûts et les risques opérationnels découlant de la collecte de données détaillées sur le coût et la qualité pendant la phase de production. Les méthodes proposées sont motivées par le travail avec le remaniement cloisonné de l'interview et les composantes liées au journal de la Consumer Expenditure Survey des États-Unis.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010970
    Description :

    RTI International mène une étude longitudinale sur l'éducation. L'un des volets de l'étude consistait à recueillir des relevés de notes et des catalogues de cours auprès des écoles secondaires fréquentées par les personnes comprises dans l'échantillon. Il fallait aussi saisir et coder les renseignements tirés de ces documents. Le défi était de taille puisque les relevés et les catalogues, dont le contenu et la présentation variaient grandement, ont été recueillis auprès de différents types d'écoles, dont des écoles publiques, privées et religieuses de tout le pays. La difficulté consistait à concevoir un système perfectionné pouvant être utilisé simultanément par de nombreux utilisateurs. RTI a mis au point un système de saisie et de codage des données tirées des relevés de notes et des catalogues de cours d'études secondaires. Doté de toutes les caractéristiques d'un système de saisie et de codage haut de gamme, évolué, multi-utilisateur, multitâche, convivial et d'entretien peu coûteux, le système est basé sur le Web et possède trois grandes fonctions : la saisie et le codage des données des relevés et des catalogues, le contrôle de la qualité des données à l'étape de la saisie (par les opérateurs) et le contrôle de la qualité des données à l'étape du codage (par les gestionnaires). Compte tenu de la nature complexe de la saisie et du codage des données des relevés et des catalogues, le système a été conçu pour être souple et pour permettre le transport des données saisies et codées dans tout le système afin de réduire le temps de saisie. Il peut aussi guider logiquement les utilisateurs dans toutes les pages liées à un type d'activité, afficher l'information nécessaire pour faciliter la saisie et suivre toutes les activités de saisie, de codage et de contrôle de la qualité. Les données de centaines de catalogues et de milliers de relevés de notes ont été saisies, codées et vérifiées à l'aide du système. La présente communication aborde les besoins et la conception du système, les problèmes de mise en oeuvre et les solutions adoptées, ainsi que les leçons tirées de cette expérience.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010987
    Description :

    Ces dernières années, d'importants progrès ont été réalisés dans le domaine de la collecte des données en ligne. Aujourd'hui, un grand nombre de bureaux de la statistique offrent une option de réponse en ligne pour de nombreux types d'enquête. L'opinion selon laquelle la collecte de données en ligne peut accroître la qualité des données tout en réduisant les coûts de collecte est très répandue. L'expérience a montré que les entreprises auxquelles a été offerte l'option de remplir un questionnaire en ligne au lieu d'un questionnaire imprimé ont mis du temps à adopter l'option en ligne. Par ailleurs, les expériences ont également montré qu'en favorisant la réponse en ligne plutôt que l'utilisation d'un questionnaire imprimé, il est possible d'accroître le taux d'adoption de l'option en ligne. Cependant, les études décrivant ce qui se passe lorsque la stratégie de prise de contact est modifiée radicalement et que l'option de réponse en ligne est la seule offerte dans une enquête auprès des entreprises complexe sont encore rares. En 2008, Statistics Sweden a décidé d'utiliser une stratégie axée à peu près uniquement sur le Web dans l'enquête sur la production industrielle (PRODCOM). Le questionnaire en ligne a été élaboré au moyen de l'outil généralisé de conception d'enquêtes en ligne utilisé par l'organisme. Le présent article décrit la solution en ligne et certaines expériences relatives à l'enquête PRODCOM de 2008, y compris les données de traitement sur les taux de réponse et les ratios d'erreurs, ainsi que les résultats d'un suivi cognitif à l'enquête. Certaines importantes leçons apprises sont également présentées.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010956
    Description :

    L'utilisation de l'interview enregistrée assistée par ordinateur (IEAO) comme outil pour déceler la falsification des interviews est de plus en plus fréquente dans les études par sondage (Biemer, 2000, 2003; Thissen, 2007). De même, les spécialistes de la recherche sur les enquêtes commencent à accroître l'utilité de l'IEAO en combinant les enregistrements sonores au codage pour résoudre les problèmes de qualité des données (Herget, 2001; Hansen, 2005; McGee, 2007). La communication porte sur les résultats d'une étude intégrée dans la National Home and Hospice Care Survey (NHHCS) réalisée auprès des établissements de santé par le National Center for Health Statistics, dans laquelle le codage du comportement fondé sur l'IEAO et des paradonnées particulières à l'IEAO ont été utilisés pour 1) repérer et corriger les problèmes de comportement des intervieweurs ou ceux relatifs aux questions au début de la période de collecte des données, avant qu'ils n'aient un effet négatif sur la qualité des données et 2) trouver des moyens de réduire l'erreur de mesure dans les futures exécutions de la NHHCS. Au cours des neuf premières semaines de la période de travail sur le terrain de 30 semaines, l'IEAO a été utilisée pour enregistrer chez tous les intervieweurs l'administration d'un sous-ensemble de questions de l'application de la NHHCS. Les enregistrements ont été reliés à l'application d'interview et aux données de sortie, puis codés selon l'un de deux modes, à savoir le codage par intervieweur ou le codage par question. La méthode de codage par intervieweur a permis d'examiner les problèmes particuliers à un intervieweur, ainsi que les problèmes plus généraux s'appliquant éventuellement à tous les intervieweurs. La méthode de codage par question a produit des données fournissant des éclaircissements sur l'intelligibilité des questions et d'autres problèmes de réponse. Sous ce mode, les codeurs ont codé plusieurs applications de la même question par plusieurs intervieweurs. Grâce à l'approche du codage par question, les chercheurs ont relevé des problèmes ayant trait à trois questions importantes de l'enquête durant les premières semaines de la collecte des données et ont donné aux intervieweurs des directives quant à la façon de traiter ces questions à mesure que la collecte des données s'est poursuivie. Les résultats du codage des enregistrements sonores (qui étaient reliés à l'application d'enquête et aux données de sortie) fourniront des renseignements qui permettront d'améliorer l'énoncé des questions et la formation des intervieweurs en prévision de la prochaine vague de la NHHCS et orienteront les travaux en vue de poursuivre l'amélioration de l'application d'IEAO et du système de codage.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110809
    Description :

    L'échantillonnage par grappes et l'échantillonnage à plusieurs degrés nécessitent l'échantillonnage d'unités auprès de plus d'une population. Il y a habituellement de l'information auxiliaire disponible sur la population et sur l'échantillon à chacun de ces niveaux. Les poids de calage d'un échantillon sont généralement produits uniquement au moyen de l'information auxiliaire à ce niveau. Cette approche laisse de côté de l'information disponible aux autres niveaux. En outre, il est souvent utile de coupler les poids de calage entre les échantillons à différents niveaux. Grâce à la pondération intégrée de l'échantillonnage par grappes, les poids des unités d'une grappe sont tous identiques et équivalents au poids de la grappe. On présente une généralisation de la pondération intégrée aux plans d'échantillonnage à plusieurs degrés. Ce processus s'appelle la pondération couplée.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110410
    Description :

    Survey of Occupational Illnesses and Injuries (SOII) des États Unis est une enquête à grande échelle effectuée auprès des établissements et réalisée par le Bureau of Labor Statistics. Elle a pour but de mesurer les taux d'incidence et les conséquences des maladies et des blessures professionnelles dans certaines industries à l'échelle du pays et de l'État. À l'heure actuelle, cette enquête s'appuie sur des méthodes relativement simples pour la détection et le traitement des valeurs aberrantes. Les méthodes de détection des valeurs aberrantes reposent sur la comparaison des taux d'incidence déclarés en ce qui concerne l'établissement à la distribution correspondante des déclarations dans des cellules particulières définies par le croisement des classifications selon l'État et selon l'industrie. Les méthodes de traitement comportent le remplacement des poids probabilistes type par un poids dont la valeur est fixée à un, suivi par un étalonnage.

    Des méthodes plus complexes pourraient être utilisées pour la détection et le traitement des valeurs aberrantes dans la SOII, par exemple des méthodes de détection qui s'appuient sur des fonctions d'influence, des poids probabilistes et des observations multivariées, ou des méthodes de traitement fondées sur la winsorisation ou l'estimation M. L'évaluation des avantages pratiques de ces méthodes plus complexes nécessite la prise en considération de trois facteurs importants. Premièrement, les valeurs très extrêmes sont relativement rares, mais lorsqu'elles se produisent, elles peuvent avoir un effet important sur les estimateurs de la SOII dans les cellules définies par le croisement des États et des industries. Par conséquent, l'évaluation pratique de l'effet des méthodes de détection des valeurs aberrantes se concentre principalement sur les queues des distributions des estimateurs, plutôt que sur les mesures de performance agrégées normalisées, comme la variance ou l'erreur quadratique moyenne. Deuxièmement, les évaluations analytiques et fondées sur des données sont axées sur l'amélioration progressive obtenue grâce à l'utilisation de méthodes plus complexes, comparativement aux résultats produits par les méthodes simples suivies à l'heure actuelle. Troisièmement, l'élaboration des outils susmentionnés nécessite le recours à une théorie asymptotique qui n'est pas tout à fait standard pour refléter les compromis en ce qui a trait aux effets associés à, respectivement, l'accroissement de la taille des échantillons, l'accroissement du nombre de cellules pour la publication et l'évolution des queues des distributions sous jacentes des observations.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110442
    Description :

    Le projet Healthy Outcomes of Pregnancy Education du district de Columbia est un essai randomisé financé par le National Institute of Child Health and Human Development et visant à mettre à l'essai l'efficacité d'une intervention intégrée de sensibilisation et de counselling (IISC) comparé aux soins habituels (SH) afin de réduire quatre comportements à risque chez les femmes enceintes. Les participantes ont été interviewées quatre fois. On a eu recours à la technique de l'imputation multiple pour estimer les données des interviews manquantes. La technique de l'imputation multiple a été appliquée deux fois : toutes les données ont été imputées simultanément une première fois et les données concernant les femmes des groupes IISC et SH ont été imputées séparément une deuxième fois. Les résultats des analyses des ensembles de données imputées et des données avant imputation sont comparés.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110409
    Description :

    Dans le cas de l'échantillonnage avec probabilités de sélection inégales, les corrélations entre les probabilités de sélection et les données échantillonnées peuvent induire un biais. Pour le corriger, on fait souvent appel à des poids de sondage correspondant à l'inverse de la probabilité de sélection. Les plans d'échantillonnage fortement disproportionnels donnent lieu à des poids élevés, susceptibles d'introduire une variabilité superflue dans des statistiques telles que l'estimation de la moyenne de la population. L'élagage des poids consiste à réduire ceux dont la valeur est élevée à une valeur seuil fixée et à rajuster ceux dont la valeur est inférieure à ce seuil afin que leur somme demeure égale à celle des poids non élagués. Cet élagage réduit la variabilité, mais introduit un certain biais. Les méthodes habituelles ne sont pas « guidées par les données », c'est à dire qu'elles ne se fondent pas sur les données pour arriver au compromis biais variance approprié, ou bien elles le font de façon très inefficace. Cette communication décrit l'élaboration de méthodes bayésiennes de sélection des variables pour l'élagage des poids destinées à compléter les méthodes habituelles, ponctuelles, fondées sur le plan de sondage, lors de l'utilisation de plans à probabilités d'inclusion disproportionnelles où les variances dues aux poids de sondage excèdent la correction pour le biais. Ces méthodes sont utilisées pour estimer les paramètres de population provenant de modèles de régression linéaire et de régression linéaire généralisée dans le contexte de plans d'échantillonnage à probabilités de sélection connues stratifiés et stratifiés a posteriori. Des applications seront décrites dans le cas de données provenant d'enquêtes sur les blessures causées par des accidents de circulation, pour lesquelles des plans de sondage fortement disproportionnels sont souvent utilisés.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019445
    Description :

    La communication décrit une application novatrice de l'exploration des données à des données de réponses et des métadonnées pour dépister, caractériser et prévenir la falsification sur le terrain par les intervieweurs de la National Survey on Drug Use and Health (NSDUH). La falsification des données par l'intervieweur est la création délibérée de réponses par l'intervieweur sans intervention du répondant.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019455
    Description :

    L'initiative de documentation de données (DDI) est une norme internationale employée pour développer les métadonnées. L'initiative de démocratisation des données (IDD) en partenariat avec certaines universités associées, y compris l'université de Guelph, a comme but de créer des métadonnées pour toutes les enquêtes de Statistique Canada disponibles à la communauté de l'IDD.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20040018747
    Description :

    Ce document décrit l'élaboration et le projet pilote d'une première enquête sur le tabagisme auprès des Amérindiens et des Autochtones de l'Alaska. Des réunions avec des comités d'experts et des représentants tribaux ont permis d'adapter des méthodes.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018749
    Description :

    Pour mesurer la santé mentale des réfugiés cambodgiens aux É-U, ce document présente une nouvelle méthode efficiente de dénombrement, de sélection et de caractérisation des ménages afin de créer un échantillon aléatoire de participants admissibles.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018755
    Description :

    Ce document examine la robustesse des méthodes traitant les erreurs de réponses pour des populations rares. Il examine aussi les problèmes de pondération pour ces populations. Il élabore un cadre de travail asymptotique pour traiter ces problèmes.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20030017700
    Description :

    Ce document propose un cadre utile pour examiner l'incidence des écarts modérés à partir de conditions idéalisées. On présente également des critères d'évaluation pour les estimateurs ponctuels et les estimateurs d'intervalles.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016750
    Description :

    Les analyses de données provenant d'enquêtes sociales et économiques s'appuient parfois sur des modèles à fonction généralisée de la variance pour adoucir la variance due au plan de sondage des estimateurs ponctuels des moyennes et des proportions de population. Les analystes peuvent utiliser les estimations résultantes de l'erreur type pour calculer les intervalles de confiance ou les variables à tester pour les moyennes et les proportions étudiées. Comparativement aux estimateurs de la variance basés sur le plan de sondage calculés directement à partir des microdonnées d'enquête, les modèles à fonction généralisée de la variance peuvent offrir plusieurs avantages. Comme le révèle cette étude, ces avantages sont la simplicité des opérations, une plus grande stabilité des erreurs types et, dans le cas où l'on utilise des ensembles de données à grande diffusion, la réduction des problèmes de limitation de la divulgation des renseignements personnels que pose la grande diffusion d'indicateurs de strates et de grappes.

    Cependant, plusieurs problèmes d'inférence peuvent annuler en partie ces avantages éventuels. Premièrement, les propriétés des statistiques inférentielles fondées sur des fonctions généralisées de la variance (par exemple, le taux de couverture et de largeur des intervalles de confiance) dépendent fortement de l'importance empirique relative des composantes de la variabilité associée, respectivement, à :

    a) la sélection aléatoire d'un sous-ensemble d'items utilisés pour estimer le modèle à fonction généralisée de la variance; b) la sélection d'unités d'échantillonnage conformément à un plan d'échantillonnage complexe; (c) le mauvais ajustement du modèle à fonction généralisée de la variance; d) la génération d'une population finie sous les conditions d'un modèle de superpopulation.

    Deuxièmement, sous certaines conditions, on peut lier chacune des composantes (a) à (d) à diverses mesures empiriques de l'adéquation prédictive d'un modèle à fonction généralisée de la variance. Par conséquent, ces mesures d'adéquation prédictive peuvent fournir certains éclaircissements sur la mesure à laquelle un modèle à fonction généralisée de la variance donné convient à l'inférence dans des applications particulières.

    Enfin, certains tests et diagnostics proposés sont appliqués aux données de la U.S. Survey of Doctoral Recipients et de la U.S. Current Employment Survey. La Survey of Doctoral Recipients s'occupe principalement des composantes (a), (c) et (d), alors que la Current Employment Survey accorde plutôt de l'importance aux composantes (b), (c) et (d). La disponibilité de microdonnées de population permet le développement de modèles particulièrement détaillés pour les composantes (b) et (c).

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016714
    Description :

    Dans cet article de nature très technique, on illustre l'application de la méthode de l'estimateur de la variance par le jackknife avec suppression d'un groupe à une étude longitudinale complexe à plusieurs cycles, montrant son utilité pour les modèles de régression linéaire et d'autres modèles analytiques. L'estimateur de la variance par le jackknife avec suppression d'un groupe représente un outil fort utile de mesure de la variance en cas de plan d'échantillonnage complexe. Cette méthode consiste à : diviser l'échantillon de premier degré en groupes mutuellement exclusifs et de variances presque égales; supprimer un groupe à la fois pour créer un ensemble de répétitions; procéder, sur chaque répétition, à des redressements par pondération analogues à ceux effectués sur l'échantillon dans son ensemble. L'estimation de la variance se fait selon la méthode usuelle (non stratifiée) du jackknife.

    On applique la méthode au Chicago Health and Aging Project (CHAP), une étude longitudinale communautaire visant à examiner les facteurs de risque de problèmes de santé chroniques chez les personnes âgées. L'un des objectifs importants de l'étude est d'examiner les facteurs de risque de la manifestation de la maladie d'Alzheimer. Le plan de sondage courant du CHAP comprend deux composantes : (1) Tous les trois ans, l'ensemble des membres survivants de la cohorte sont interviewés sur divers sujets liés à la santé. Ces interviews incluent des mesures des fonctions cognitives et physiques. (2) Durant chaque cycle de collecte des données, un échantillon de Poisson stratifié est sélectionné parmi les répondants à l'interview couvrant la population dans son ensemble afin de procéder à un examen clinique détaillé et à des tests neuropsychologiques. Pour étudier les facteurs de risque liés aux nouveaux cas de maladie, on définit une cohorte de personnes « exemptes de la maladie » au point précédent dans le temps et celle-ci forme une strate importante dans la base de sondage.

    On donne des preuves de l'applicabilité théorique du jackknife avec suppression d'un groupe à des estimateurs particuliers dans les conditions de cet échantillonnage de Poisson, en accordant l'attention nécessaire à la distinction entre l'inférence en population finie et en population infinie (modèle). En outre, on examine le problème de la détermination du « nombre correct » des groupes de variance.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016718
    Description :

    Les études de surveillance du cancer nécessitent des estimations exactes des facteurs de risque à l'échelon régional. Ces données sur les facteurs de risque proviennent souvent d'enquêtes comme la National Health Interview Survey (NHIS) ou la Behavioral Risk Factors Surveillance Survey (BRFSS). Malheureusement, aucune enquête avec échantillon représentatif de la population ne fournit des estimations idéales de la prévalence de ces facteurs de risque.

    Une stratégie consiste à rassembler l'information provenant d'enquêtes multiples en tablant sur les points forts complémentaires d'une enquête pour compenser les faiblesses d'une autre. La NHIS est une enquête nationale par interview directe ayant un taux de réponse élevé; cependant, elle ne permet pas de produire des estimations de la prévalence des facteurs de risque à l'échelon de l'État ou à l'échelon infra État, parce que la taille des échantillons est trop faible. La BRFSS est une enquête téléphonique à l'échelon de l'État dont sont exclus les ménages n'ayant pas le téléphone et dont le taux de réponse est faible, mais elle fournit des tailles d'échantillon raisonnables pour tous les États et pour de nombreux comtés. Plusieurs méthodes existent pour construire des estimateurs régionaux qui rassemblent de l'information provenant de la NHIS et de la BRFSS, y compris des estimateurs directs, des estimateurs à modèles hiérarchiques bayesiens et des estimateurs assistés par modèle. Cet article porte principalement sur les derniers; on construit des estimateurs de régression généralisée (GREG) et des estimateurs de la « distance minimale », et on utilise des techniques existantes et récemment mises au point de lissage régional pour lisser les estimateurs résultants.

    Date de diffusion : 2004-09-13

Date de modification :