Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (131)

Tout (131) (25 of 131 results)

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (27)

Analyses (27) (25 of 27 results)

  • Articles et rapports : 75-001-X200510613145
    Description :

    En général, les variations de l'emploi se reflètent assez fidèlement dans celles des heures travaillées. Mais récemment, la croissance de l'emploi a été beaucoup plus rapide que celle des heures. Un tel écart est sans précédent. Cela a donné lieu à une diminution des heures moyennes par travailleur équivalant à deux semaines de travail annuellement. De nombreux facteurs peuvent influer sur les heures travaillées. Certains sont de nature structurelle ou conjoncturelle, comme le vieillissement de la population, les changements dans la structure industrielle, le cycle économique, les catastrophes naturelles, les modifications législatives ou les préférences personnelles. D'autres découlent de la méthodologie d'enquête. Quelle est la contribution de ces divers facteurs au déclin récent des heures travaillées?

    Date de diffusion : 2005-09-21

  • Articles et rapports : 11F0019M2005261
    Description :

    L'éducation des enfants est modélisée en tant que problème principal-agent modifié où l'enfant tâche de maximiser son propre bien-être face à une stratégie parentale destinée à maximiser la perception qu'a le parent du bien-être de la famille. Ainsi, les enfants et les parents sont tous des joueurs, mais les enfants ont des taux d'actualisation plus élevés que les parents. La simultanéité du style parental et du comportement des enfants est confirmée au moyen des données tirées de l'Enquête longitudinale nationale sur les enfants et les jeunes menée au Canada en 1994.

    Date de diffusion : 2005-08-02

  • Articles et rapports : 12-001-X20050018091
    Description :

    Diverses procédures en vue de construire des vecteurs de poids de régression non négatifs sont considérées. Un vecteur de poids de régression dans lequel les poids initiaux sont les inverses des probabilités de sélection conditionnelles approximatives est présenté. Une étude par simulation permet de comparer les poids obtenus par la régression pondérée, la programmation quadratique, la méthode itérative du quotient, une procédure logit et la méthode du maximum de vraisemblance.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018084
    Description :

    Les instituts nationaux de statistique intègrent parfois des expériences dans les enquêtes par sondage courantes afin d'étudier les effets éventuels de diverses techniques d'enquête sur les estimations des paramètres d'une population finie. En vue de tester les hypothèses au sujet des différences entre les estimations par sondage obtenues on applique diverses variantes de l'enquête, nous élaborons une théorie fondée sur le plan de sondage pour analyser des plans en randomisation totale ou des plans en blocs randomisés intégrés dans des plans de sondage complexes généraux. Pour ces deux types de plans d'expérience, nous établissons une statistique de Wald fondée sur le plan de sondage pour l'estimateur d'Horvitz-Thompson et pour l'estimateur par la régression généralisée. Enfin, nous illustrons la théorie au moyen d'une étude en simulation.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018085
    Description :

    Le couplage d'enregistrements est un processus qui consiste à apparier des enregistrements provenant de deux fichiers en essayant de sélectionner les paires dont les deux enregistrements appartiennent à une même entité. La démarche fondamentale consiste à utiliser un poids d'appariement pour mesurer la probabilité qu'un appariement soit correct et une règle de décision pour décider si une paire d'enregistrements constitue un « vrai » ou un « faux » appariement. Les seuils de poids utilisés pour déterminer si une paire d'enregistrements représente un appariement ou un non appariement dépend du niveau de contrôle souhaité sur les erreurs de couplage. Les méthodes appliquées à l'heure actuelle pour déterminer les seuils de sélection et estimer les erreurs de couplage peuvent donner des résultats divergents, selon le type d'erreur de couplage et la méthode de couplage. L'article décrit une étude de cas reposant sur les méthodes existantes de couplage pour former les paires d'enregistrements, mais sur une nouvelle approche de simulation (SimRate) pour déterminer les seuils de sélection et estimer les erreurs de couplage. SimRate s'appuie sur la distribution observée des données dans les paires appariées et non appariées afin de générer un grand ensemble simulé de paires d'enregistrements, d'attribuer un poids d'appariement à chacune de ces paires d'après les règles d'appariement spécifiées et d'utiliser les courbes de distribution des poids des paires simulées pour estimer l'erreur.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018094
    Description :

    Les modèles de régression à erreur emboîtée sont utilisés fréquemment pour l'estimation par petits domaines et les problèmes connexes. Cependant, l'application des critères standard de sélection du modèle de régression aux modèles à erreur emboîtée donne parfois lieu à des méthodes de sélection du modèle inefficaces. Nous illustrons ce point en examinant les propriétés de la statistique C_P au moyen d'une étude par simulation de Monte Carlo. L'inefficacité de la statistique C_P peut, cependant, être corrigée grâce à une transformation appropriée des données.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018089
    Description :

    Nous utilisons des modèles hiérarchiques bayésiens pour analyser les données sur l'indice de masse corporelle (IMC) des enfants et des adolescents en présence de non réponse non-ignorable, c'est-à-dire informative, tirées de la troisième National Health and Nutrition Examination Survey (NHANES III). Notre objectif est de prédire l'IMC moyen en population finie et la proportion de répondants pour les domaines formés par l'âge, la race et le sexe (covariables dans les modèles de régression) pour chacun des 35 grands comtés, en tenant compte des non répondants. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles (deux modèles de sélection et deux modèles de mélange de schémas d'observation) aux données sur l'IMC provenant de la NHANES III. Au moyen d'une mesure de déviance et d'une étude de validation croisée, nous montrons que le modèle de sélection sous non réponse non-ignorable est le meilleur des quatre modèles. Nous montrons aussi que l'inférence au sujet de l'IMC n'est pas trop sensible au choix du modèle. Nous obtenons une amélioration en incluant une régression spline dans le modèle de sélection pour tenir compte de l'évolution de la relation entre l'IMC et l'âge.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018083
    Description :

    L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018092
    Description :

    En échantillonnage, quand on dispose d'information auxiliaire, il est bien connu que l'« estimateur (par la régression) optimal » fondé sur le plan de sondage d'un total ou d'une moyenne de population finie est (du moins asymptotiquement) plus efficace que l'estimateur GREG correspondant. Nous illustrerons ce fait au moyen de simulations avec échantillonnage stratifié à partir de populations à distribution asymétrique. Au départ, l'estimateur GREG a été construit au moyen d'un modèle linéaire de superpopulation auxiliaire. Il peut aussi être considéré comme un estimateur par calage, c'est à dire un estimateur linéaire pondéré, où les poids obéissent à l'équation de calage et, sous cette contrainte, sont aussi proches que possible des « poids d'Horvitz Thompson » originaux (d'après une mesure de distance appropriée). Nous montrons que l'estimateur optimal peut aussi être considéré comme un estimateur par calage à cet égard avec une mesure quadratique de distance étroitement liée à celle générant l'estimateur GREG. Nous donnons aussi des exemples simples révélant qu'il n'est pas toujours facile d'obtenir cette nouvelle mesure.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018086
    Description :

    La technique du dénombrement d'items (item count technique) est une méthode de questionnement indirect qui a été conçue pour estimer la proportion de personnes pour lesquelles un item important de nature délicate est vrai. Elle consiste à demander aux répondants d'indiquer, parmi une liste de phrases descriptives, le nombre d'entre elles qu'ils estiment s'appliquer à eux. Une liste comprenant l'item clé est présentée à une moitié de l'échantillon et une liste ne le contenant pas est présentée à l'autre moitié. La différence entre les nombres moyens de phrases sélectionnées est un estimateur de la proportion recherchée. Dans le présent article, nous proposons deux nouvelles méthodes, appelées méthode par croisement et méthode par double croisement, où les proportions dans les sous groupes ou domaines sont estimées d'après les données obtenues par la technique du dénombrement d'items. Afin d'évaluer la précision des méthodes proposées, nous réalisons des expériences par simulation au moyen de données tirées d'une enquête sur le caractère national japonais. Les résultats montrent que la méthode par double croisement est beaucoup plus précise que la méthode stratifiée traditionnelle et moins susceptible de produire des estimations illogiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050019190
    Description :

    La rubrique Dans ce numéro contient une brève présentation par le rédacteur en chef de chacun des articles contenus dans le présent numéro de Techniques d'enquête. Aussi, on y trouve parfois quelques commentaires sur des changements dans la structure ou la gestion de la revue.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018093
    Description :

    Il est fréquent de se servir de l'expression bien connue de l'effet du plan dû à la mise en grappes élaborée par Kish pour éclairer le processus d'élaboration du plan d'échantillonnage en utilisant une approximation telle que b_barre à la place de b. Cependant, si le plan comprend une pondération ou une variation de la taille des grappes, cette approximation peut être médiocre. Dans le présent article, nous discutons de la sensibilité de l'approximation aux écarts par rapport aux hypothèses implicites et proposons une approximation de rechange.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 91F0015M2005007
    Description :

    Le Programme des estimations de population de Statistique Canada utilise des estimations de migration interne provenant des sources de données administratives. Deux versions d'estimations de migration sont présentement disponibles, provisoires (P), d'après l'information de crédit d'impôt pour enfants et définitives (D), produites à partir des rapports d'impôt sur le revenu. Pour certaines dates de références, ces versions peuvent être différentes de manière significative. Ce document résume les recherches entreprises à la Division de la démographie afin de modifier la méthode actuelle visant à diminuer l'écart entre ces estimations. Après une brève analyse des différences, six méthodes sont expérimentées : 1) régression des sortants; 2) régression des entrants et des sortants, séparément; 3) régression de la migration nette; 4) la moyenne mobile à pondération exponentielle; 5) l'approche du U.S. Bureau of Census; et 6) méthode de régression de la différence première. Il semble que les méthodes où on combine estimations provisoires et définitives pour l'estimation provisoire de la migration nette (méthode 3) sont le meilleur moyen d'accroître la convergence de ces estimations de la migration interne pour le Programme des estimations de la population. Il est alors possible de « lisser » certaines tendances irrégulières que présentent les estimations PFE, tout en conservant la possibilité d'appréhender par cette source d'information les variations courantes des tendances migratoires.

    Date de diffusion : 2005-06-20

  • Articles et rapports : 89-552-M2005013
    Description :

    Le présent rapport documente les principaux aspects de l'élaboration de l'Enquête internationale sur l'alphabétisation et les compétences des adultes (EIACA) - les origines théoriques de l'enquête, les domaines soumis à une éventuelle évaluation, les méthodes retenues pour l'évaluation de chaque domaine et les critères employés pour retenir les domaines dans le plan définitif de l'enquête. Dans sa conception même, l'EIACA prend appui sur les forces des évaluations menées dans le cadre de l'Enquête internationale sur l'alphabétisation des adultes (EIAA) en élargissant l'éventail des compétences évaluées et en améliorant la qualité des méthodes d'évaluation utilisées. Le présent rapport fait état de plusieurs réalisations, notamment : - l'élaboration d'un nouveau cadre et de mesures connexes robustes pour la résolution de problèmes; - l'élaboration d'un cadre solide et de mesures connexes robustes pour la numératie; - la spécification des cadres pour les capacités cognitives pratiques, le travail d'équipe et la littératie en matière de technologie des communications. Le rapport examine également les domaines pour lesquels des méthodes d'évaluation de qualité suffisante n'ont pu être mises au point, ce qui nous rappelle que les progrès scientifiques dans ce domaine exigent des efforts considérables.

    Date de diffusion : 2005-03-24

  • Articles et rapports : 12-001-X20040027751
    Description :

    Nous examinons de nouveau la relation entre les effets de plan pour l'estimateur pondéré du total et l'estimateur pondéré de la moyenne sous échantillonnage complexe. Nous donnons des exemples sous diverses conditions. En outre, au moyen d'exemples, nous corrigeons certaines idées fausses concernant les effets de plan.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027749
    Description :

    Nous dérivons un algorithme simple et pratique permettant d'établir des bornes de stratification telles que les coefficients de variation soient égaux dans chaque strate pour des populations positivement asymétriques. Nous montrons que, comparativement à la méthode de la fonction cumulative de la racine carrée des fréquences (Dalenius et Hodges 1957) et à la méthode d'approximation de Lavallée et l'Hidiroglou (1988), le nouvel algorithme est avantageux pour l'estimation des bornes optimales de stratification.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027750
    Description :

    La reconnaissance intelligente de caractère (RIC) est une nouvelle technologie de saisie des données d'usage très répandu. Statistique Canada l'a utilisée pour la première fois pour traiter les données du Recensement de l'agriculture du Canada de 2001. Cet exercice a posé de nombreux défis d'ordre tant opérationnel que méthodologique. Le présent article donne un aperçu des outils méthodologiques utilisés pour mettre en place un système de RIC efficace. Puisque le risque d'erreur est élevé aux diverses étapes de l'opération, des méthodes et des procédures d'assurance de la qualité (AQ) et de contrôle de la qualité (CQ) ont été intégrées à celle ci afin de s'assurer du haut degré d'exactitude des données saisies. L'article décrit ces méthodes d'AQ/CQ ainsi que leur résultat et montre comment ont été réalisées les améliorations de la qualité dans l'opération de saisie des données par RIC. Il souligne aussi les effets positifs de ces procédures sur l'opération de saisie.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027755
    Description :

    Plusieurs organismes statistiques utilisent, ou considèrent utiliser, l'imputation multiple pour limiter le risque de divulguer l'identité des répondants ou certains attributs délicats dans les fichiers de données à grande diffusion. Par exemple, ces organismes peuvent diffuser des ensembles de données partiellement synthétiques comprenant les unités étudiées originellement, où certaines valeurs recueillies, comme les valeurs délicates posant un risque élevé de divulgation ou les valeurs d'identificateurs clés, sont remplacées par des imputations multiples. Le présent article décrit une approche permettant de générer des ensembles de données partiellement synthétiques multi imputés pour traiter simultanément le contrôle de la divulgation et les données manquantes. L'idée fondamentale consiste à imputer d'abord les valeurs manquantes pour produire m ensembles de données complets, puis à remplacer dans chaque ensemble de données complet les valeurs délicates ou permettant l'identification par r valeurs imputées. L'article décrit aussi des méthodes permettant de faire des inférences valides à partir d'ensembles de données multi imputés de ce genre. De nouvelles règles sont nécessaires pour combiner les estimations ponctuelles et de variances multiples, parce que les deux étapes d'imputation multiple introduisent dans les estimations ponctuelles deux sources de variabilité que les méthodes existantes d'obtention d'inférences à partir d'ensembles de données multi imputés ne mesurent pas correctement. Une loi t de référence appropriée pour l'inférence quand les valeurs de m et r sont moyennes est établie au moyen d'approximations par appariement de moments et par développement en série de Taylor.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027752
    Description :

    Le meilleur estimateur (ou prédicteur) linéaire sans biais (BLU) d'un total de population est fondé sur les deux hypothèses suivantes : i) le modèle d'estimation qui sous tend l'estimateur BLU est spécifié correctement et ii) le plan de sondage est ignorable en ce qui concerne le modèle d'estimation. Dans ce contexte, un estimateur est robuste si sa distribution demeure proche de celle de l'estimateur BLU lorsque les deux hypothèses tiennent et s'il retient de bonnes propriétés lorsque l'une des hypothèses ou les deux ne sont pas entièrement satisfaites. La robustesse aux écarts par rapport à l'hypothèse (i) est appelée robustesse au modèle, tandis que la robustesse aux écarts par rapport à l'hypothèse (ii) est appelée robustesse au plan de sondage. On considère souvent que l'estimateur par la régression généralisée (GREG) est robuste, puisque sa propriété d'être asymptotiquement sans biais par rapport au plan (ASBP) ne dépend ni de l'hypothèse (i) ni de l'hypothèse (ii). Toutefois, si ces deux hypothèses tiennent, l'estimateur GREG est parfois nettement moins efficace que l'estimateur BLU et, en ce sens, n'est pas robuste. L'inefficacité relative de l'estimateur GREG comparativement à l'estimateur BLU est due à la grande dispersion des poids de sondage. Afin d'obtenir un estimateur robuste au plan de sondage, nous proposons donc un compromis entre ces deux estimateurs. Cette approche offre aussi une certaine protection contre les écarts par rapport à l'hypothèse (i). Toutefois, elle ne protège pas contre les données aberrantes, qui peuvent être considérées comme la conséquence d'une erreur de spécification du modèle. Pour traiter les données aberrantes, nous utilisons la technique de l'estimation M généralisée pondérée pour réduire l'influence des unités pour lesquelles les résidus pondérés de population sont importants. Nous proposons deux moyens pratiques de mettre en oeuvre les estimateurs M dans le cas d'enquêtes polyvalentes; soit nous modifions le poids des unités influentes et adoptons une approche par calage pour obtenir un ensemble unique de poids d'estimation robustes soit nous modifions les valeurs des unités influentes. Nous évaluons certaines propriétés de l'approche proposée au moyen d'une étude en simulation portant sur une population finie asymétrique créée à partir de données d'enquête réelles.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027758
    Description :

    Nous étudions l'utilisation de réseaux neuronaux bayésiens pour l'estimation en population finie. Nous proposons des estimateurs de la moyenne de population finie et de son erreur quadratique moyenne. Nous proposons aussi d'utiliser la loi t de Student pour modéliser les perturbations afin de pouvoir utiliser les observations extrêmes souvent présentes dans les données provenant d'enquêtes sociales par sondage. Les résultats numériques montrent que les réseaux neuronaux bayésiens améliorent significativement l'estimation en population finie comparativement aux méthodes fondées sur la régression linéaire.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027756
    Description :

    Il arrive souvent de découvrir à l'étape de la collecte des données d'une enquête que certaines unités de l'échantillon ne satisfont pas aux critères d'admissibilité, alors que l'information enregistrée dans la base de sondage indique le contraire. Par exemple, dans le cas des enquêtes auprès des entreprises, il est fréquent qu'une proportion non négligeable d'unités échantillonnées aient mis fin à leurs activités commerciales depuis la dernière mise à jour de la base de sondage. Cette information peut être enregistrée dans la base de sondage et utilisée lors des enquêtes subséquentes, de façon à rendre les futurs échantillons plus efficaces en n'échantillonnant pas les unités inadmissibles. Lors du premier de deux cycles d'une enquête, nous supposons que toutes les unités inadmissibles comprises dans l'échantillon (ou l'ensemble d'échantillons) sont décelées et exclues de la base de sondage. Lors du deuxième cycle, nous observons de nouveau un sous échantillon de la partie admissible. Le sous échantillon peut être agrandi au moyen d'un nouvel échantillon qui contiendra à la fois des unités admissibles et inadmissibles. Nous étudions l'effet que peut avoir sur l'estimation le processus d'introduction de l'information sur l'inadmissibilité dans la base de sondage et nous établissons une expression du biais qui peut résulter de cette rétroaction. Nous nous concentrons sur l'estimation du total au moyen de l'estimateur par extension courant. Nous obtenons un estimateur presque sans biais en présence de rétroaction. Cet estimateur dépend de la disponibilité d'estimations convergentes des nombres d'unités admissibles et inadmissibles dans la population.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027747
    Description :

    La réduction de l'exactitude de la classification révisée des personnes en chômage dans la Current Population Survey (CPS) a été décrite dans Biemer et Bushery (2000). Dans le présent article, nous donnons des preuves supplémentaires de cette anomalie et essayons de découvrir la source de l'erreur grâce à une analyse étendue des données de la CPS recueillies avant et après le remaniement. L'article présente une approche novatrice de décomposition de l'erreur dans le cas d'un processus de classification complexe, comme la classification de la situation d'activité de la CPS, par une analyse markovienne de classes latentes (MLCA). En vue de déterminer la cause de la perte apparente d'exactitude de la classification des chômeurs, nous recensons les composantes clés du questionnaire qui déterminent les classifications et nous estimons la contribution de chacune à l'erreur totale du processus de classification. Ces travaux serviront d'orientation aux études futures des causes profondes des erreurs lors de la collecte de données sur la situation d'activité dans le cadre de la CPS, éventuellement au moyen d'expériences cognitives en laboratoire et (ou) d'essais sur le terrain.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20040027753
    Description :

    Les échantillonneurs se méfient souvent des approches d'inférence fondées sur un modèle, parce qu'ils craignent que soient commises des erreurs de spécification lorsque les modèles sont appliqués à de grands échantillons provenant de populations complexes. Nous soutenons que le paradigme de l'inférence fondée sur un modèle peut donner de très bons résultats dans les conditions d'enquête, à condition que les modèles soient choisis de façon à tenir compte du plan d'échantillonnage et d'éviter de faire des hypothèses fortes au sujet des paramètres. L'estimateur d'Horvitz Thompson (HT) est un estimateur simple sans biais par rapport au plan de sondage du total de population finie. Du point de vue de la modélisation, l'estimateur HT fonctionne bien lorsque les ratios des valeurs de la variable de résultat et des probabilités d'inclusion sont interchangeables. Si cette hypothèse n'est pas satisfaite, l'estimateur HT peut être très inefficace. Dans Zheng et Little (2003, 2004), nous avons utilisé des fonctions splines pénalisées (p splines) pour modéliser des relations à variation lisse entre le résultat et les probabilités d'inclusion sous échantillonnage à un degré avec probabilité proportionnelle à la taille (PPT). Nous avons montré que les estimateurs fondés sur un modèle à fonction p spline sont généralement plus efficaces que l'estimateur HT et peuvent fournir des intervalles de confiance plus étroits dont la couverture est proche du niveau de confiance nominal. Dans le présent article, nous étendons cette approche aux plans d'échantillonnage à deux degrés. Nous utilisons un modèle mixte fondé sur une p spline qui est ajusté à une relation non paramétrique entre les moyennes des unités primaires d'échantillonnage (UPE) et une mesure de la taille des UPE, et auquel sont intégrés des effets aléatoires pour modéliser la mise en grappes. Pour l'estimation de la variance, nous considérons les méthodes d'estimation de la variance fondées sur un modèle bayésien empirique, la méthode du jackknife et la méthode des répliques répétées équilibrées (BRR). Des études en simulation portant sur des données simulées et des échantillons tirés des microdonnées à grande diffusion du Recensement de 1990 montrent que l'estimateur fondé sur un modèle à fonction p spline donne de meilleurs résultats que l'estimateur HT et que les estimateurs linéaires assistés par un modèle. Les simulations montrent aussi que les méthodes d'estimation de la variance produisent des intervalles de confiance dont la couverture est satisfaisante. Fait intéressant, ces progrès peuvent être observés pour un plan d'échantillonnage courant à probabilités de sélection égales, où la sélection à la première étape est PPT et où les probabilités de sélection à la deuxième étape sont proportionnelles à l'inverse des probabilités de sélection à la première étape, et où l'estimateur HT mène à la moyenne non pondérée. Dans les situations favorisant le plus l'utilisation de l'estimateur HT, les estimateurs fondés sur un modèle ont une efficacité comparable.

    Date de diffusion : 2005-02-03

Références (104)

Références (104) (25 of 104 results)

Date de modification :