Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (90)

Tout (90) (25 of 90 results)

  • Articles et rapports : 11F0019M2004219
    Description :

    Dans cette étude, on examine les tendances de l'inégalité du revenu familial durant les années 1980 et 1990, en accordant une attention particulière à la période de reprise économique des années 1990.

    Date de diffusion : 2004-12-16

  • Index et guides : 92-395-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le recensement de 2001. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les resultats des études d'évaluation.

    Date de diffusion : 2004-12-15

  • Index et guides : 92-394-X
    Description :

    Ce rapport décrit les erreurs de couverture qui se sont produites lorsque des personnes, des ménages, des logements ou des familles ont été oubliés ou dénombrés par erreur lors du recensement. Plusieurs études ont été réalisées après le recensement de 2001 en vue de produire des estimations du sous-dénombrement et du surdénombrement brut, de même que du sous-dénombrement net. Ce rapport présente les résultats de l'Étude sur la classification des logements, de l'Étude de la contre-vérification des dossiers, de l'Étude par appariement automatisé et de l'Étude sur les logements collectifs. On y décrit l'univers du recensement, l'erreur de couverture et les procédures de collecte et de traitement du recensement pouvant entraîner une erreur de couverture, puis on donne des estimations du sous-dénombrement net selon certaines caractéristiques démographiques. Le rapport technique présente ensuite les méthodes et les résultats de chacune des études de couverture, de même que les estimations d'erreur de couverture après qu'on ait décrit la manière dont les diverses études ont été combinées. Enfin, un aperçu chronologique met une touche finale au rapport.

    Date de diffusion : 2004-11-25

  • Articles et rapports : 13-604-M2004045
    Description :

    Quelle est la « qualité » des Indicateurs nationaux du tourisme (INT)? Comment peut-elle être mesurée? Cette étude vise à répondre à ces questions grâce à une analyse des révisions des estimations des INT de 1997 à 2001.

    Date de diffusion : 2004-10-25

  • Tableau : 53-500-X
    Description :

    Dans ce rapport, on présente les résultats d'une enquête pilote menée par Statistique Canada pour mesurer la consommation de carburant des véhicules sur route immatriculés au Canada. Cette étude a été réalisée au moyen de l'Enquête sur les véhicules au Canada (EVC), qui permet de recueillir des données sur les activités routières tels que les distances parcourues, le nombre de passagers et la raison de chaque déplacement.

    Date de diffusion : 2004-10-21

  • Enquêtes et programmes statistiques — Documentation : 31-533-X
    Description :

    Commençant avec le mois de référence août 2004, l'Enquête mensuelle sur les industries manufacturières (EMIM) utilise des données administratives (fichiers de la taxe sur les produits et services) pour l'estimation des livraisons manufacturières pour une portion de petits établissements de l'échantillon. Ce document a été publié pour servir de complément à la diffusion des données de l'EMIM pour ce mois.

    Date de diffusion : 2004-10-15

  • Produits techniques : 12-002-X20040027034
    Description :

    L'utilisation des fichiers de commandes dans Stat/Transfer permet d'accélérer le transfert de plusieurs ensembles de données, de manière efficace et reproductible. Dans cette note, on décrit une méthode simple, étape par étape, pour créer des fichiers de commandes et on présente également un exemple de code.

    Date de diffusion : 2004-10-05

  • Produits techniques : 12-002-X20040027032
    Description :

    Dans cet article, on examine pourquoi un grand nombre d'enquêtes de Statistique Canada fournissent des poids bootstrap avec leurs microdonnées pour faciliter l'estimation de la variance fondée sur le plan de sondage. Les poids bootstrap ne fonctionnent pas sous les logiciels commerciaux comme SUDAAN et Wes Var. Cependant, il existe des façons d'utiliser ces applications pour produire des estimations de la variation bootstrap.

    On conclut cet article en donnant un bref aperçu des autres méthodes d'estimation de la variance ainsi que les logiciels, les programmes et les procédures dans lesquels ces méthodes sont employées.

    Date de diffusion : 2004-10-05

  • Produits techniques : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Produits techniques : 21-601-M2004072
    Description :

    L'Indice des prix des produits agricoles (IPPA) est une série mensuelle qui mesure la variation des prix que reçoivent les agriculteurs pour les produits agricoles qu'ils produisent et qu'ils vendent.

    L'IPPA a cessé de paraître en mars 1995; il a été relancé en avril 2001 en raison de la demande constante d'un indice des prix que reçoivent les agriculteurs.

    Date de diffusion : 2004-09-28

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2004001
    Description :

    Dans ce rapport, on présente les indicateurs de qualité produits pour l'Enquête sur les dépenses des ménages de 2002. Ces indicateurs de qualité, tels que les coefficients de variation, les taux de non-réponse, les taux de glissement et les taux d'imputation, permettent aux utilisateurs d'interpréter les données.

    Date de diffusion : 2004-09-15

  • Produits techniques : 11-522-X2002001
    Description :

    Depuis 1984, un série de conférences annuelles a été parrainé par Statistique Canada. Le recueil de la conférence est disponible depuis 1987.

    Le Symposium 2002 a été le dix-neuvième d'une série de colloques internationaux organisés par Statistique Canada sur des questions de méthodologie. Chaque année le symposium traite d'un thème particulier. Celui de 2002 était : « Modélisation des données d'enquête pour la recherche économique et sociale ».

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016717
    Description :

    Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016751
    Description :

    Mot de clôture

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016732
    Description :

    L'analyse de la relation dose-réponse joue depuis longtemps un rôle important en toxicologie. Plus récemment, on l'a employée pour évaluer les campagnes publiques d'éducation. Les données qui sont recueillies durant de telles évaluations proviennent le plus souvent d'enquêtes ménages à plan d'échantillonnage type présentant la complexité habituelle de l'échantillonnage à plusieurs degrés, de la stratification et de la variabilité des probabilités de sélection. Lors d'une évaluation récente, on a développé un système présentant les caractéristiques suivantes : une catégorisation des doses à trois ou quatre niveaux; une cotation de la propension à sélectionner la dose; et un nouveau test de Jonckheere-Terpstra fondé sur le jackknife pour une relation dose-réponse monotone. Ce système permet de produire rapidement, pour les relations dose-réponse monotones, des tests qui sont corrigés à la fois pour le plan d'échantillonnage et pour les variables confusionnelles. Dans cet article, on se concentre sur les résultats d'une simulation de Monte Carlo des propriétés du test de Jonckheere-Terpstra fondé sur le jackknife.

    En outre, il n'existe aucun contrôle expérimental sur les dosages et il faut envisager l'existence éventuelle de variables confusionnelles. Les régressions types figurant dans WESVAR et SUDAAN pourraient être utilisées pour déterminer s'il existe une relation dose-réponse linéaire en tenant compte de l'effet des variables confusionnelles. Par contre, cette démarche ne semble pas très indiquée pour déceler les relations dose-réponse non linéaires et non monotones, et son application est longue si le nombre possible de variables étudiées est grand.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016738
    Description :

    Au cours des 30 dernières années, la fréquence de la dissolution des unions parentales a augmenté au Canada et la nature, ainsi que l'intensité, du fait que les enfants restent avec leurs parents après l'éclatement de la famille est maintenant une question importante. Jusqu'à présent, la plupart des études sur le sujet étaient effectuées à l'aide de données transversales. Cependant, les dispositions que prennent les parents qui se séparent concernant le soutien matériel et financier de leurs enfants sont loin d'être statiques, évoluant en réponse à divers changements qui surviennent dans la vie des deux parents biologiques, y compris ceux qui résultent des nouvelles unions conjugales des mères et des pères.

    Dans cet article, on commence par déterminer de quelle façon les dispositions de garde évoluent au fil du temps, puis on examine les variations de la fréquence des contacts qu'ont les pères non résidents avec leurs enfants. Dans les deux analyses, on accorde une attention particulière aux répercussions d'une nouvelle union conjugale de la mère ou du père sur la fréquence des contacts que les enfants continuent d'avoir avec le parent qui n'a pas la garde. On examine aussi comment cette fréquence varie selon que le nouveau conjoint a ou non des enfants d'une première union et selon que la nouvelle union du père ou de la mère est fertile. Les données prospectives provenant des deux premiers cycles de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ) nous permettront de comparer la fréquence des contacts avant et après la recomposition de la famille.

    Les analyses sont effectuées au moyen de modèles logit et probit multinomiaux, ainsi que de modèles logit et probit ordonnés, selon la nature des variables dépendantes. L'observation de certaines de nos variables dépendantes (p. ex. la fréquence des contacts entre les pères non résidents et leurs enfants) dépend d'un processus de sélection (p. ex. le fait qu'un père qui ne réside pas avec son enfant à la période 1 ne réside pas avec lui à la période 2). Dans de tels cas, les analyses sont réalisées au moyen de modèles probit ordonnés avec sélectivité. Dans toutes les analyses, les erreurs types sont corrigées pour tenir compte du plan d'échantillonnage.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016739
    Description :

    L'Enquête sur la population active (EPA) n'a pas été conçue comme une enquête longitudinale. Cependant, puisque les ménages répondants font habituellement partie de l'échantillon durant six mois consécutifs, il est possible de reconstruire des fragments de données longitudinales sur six mois à partir des enregistrements mensuels établis pour les membres des ménages. Ces données longitudinales - qui, regroupées, représentent des millions de mois personnes de données de niveaux individuel et familial - sont utiles pour l'analyse de la dynamique mensuelle du marché du travail sur des périodes relativement longues, de 20 années et plus.

    On utilise ces données pour estimer les fonctions de hasard décrivant les transitions entre les états sur le marché du travail : travailleur indépendant, travailleur rémunéré et chômeur. Les données sur la période d'occupation de l'emploi, pour les employés, et sur la date de cessation du dernier emploi, pour les chômeurs - conjuguées à la date de réponse à l'enquête - permettent d'inclure dans le modèle estimé des termes reflétant la saisonnalité et les cycles macroéconomiques, ainsi que la dépendance à l'égard de la durée de chaque type de transition. En outre, les données de l'EPA permettent d'inclure les variables d'activité du conjoint ou de la conjointe sur le marché du travail et de composition de la famille dans les modèles de hasard à titre de covariables variant avec le temps. Les équations de hasard estimées ont été incluses dans le modèle de microsimulation socioéconomique LifePaths. Dans ces conditions, on peut se servir des équations pour simuler l'activité sur le marché du travail au cours de la vie d'après les données sur les cohortes de naissance passées, présentes et futures. Les résultats des simulations transversales ont été utilisées pour valider ces modèles par comparaison aux données du recensement allant de 1971 à 1996.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016730
    Description :

    Une vaste gamme de modèles utilisés dans le domaine de la recherche sociale et économique peuvent être représentés en spécifiant une structure paramétrique pour les covariances des variables observées. L'existence de logiciels tels que LISREL (Jöreskog et Sörbom, 1988) et EQS (Bentler, 1995) a permis d'ajuster ces modèles aux données d'enquêtes dans de nombreuses applications. Dans cet article, on étudie deux inférences au sujet de ce genre de modèle en utilisant des données d'enquêtes à plan d'échantillonnage complexe. On examine les preuves de l'existence de biais d'échantillon fini dans l'estimation des paramètres et les moyens de réduire ces biais (Altonji et Segal, 1996), ainsi que les questions connexes de l'efficacité de l'estimation, de l'estimation de l'erreur type et des tests. On utilise des données longitudinales provenant de la British Household Panel Survey en guise d'illustration. La collecte de ces données étant sujette à l'érosion de l'échantillon, on examine aussi comment utiliser des poids de non réponse dans la modélisation.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016740
    Description :

    En tenant compte de l'effet des différences entre les populations d'élèves, on examine, dans cette étude, la contribution des écoles aux différences interprovinciales de rendement des élèves de 15 ans en lecture, en mathématiques et en sciences. Grâce à l'utilisation d'une méthode semi-paramétrique de décomposition élaborée par DiNardo, Fortin et Lemieux (1996) pour les différences de distribution, on constate que les différences entre les écoles contribuent aux différences interprovinciales à divers endroits de la distribution du rendement et que l'effet varie selon la province et le type de compétences, et ce, même à l'intérieur d'une province. Par exemple, les différences entre les écoles représentent environ 32 % de la différence entre les rendements moyens en lecture observés pour le Nouveau-Brunswick et pour l'Alberta, mais elles réduisent l'écart entre les proportions d'élèves dont le rendement correspond au niveau le plus faible de compétences en lecture. En revanche, les différences entre les écoles représentent 94 % de l'écart entre le Nouveau- Brunswick et l'Alberta pour le 10e centile de la distribution des rendements en sciences. Les résultats révèlent que les études sur l'efficacité des écoles axées sur le premier moment de la distribution des rendements ne décèlent pas certains effets éventuellement importants pour des élèves particuliers.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016741
    Description :

    La linéarisation et le jackknife sont des méthodes fort répandues d'estimations des erreurs types des coefficients des modèles de régression linéaire ajustés à des échantillons à plusieurs degrés. Si le nombre d'unités primaires d'échantillonnage (UPE) est faible ou que quelques UPE ont un effet de levier important, les estimateurs par linéarisation peuvent présenter un biais négatif important et le jackknife de façon correspondante, un biais positif important. On décrit également les facteurs du plan de sondage qui produisent des biais importants dans ces estimateurs de l'erreur type. Dans cette étude, on propose un estimateur de rechange, appelé estimateur par linéarisation à biais réduit (LBR), inspiré des erreurs résiduelles corrigées pour mieux adoucir la covariance des erreurs vraies.

    Si les erreurs sont indépendantes et identiquement distribuées (iid), l'estimateur LDR est non biaisé. La méthode LDR s'applique à des échantillons stratifiés dont les poids de sélection ne sont pas constants et à des modèles linéaires généralisés tels que la régression logistique. On examine aussi les estimateurs LBR de l'erreur type pour les modèles à équation d'estimation généralisée qui modèlent explicitement l'interdépendance des observations faites sur la même UPE dans les données provenant de plans d'échantillonnage complexes. Les résultats d'une étude en simulation montrent que les erreurs types calculées par LBR combinées à l'approximation de Satterthwaite pour déterminer la distribution de référence produisent des tests avec des taux d'erreur de première espèce (type I) proches des valeurs nominales. On compare cette méthode à d'autres proposées par Kott (1994 et 1996) et par Mancl et DeRouen (2001).

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016737
    Description :

    Même si l'ensemble de données disponibles pour l'apprentissage automatique résulte d'un échantillonnage en grappes (par exemple les patients d'un échantillon de salles d'hôpital), l'estimation habituelle du taux d'erreur par validation croisée peut donner des résultats biaisés et trompeurs. Dans cet article technique, on décrit une validation croisée adaptée à ce cas. Par simulation, on compare la distribution d'échantillonnage de l'estimation du taux d'erreur en généralisation, sous l'hypothèse d'échantillonnage en grappes ou d'échantillonnage aléatoire simple, à la valeur réelle. Les résultats soulignent l'influence du plan d'échantillonnage sur l'inférence : l'effet de la mise en grappes est manifestement significatif; la répartition entre l'ensemble d'apprentissage et l'ensemble de test devrait résulter d'une partition aléatoire des grappes et non d'une partition aléatoire des exemples. Dans le cas de l'échantillonnage en grappes, la validation croisée type sous-estime le taux d'erreur en généralisation et ne donne pas de bons résultats pour la sélection du modèle. Ces résultats sont illustrés au moyen d'une application réelle de reconnaissance automatique de la parole.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016734
    Description :

    Selon des documents publiés récemment, la méthode par calage est de plus en plus populaire en ce qui concerne l'échantillonnage, et nombre d'organismes d'enquête calculent régulièrement des estimateurs par calage. Cependant, pour toutes les méthodes existantes, le choix des variables de calage demeure ponctuel. Dans cet article, on montre que l'estimateur par calage basé sur un modèle de la moyenne d'une population finie, qui a été proposé par Wu et Sitter (2001) par raisonnement intuitif, est en effet optimal parmi une catégorie d'estimateurs par calage. En outre, on présente des estimateurs par calage optimaux pour la fonction de distribution d'une population finie, la variance de la population, la variance d'un estimateur linéaire et d'autres fonctions quadratiques de population finie dans un cadre de référence unifié. Une étude en simulation limitée révèle que l'amélioration de ces estimateurs optimaux par rapport aux estimateurs conventionnels peut être considérable. On aborde clairement la question de savoir quand et comment des données auxiliaires peuvent être utilisées tant pour l'estimation de la moyenne de la population à l'aide de l'estimateur par régression généralisée que pour l'estimation de sa variance par calage dans le contexte de la méthode générale proposée. On examine aussi la construction des estimateurs proposés en cas d'échantillonnage à deux degrés et certaines questions fondamentales relatives à l'utilisation d'information auxiliaire provenant de données d'enquête dans le contexte de l'estimation optimale.

    Date de diffusion : 2004-09-13

Données (2)

Données (2) (2 results)

  • Tableau : 53-500-X
    Description :

    Dans ce rapport, on présente les résultats d'une enquête pilote menée par Statistique Canada pour mesurer la consommation de carburant des véhicules sur route immatriculés au Canada. Cette étude a été réalisée au moyen de l'Enquête sur les véhicules au Canada (EVC), qui permet de recueillir des données sur les activités routières tels que les distances parcourues, le nombre de passagers et la raison de chaque déplacement.

    Date de diffusion : 2004-10-21

  • Tableau : 95F0495X2001012
    Description :

    Ce tableau renferme des données tirées du Recensement de 2001 pour la Classification des secteurs statistiques (CSS). Une CSS regroupe les subdivisions de recensement selon qu'elles font partie d'une région métropolitaine de recensement, d'une agglomération de recensement, d'une zone d'influence des régions métropolitaines de recensement et des agglomérations de recensement (ZIM forte, ZIM modérée, ZIM faible ou ZIM sans influence) ou des territoires (Territoires du Nord-Ouest, Territoire du Yukon et Nunavut). La CSS est utilisée aux fins de la diffusion des données.

    Les caractéristiques des données présentées pour la CSS comprennent l'âge, l'état matrimonial, les groupes de minorité visible, l'immigration, la langue maternelle, le niveai de scolarité, le revenu, l'emploi, les familles et les logements. Ces données sont présentées pour le Canada, les provinces et les territoires. Les caractéristiques des données présentées dans ce tableau peuvent être différentes de celles d'autres produits de la série « Profils ».

    Date de diffusion : 2004-02-27

Analyses (26)

Analyses (26) (25 of 26 results)

  • Articles et rapports : 11F0019M2004219
    Description :

    Dans cette étude, on examine les tendances de l'inégalité du revenu familial durant les années 1980 et 1990, en accordant une attention particulière à la période de reprise économique des années 1990.

    Date de diffusion : 2004-12-16

  • Articles et rapports : 13-604-M2004045
    Description :

    Quelle est la « qualité » des Indicateurs nationaux du tourisme (INT)? Comment peut-elle être mesurée? Cette étude vise à répondre à ces questions grâce à une analyse des révisions des estimations des INT de 1997 à 2001.

    Date de diffusion : 2004-10-25

  • Articles et rapports : 12-001-X20040016995
    Description :

    L'un des objectifs principaux d'une enquête par sondage est d'estimer les moyennes et les totaux de domaines d'intérêt. Ces domaines sont déterminés avant que l'enquête soit réalisée (domaines primaires) ou après (domaines secondaires). La fiabilité des estimations connexes dépend de la variabilité de la taille de l'échantillon ainsi que des variables y d'intérêt. Il est impossible de tenir compte de cette variabilité en l'absence d'information auxiliaire sur des sous-groupes de la population. Toutefois, si l'on dispose de données auxiliaires, on peut contrôler dans une certaine mesure la fiabilité estimée des estimations résultantes. Dans le présent article, nous étudions les améliorations possibles de la fiabilité des estimations de domaine calculées en utilisant des données auxiliaires. Nous utilisons une approche conditionnelle pour comparer les propriétés (biais, couverture, efficacité) de divers estimateurs utilisant des données auxiliaires.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016999
    Description :

    Des données recueillies lors de l'Enquête sur la fécondité et la famille réalisée en Belgique sont combinées à des données sur les répondants et les non répondants aux niveaux individuel et municipal provenant du Recensement de la population de la Belgique de 1991 pour estimer des modèles de régression logistique multiniveaux de la possibilité de prise de contact et de la propension à la coopération. Une sélection de caractéristiques indirectes, dont aucune ne peut être contrôlée directement par les chercheurs, sont introduites comme covariables. Contrairement aux études antérieures, nous constatons que le statut socioéconomique est positivement associé à la coopération. Un autre résultat inattendu est l'absence de tout effet important des corrélats environnementaux, tels que l'urbanité.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016990
    Description :

    Les statisticiens d'enquête savent depuis longtemps que le processus de question et réponse est une source d'effets de réponse qui contribuent à une erreur de mesure non aléatoire. Au cours des deux dernières décennies, l'application des concepts de la psychologie sociale et cognitive à l'étude du processus de question et réponse a permis de faire de grands pas vers la compréhension de ces sources d'erreur. Le présent essai a pour but de passer en revue le développement de ces approches, de discuter de l'état actuel de nos connaissances et de proposer certaines priorités de recherche pour l'avenir.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016994
    Description :

    Dans une imputation où on attribue des valeurs à des réponses manquantes d'enquête par sondage, de simples méthodes d'estimation de variance des estimations d'enquête où on traite les valeurs d'imputation comme s'il s'agissait de valeurs observées donnent des estimations entachées d'un biais. Nous traiterons de ce problème dans le cas d'un estimateur linéaire où les valeurs manquantes sont attribuées par simple imputation par donneur (c'est une forme d'imputation qui est répandue dans la pratique). Nous proposerons des estimateurs de variance pour un estimateur linéaire à imputation par donneur (imputation « hot-deck ») en procédant à une décomposition de la variance totale proposée par Särndal (1992). Nous concevrons un traitement conditionnel d'estimation de variance qui est applicable à une imputation par donneur avec et sans pondération. Nous examinerons enfin l'estimation de variance pour un estimateur par domaine.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016996
    Description :

    Dans cet article, nous étudions l'utilisation de la distribution échantillonnale pour prévoir les totaux de population finie à l'aide d'un échantillonnage à un seul degré. Les prédicteurs proposés emploient les valeurs échantillonnées de la variable d'enquête cible, les poids d'échantillonnage des unités d'échantillonnage et les valeurs (peut-être connues) des variables auxiliaires dans la population. Nous résolvons le problème prévisionnel en estimant l'espérance des valeurs de l'étude pour les unités à l'extérieur de l'échantillon, en fonction de l'espérance correspondante selon la distribution échantillonnale et les poids d'échantillonnage. L'erreur quadratique moyenne de la prévision est estimée par la combinaison d'une procédure d'échantillonnage inverse et d'une méthode de rééchantillonnage. Un résultat intéressant de la présente analyse est que plusieurs estimateurs familiers, d'usage courant, sont en fait des cas spéciaux de l'approche proposée, et celle ci leur en donne donc une nouvelle interprétation. L'efficacité des nouveaux prédicteurs et de quelques prédicteurs couramment utilisés est évaluée et comparée par simulation de Monte Carlo avec un ensemble de données réelles.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016998
    Description :

    Au Canada, l'Enquête sur la population active (EPA) n'a pas au départ de caractère longitudinal, mais comme les ménages répondants demeurent normalement dans l'échantillon six mois de suite, il est possible de reconstituer des fragments longitudinaux sur six mois à partir des enregistrements mensuels des membres des ménages. De telles microdonnées longitudinales, qui consistent dans l'ensemble en millions de mois-personnes de données individuelles et familiales, servent à analyser par mois la dynamique du marché du travail, et ce, sur des périodes relativement longues de 25 ans et plus.

    Nous employons ces données pour estimer des fonctions de probabilité décrivant les passages entre les situations d'emploi, à savoir le travail indépendant, le travail rémunéré et l'absence d'emploi. Avec les données sur l'occupation des emplois et le dernier jour travaillé des gens qui n'ont pas d'emploi, jointes aux données sur la date de réponse à l'enquête, on peut élaborer des modèles comportant des termes de saisonnalité et de cycle macroéconomique, ainsi que de durée de dépendance pour chaque type de passage. Ajoutons que les données de l'EPA permettent d'inclure des variables de l'activité du conjoint et de la composition de la famille dans les modèles de probabilité comme covariables à variation temporelle. Les équations estimées de probabilité ont été intégrées au modèle de microsimulation LifePaths. Dans ce cadre, nous avons pu par ces équations, simuler l'activité à vie de cohortes de naissances passées, présentes et futures. Nous avons validé les résultats de cette simulation par rapprochement avec les profils d'âge de la période 1976 2001 pour les rapports emploi/population de l'EPA.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016997
    Description :

    Les modèles multiniveaux sont souvent ajustés en fonction des données d'enquête recueillies dans le cadre d'un plan d'échantillonnage complexe à plusieurs degrés. Toutefois, lorsqu'un tel plan est informatif - en ce sens que les probabilités d'inclusion, même si on les subordonne aux covariables, dépendent de la variable réponse -, les estimateurs standard du maximum de vraisemblance seront biaisés. Dans la présente étude, nous inspirant de l'approche du pseudo maximum de vraisemblance (PMV) de Skinner (1989), nous proposons une procédure d'estimation à pondération probabiliste dans le cadre de modèles multiniveaux ordinaux et binaires, de façon à supprimer le biais découlant du caractère informatif du plan d'échantillonnage. On utilise la valeur inverse des probabilités d'inclusion à chaque degré d'échantillonnage pour pondérer la fonction logarithmique de vraisemblance; les estimateurs pondérés que l'on obtient ainsi sont testés au moyen d'une étude de simulation dans le cas simple d'un modèle binaire à l'ordonnée à l'origine aléatoire, avec et sans covariables. Les estimateurs de la variance sont obtenus au moyen d'une procédure bootstrap. Pour maximiser le logarithme du rapport de vraisemblance pondéré du modèle, nous avons recours à la procédure NLMIXED du SAS, qui repose elle-même sur une version adaptative de la quadrature gaussienne. Également, l'estimation bootstrap des variances est effectuée dans l'environnement du SAS.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016991
    Description :

    En échantillonnage, on utilise souvent la linéarisation de Taylor pour obtenir des estimateurs de variance pour des estimateurs par calage de totaux et de paramètres non linéaires de population finie (ou recensement), comme des ratios, ou des coefficients de régression et de corrélation, qui peuvent être exprimés sous forme de fonctions lisses de totaux. La linéarisation de Taylor est généralement applicable à tout plan d'échantillonnage, mais elle peut produire de multiples estimateurs de variance qui sont asymptotiquement sans biais par rapport au plan de sondage sous échantillonnage répété. Pour choisir lequel de ces estimateurs utiliser, il faut tenir compte d'autres critères, comme i) l'absence approximative de biais pour la variance par rapport au modèle de l'estimateur sous un modèle hypothétique, et ii) la validité sous l'échantillonnage répété conditionnel. Dans le présent article, nous proposons une nouvelle approche pour calculer les estimateurs de variance par linéarisation de Taylor. Elle mène directement à un estimateur de variance qui satisfait aux critères susmentionnés, du moins dans un nombre important de cas. Nous appliquons la méthode à divers problèmes, qui englobent les estimateurs d'un total, ainsi que d'autres estimateurs définis explicitement ou implicitement comme solutions d'équations d'estimation. En particulier, nous étudions les estimateurs des paramètres de régression logistique avec poids calés. Cette étude nous mène à un nouvel estimateur de la variance pour une classe générale d'estimateurs par calage qui inclut l'estimateur par la méthode itérative du quotient (raking ratio) généralisée et les estimateurs par régression généralisée. Nous étendons la méthode proposée à l'échantillonnage à deux phases pour obtenir un estimateur de variance qui utilise plus complètement les données de l'échantillon de première phase que les estimateurs de variance par linéarisation classiques.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040019186
    Description :

    La rubrique Dans ce numéro contient une brève présentation par le rédacteur en chef de chacun des articles contenus dans le présent numéro de Techniques d'enquête. Aussi, on y trouve parfois quelques commentaires sur des changements dans la structure ou la gestion de la revue.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016993
    Description :

    L'estimateur à cellules de pondération corrige la non réponse totale par subdivision de l'échantillon en groupes homogènes (cellules) et application d'une correction par quotient aux répondants compris dans chaque cellule. Les études antérieures des propriétés statistiques des estimateurs à cellules de pondération se fondaient sur l'hypothèse que ces cellules correspondent à des cellules de population connues dont les caractéristiques sont homogènes. Dans le présent article, nous étudions les propriétés de l'estimateur à cellules de pondération sous un modèle de probabilité de réponse qui ne nécessite pas la spécification correcte de cellules de population homogènes. Nous supposons plutôt que la probabilité de réponse est une fonction lisse, mais par ailleurs non spécifiée, d'une variable auxiliaire connue. Sous ce modèle plus général, nous étudions la robustesse de l'estimateur à cellules de pondération à la spécification incorrecte du modèle. Nous montrons que, même si les cellules de population sont inconnues, l'estimateur est convergent par rapport au plan d'échantillonnage et au modèle de réponse. Nous décrivons l'effet du nombre de cellules de pondération sur les propriétés asymptotiques de l'estimateur. Au moyen d'expériences de simulation, nous explorons les propriétés de population finie de l'estimateur. Pour conclure, nous donnons certaines lignes directrices concernant le choix de la taille des cellules et de leur nombre pour l'application pratique de l'estimation fondée sur des cellules de pondération lorsqu'on ne peut spécifier ces cellules a priori.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016992
    Description :

    Lors du Recensement de la population et du logement des États Unis, un échantillon d'environ un sixième des ménages reçoit une version longue du questionnaire de recensement appelée questionnaire détaillé. Les autres ménages reçoivent une version courte appelée questionnaire abrégé. Nous recourons à l'ajustement itératif proportionnel, au moyen de certains totaux de contrôle provenant du questionnaire abrégé, pour créer deux ensembles de poids pour l'estimation d'après les données provenant du questionnaire détaillé, l'un pour les personnes et l'autre pour les ménages. Nous décrivons une méthode de calcul des poids fondée sur la programmation quadratique qui produit une pondération des ménages telle que la somme pondérée des caractéristiques individuelles et celle des caractéristiques des ménages concordent étroitement avec les totaux de contrôle fondés sur le questionnaire abrégé. La méthode s'applique de façon générale aux situations où la pondération doit être établie de façon à satisfaire aux bornes de taille, ainsi qu'aux contraintes de concordance des sommes avec les totaux de contrôle. Nous décrivons l'application à la situation où les totaux de contrôle sont des estimations avec une matrice des covariances estimée.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 89-552-M2004011
    Description :

    Dans ce document, on mesure l'investissement dans l'éducation d'après le niveau de littératie des entrants sur le marché du travail, et ce, en utilisant les données de l'Enquête internationale sur l'alphabétisation des adultes de 1994.

    Date de diffusion : 2004-06-22

  • Articles et rapports : 91F0015M2004006
    Description :

    Dans ce document, on évalue et on compare la nouvelle et l'ancienne méthode pour produire des estimations officielles de la migration interne et interprovinciale selon les provinces ou les territoires pour la période de 1996-1997 à 2000-2001.

    Date de diffusion : 2004-06-17

  • Articles et rapports : 82-003-X20030036847
    Description :

    Dans cet article, on examine si l'acceptation de la déclaration par procuration en lieu et place de l'autodéclaration peut entraîner la sous-estimation de certains états de santé. On analyse également les données tirées de l'Enquête nationale sur la santé de la population et celles de l'Enquête sur la santé dans les collectivités canadiennes.

    Date de diffusion : 2004-05-18

  • Articles et rapports : 12-001-X20030026780
    Description :

    Les erreurs et d'autres problèmes de couverture associés aux recensements de population sont examinés à la lumière des travaux publiés récemment. Plus précisément, quand on apparie les dénombrements réels du recensement aux chiffres correspondants tirés de l'enquête postcensitaire, on obtient des résultats agrégés fondés sur un système d'enregistrement double qui fournissent certaines statistiques sur l'erreur de couverture.

    Dans le présent article, les questions liées à l'erreur de couverture et diverses solutions sont examinées dans le contexte des résultats du dernier Recensement de la population de la Turquie. La comparaison, au niveau régional, de la couverture du recensement fondée sur les données de ce dernier et celles de l'enquête postcensitaire témoigne d'une variabilité interrégionales. Certaines recommandations méthodologiques sont faites en vue d'une amélioration éventuelle des procédures courantes de dénombrement.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030026784
    Description :

    Skinner et Elliot (2002) ont proposé une mesure simple du risque de divulgation pour les microdonnées d'enquête et montré comment estimer cette mesure sous échantillonnage avec probabilités égales. Dans le présent article, nous montrons comment on peut étendre leurs résultats pour l'estimation ponctuelle et l'estimation de la variance à l'échantillonnage avec probabilités inégales. Nous élaborons notre méthode en supposant un plan d'échantillonnage de Poisson et faisons certains commentaires sur les résultats éventuels lorsqu'on s'écarte de cette hypothèse.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030026778
    Description :

    Au moyen d'arguments fondés purement sur le plan de sondage d'une part et sur un modèle d'autre part, nous montrons que, dans des conditions de grande entropie, la variance de l'estimateur de Horvitz Thompson (HT) dépend presque entièrement des probabilités d'inclusion de premier ordre. Nous établissons des expressions approximatives et des estimateurs de cette variance sous « grande entropie » de l'estimateur HT. Nous réalisons des études en simulation de Monte Carlo pour examiner les propriétés statistiques des estimateurs proposés de la variance.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030026787
    Description :

    L'application des méthodes statistiques classiques aux données provenant d'enquêtes complexes sans tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences incorrectes. Certaines méthodes ont été mises au point pour tenir compte du plan de sondage, mais elles nécessitent des renseignements supplémentaires, comme les poids de sondage, les effets de plan ou l'identification des grappes pour les microdonnées. L'échantillonnage inverse (Hinkins, Oh et Scheuren 1997) offre une autre approche qui consiste à défaire les structures des données d'enquête complexe de sorte qu'on puisse appliquer les méthodes classiques. Des sous-échantillons répétés sont tirés selon un plan d'échantillonnage aléatoire simple inconditionnel et analysés individuellement par les méthodes types, puis combinés pour augmenter l'efficacité. Cette méthode permet de préserver le caractère confidentiel des microdonnées, mais elle nécessite une grande capacité de calcul. Nous présentons une théorie de l'échantillonnage inverse et explorons ses limites. Nous proposons une approche fondée sur des équations d'estimation combinées pour traiter les paramètres complexes, tels que les ratios et les paramètres de régression linéaire ou logistique «en cas de recensement». La méthode est appliquée à un ensemble de données corrélées en grappes présentées dans Battese, Harter et Fuller(1988).

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030026782
    Description :

    Le présent article porte à la fois sur la question générale de la conception d'une enquête postcensitaire et sur la façon dont cette question générale a été traitée par le U.S. Census Bureau lors de la mesure de la couverture planifiée dans le cadre du Recensement de 2000. Il vise à établir le lien entre les concepts fondamentaux de l'estimateur à système dual et les questions de la définition et du dénombrement des enregistrements de recensement corrects, du dénombrement des omissions au recensement, de l'indépendance opérationnelle, de la déclaration du lieu de résidence, ainsi que du rôle de la réinterview après appariement. Y sont discutés des problèmes d'estimation, comme le traitement des personnes ayant déménagé, les données manquantes et l'estimation synthétique du chiffre de population local corrigé. Sont aussi exposés les défauts de conception de l'évaluation de la couverture du Recensement de 2000.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030026777
    Description :

    L'enquête d'évaluation de l'exactitude et de la couverture a été réalisée pour estimer la couverture du Recensement des États-Unis de 2000. Après l'achèvement des opérations sur le terrain, il a fallu prendre des mesures pour traiter plusieurs types de données manquantes en vue d'appliquer l'estimateur à système dual. Certaines unités de logement n'avaient pas été interviewées. Le cas échéant, on a conçu deux méthodes de correction pour la non-interview d'après un même ensemble d'interviews, une pour chaque point dans le temps. En outre, il a fallu déterminer la situation de résidence, d'appariement ou de recensement de certains répondants. Les méthodes appliquées par le passé ont été remplacées pour pouvoir respecter les délais plus courts pour calculer et vérifier les estimations. Le présent article décrit la portée des données manquantes dans l'enquête et les méthodes de traitement appliquées, compare ces dernières à d'autres méthodes passées et courantes, et donne un résumé analytique des procédures, y compris la comparaison des estimations démographiques selon le système dual sous d'autres méthodes de traitement des données manquantes. Comme les niveaux de données manquantes étaient faibles, il semble que l'utilisation des autres méthodes n'aurait pas affecté considérablement les résultats. Cependant, on constate certains changements dans les estimations.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030029054
    Description :

    La rubrique Dans ce numéro contient une brève présentation par le rédacteur en chef de chacun des articles contenus dans le présent numéro de Techniques d'enquête. Aussi, on y trouve parfois quelques commentaires sur des changements dans la structure ou la gestion de la revue.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030026779
    Description :

    L'échantillonnage par dépistage de liens consiste à suivre les liens sociaux d'un répondant à l'autre pour obtenir l'échantillon. Dans le cas de populations humaines cachées et d'accès difficile, le recours à ce genre de plan d'échantillonnage est souvent le seul moyen pratique d'obtenir un échantillon suffisamment grand pour que l'étude donne de bons résultats. Dans le présent article, nous proposons une approche bayésienne du problème d'estimation. Lors des études fondées sur un plan d'échantillonnage par dépistage de liens, on dispose parfois de renseignements apriori sur les caractéristiques que l'on souhaite étudier. L'utilisation efficace de ces renseignements par une méthode bayésienne devrait produire de meilleurs estimateurs. Si l'information disponible est vague, on peut utiliser des lois apriori non informatives et procéder à une analyse de sensibilité. Dans notre exemple, nous constatons que les estimateurs ne sont pas sensibles aux lois apriori spécifiées. Il est important de souligner que, dans le cadre de travail bayésien, l'estimation d'intervalles pour évaluer l'exactitude des estimateurs peut se faire sans difficulté. Par contre, ces estimations sont difficiles à calculer par la méthode classique. En général, une analyse bayésienne donne, pour les paramètres inconnus, une loi (la loi aposteriori) à partir de laquelle il est possible de répondre à un grand nombre de questions simultanément.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030026781
    Description :

    La comparaison des résultats des recensements et des enquêtes postcensitaires (EP) montre que les chiffres de recensement sont inexacts. En Italie, les administrations municipales jouent un rôle essentiel dans les opérations sur le terrain du recensement et de l'EPR. Dans le présent article, nous analysons l'effet des municipalités sur le taux de sous-dénombrement au recensement en Italie par modélisation des données provenant de l'EPR et d'autres sources à l'aide d'arbres de régression de Poisson et de modèles de Poisson hiérarchiques . Les arbres de régression de Poisson permettent de former des groupes homogènes de municipalités. Les modèles de Poisson hiérarchiques peuvent être considérés comme des outils pour l'estimation pour des petits domaines.

    Date de diffusion : 2004-01-27

Références (62)

Références (62) (25 of 62 results)

  • Index et guides : 92-395-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le recensement de 2001. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les resultats des études d'évaluation.

    Date de diffusion : 2004-12-15

  • Index et guides : 92-394-X
    Description :

    Ce rapport décrit les erreurs de couverture qui se sont produites lorsque des personnes, des ménages, des logements ou des familles ont été oubliés ou dénombrés par erreur lors du recensement. Plusieurs études ont été réalisées après le recensement de 2001 en vue de produire des estimations du sous-dénombrement et du surdénombrement brut, de même que du sous-dénombrement net. Ce rapport présente les résultats de l'Étude sur la classification des logements, de l'Étude de la contre-vérification des dossiers, de l'Étude par appariement automatisé et de l'Étude sur les logements collectifs. On y décrit l'univers du recensement, l'erreur de couverture et les procédures de collecte et de traitement du recensement pouvant entraîner une erreur de couverture, puis on donne des estimations du sous-dénombrement net selon certaines caractéristiques démographiques. Le rapport technique présente ensuite les méthodes et les résultats de chacune des études de couverture, de même que les estimations d'erreur de couverture après qu'on ait décrit la manière dont les diverses études ont été combinées. Enfin, un aperçu chronologique met une touche finale au rapport.

    Date de diffusion : 2004-11-25

  • Enquêtes et programmes statistiques — Documentation : 31-533-X
    Description :

    Commençant avec le mois de référence août 2004, l'Enquête mensuelle sur les industries manufacturières (EMIM) utilise des données administratives (fichiers de la taxe sur les produits et services) pour l'estimation des livraisons manufacturières pour une portion de petits établissements de l'échantillon. Ce document a été publié pour servir de complément à la diffusion des données de l'EMIM pour ce mois.

    Date de diffusion : 2004-10-15

  • Produits techniques : 12-002-X20040027034
    Description :

    L'utilisation des fichiers de commandes dans Stat/Transfer permet d'accélérer le transfert de plusieurs ensembles de données, de manière efficace et reproductible. Dans cette note, on décrit une méthode simple, étape par étape, pour créer des fichiers de commandes et on présente également un exemple de code.

    Date de diffusion : 2004-10-05

  • Produits techniques : 12-002-X20040027032
    Description :

    Dans cet article, on examine pourquoi un grand nombre d'enquêtes de Statistique Canada fournissent des poids bootstrap avec leurs microdonnées pour faciliter l'estimation de la variance fondée sur le plan de sondage. Les poids bootstrap ne fonctionnent pas sous les logiciels commerciaux comme SUDAAN et Wes Var. Cependant, il existe des façons d'utiliser ces applications pour produire des estimations de la variation bootstrap.

    On conclut cet article en donnant un bref aperçu des autres méthodes d'estimation de la variance ainsi que les logiciels, les programmes et les procédures dans lesquels ces méthodes sont employées.

    Date de diffusion : 2004-10-05

  • Produits techniques : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Produits techniques : 21-601-M2004072
    Description :

    L'Indice des prix des produits agricoles (IPPA) est une série mensuelle qui mesure la variation des prix que reçoivent les agriculteurs pour les produits agricoles qu'ils produisent et qu'ils vendent.

    L'IPPA a cessé de paraître en mars 1995; il a été relancé en avril 2001 en raison de la demande constante d'un indice des prix que reçoivent les agriculteurs.

    Date de diffusion : 2004-09-28

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2004001
    Description :

    Dans ce rapport, on présente les indicateurs de qualité produits pour l'Enquête sur les dépenses des ménages de 2002. Ces indicateurs de qualité, tels que les coefficients de variation, les taux de non-réponse, les taux de glissement et les taux d'imputation, permettent aux utilisateurs d'interpréter les données.

    Date de diffusion : 2004-09-15

  • Produits techniques : 11-522-X2002001
    Description :

    Depuis 1984, un série de conférences annuelles a été parrainé par Statistique Canada. Le recueil de la conférence est disponible depuis 1987.

    Le Symposium 2002 a été le dix-neuvième d'une série de colloques internationaux organisés par Statistique Canada sur des questions de méthodologie. Chaque année le symposium traite d'un thème particulier. Celui de 2002 était : « Modélisation des données d'enquête pour la recherche économique et sociale ».

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016717
    Description :

    Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016751
    Description :

    Mot de clôture

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016732
    Description :

    L'analyse de la relation dose-réponse joue depuis longtemps un rôle important en toxicologie. Plus récemment, on l'a employée pour évaluer les campagnes publiques d'éducation. Les données qui sont recueillies durant de telles évaluations proviennent le plus souvent d'enquêtes ménages à plan d'échantillonnage type présentant la complexité habituelle de l'échantillonnage à plusieurs degrés, de la stratification et de la variabilité des probabilités de sélection. Lors d'une évaluation récente, on a développé un système présentant les caractéristiques suivantes : une catégorisation des doses à trois ou quatre niveaux; une cotation de la propension à sélectionner la dose; et un nouveau test de Jonckheere-Terpstra fondé sur le jackknife pour une relation dose-réponse monotone. Ce système permet de produire rapidement, pour les relations dose-réponse monotones, des tests qui sont corrigés à la fois pour le plan d'échantillonnage et pour les variables confusionnelles. Dans cet article, on se concentre sur les résultats d'une simulation de Monte Carlo des propriétés du test de Jonckheere-Terpstra fondé sur le jackknife.

    En outre, il n'existe aucun contrôle expérimental sur les dosages et il faut envisager l'existence éventuelle de variables confusionnelles. Les régressions types figurant dans WESVAR et SUDAAN pourraient être utilisées pour déterminer s'il existe une relation dose-réponse linéaire en tenant compte de l'effet des variables confusionnelles. Par contre, cette démarche ne semble pas très indiquée pour déceler les relations dose-réponse non linéaires et non monotones, et son application est longue si le nombre possible de variables étudiées est grand.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016738
    Description :

    Au cours des 30 dernières années, la fréquence de la dissolution des unions parentales a augmenté au Canada et la nature, ainsi que l'intensité, du fait que les enfants restent avec leurs parents après l'éclatement de la famille est maintenant une question importante. Jusqu'à présent, la plupart des études sur le sujet étaient effectuées à l'aide de données transversales. Cependant, les dispositions que prennent les parents qui se séparent concernant le soutien matériel et financier de leurs enfants sont loin d'être statiques, évoluant en réponse à divers changements qui surviennent dans la vie des deux parents biologiques, y compris ceux qui résultent des nouvelles unions conjugales des mères et des pères.

    Dans cet article, on commence par déterminer de quelle façon les dispositions de garde évoluent au fil du temps, puis on examine les variations de la fréquence des contacts qu'ont les pères non résidents avec leurs enfants. Dans les deux analyses, on accorde une attention particulière aux répercussions d'une nouvelle union conjugale de la mère ou du père sur la fréquence des contacts que les enfants continuent d'avoir avec le parent qui n'a pas la garde. On examine aussi comment cette fréquence varie selon que le nouveau conjoint a ou non des enfants d'une première union et selon que la nouvelle union du père ou de la mère est fertile. Les données prospectives provenant des deux premiers cycles de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ) nous permettront de comparer la fréquence des contacts avant et après la recomposition de la famille.

    Les analyses sont effectuées au moyen de modèles logit et probit multinomiaux, ainsi que de modèles logit et probit ordonnés, selon la nature des variables dépendantes. L'observation de certaines de nos variables dépendantes (p. ex. la fréquence des contacts entre les pères non résidents et leurs enfants) dépend d'un processus de sélection (p. ex. le fait qu'un père qui ne réside pas avec son enfant à la période 1 ne réside pas avec lui à la période 2). Dans de tels cas, les analyses sont réalisées au moyen de modèles probit ordonnés avec sélectivité. Dans toutes les analyses, les erreurs types sont corrigées pour tenir compte du plan d'échantillonnage.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016739
    Description :

    L'Enquête sur la population active (EPA) n'a pas été conçue comme une enquête longitudinale. Cependant, puisque les ménages répondants font habituellement partie de l'échantillon durant six mois consécutifs, il est possible de reconstruire des fragments de données longitudinales sur six mois à partir des enregistrements mensuels établis pour les membres des ménages. Ces données longitudinales - qui, regroupées, représentent des millions de mois personnes de données de niveaux individuel et familial - sont utiles pour l'analyse de la dynamique mensuelle du marché du travail sur des périodes relativement longues, de 20 années et plus.

    On utilise ces données pour estimer les fonctions de hasard décrivant les transitions entre les états sur le marché du travail : travailleur indépendant, travailleur rémunéré et chômeur. Les données sur la période d'occupation de l'emploi, pour les employés, et sur la date de cessation du dernier emploi, pour les chômeurs - conjuguées à la date de réponse à l'enquête - permettent d'inclure dans le modèle estimé des termes reflétant la saisonnalité et les cycles macroéconomiques, ainsi que la dépendance à l'égard de la durée de chaque type de transition. En outre, les données de l'EPA permettent d'inclure les variables d'activité du conjoint ou de la conjointe sur le marché du travail et de composition de la famille dans les modèles de hasard à titre de covariables variant avec le temps. Les équations de hasard estimées ont été incluses dans le modèle de microsimulation socioéconomique LifePaths. Dans ces conditions, on peut se servir des équations pour simuler l'activité sur le marché du travail au cours de la vie d'après les données sur les cohortes de naissance passées, présentes et futures. Les résultats des simulations transversales ont été utilisées pour valider ces modèles par comparaison aux données du recensement allant de 1971 à 1996.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016730
    Description :

    Une vaste gamme de modèles utilisés dans le domaine de la recherche sociale et économique peuvent être représentés en spécifiant une structure paramétrique pour les covariances des variables observées. L'existence de logiciels tels que LISREL (Jöreskog et Sörbom, 1988) et EQS (Bentler, 1995) a permis d'ajuster ces modèles aux données d'enquêtes dans de nombreuses applications. Dans cet article, on étudie deux inférences au sujet de ce genre de modèle en utilisant des données d'enquêtes à plan d'échantillonnage complexe. On examine les preuves de l'existence de biais d'échantillon fini dans l'estimation des paramètres et les moyens de réduire ces biais (Altonji et Segal, 1996), ainsi que les questions connexes de l'efficacité de l'estimation, de l'estimation de l'erreur type et des tests. On utilise des données longitudinales provenant de la British Household Panel Survey en guise d'illustration. La collecte de ces données étant sujette à l'érosion de l'échantillon, on examine aussi comment utiliser des poids de non réponse dans la modélisation.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016740
    Description :

    En tenant compte de l'effet des différences entre les populations d'élèves, on examine, dans cette étude, la contribution des écoles aux différences interprovinciales de rendement des élèves de 15 ans en lecture, en mathématiques et en sciences. Grâce à l'utilisation d'une méthode semi-paramétrique de décomposition élaborée par DiNardo, Fortin et Lemieux (1996) pour les différences de distribution, on constate que les différences entre les écoles contribuent aux différences interprovinciales à divers endroits de la distribution du rendement et que l'effet varie selon la province et le type de compétences, et ce, même à l'intérieur d'une province. Par exemple, les différences entre les écoles représentent environ 32 % de la différence entre les rendements moyens en lecture observés pour le Nouveau-Brunswick et pour l'Alberta, mais elles réduisent l'écart entre les proportions d'élèves dont le rendement correspond au niveau le plus faible de compétences en lecture. En revanche, les différences entre les écoles représentent 94 % de l'écart entre le Nouveau- Brunswick et l'Alberta pour le 10e centile de la distribution des rendements en sciences. Les résultats révèlent que les études sur l'efficacité des écoles axées sur le premier moment de la distribution des rendements ne décèlent pas certains effets éventuellement importants pour des élèves particuliers.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016741
    Description :

    La linéarisation et le jackknife sont des méthodes fort répandues d'estimations des erreurs types des coefficients des modèles de régression linéaire ajustés à des échantillons à plusieurs degrés. Si le nombre d'unités primaires d'échantillonnage (UPE) est faible ou que quelques UPE ont un effet de levier important, les estimateurs par linéarisation peuvent présenter un biais négatif important et le jackknife de façon correspondante, un biais positif important. On décrit également les facteurs du plan de sondage qui produisent des biais importants dans ces estimateurs de l'erreur type. Dans cette étude, on propose un estimateur de rechange, appelé estimateur par linéarisation à biais réduit (LBR), inspiré des erreurs résiduelles corrigées pour mieux adoucir la covariance des erreurs vraies.

    Si les erreurs sont indépendantes et identiquement distribuées (iid), l'estimateur LDR est non biaisé. La méthode LDR s'applique à des échantillons stratifiés dont les poids de sélection ne sont pas constants et à des modèles linéaires généralisés tels que la régression logistique. On examine aussi les estimateurs LBR de l'erreur type pour les modèles à équation d'estimation généralisée qui modèlent explicitement l'interdépendance des observations faites sur la même UPE dans les données provenant de plans d'échantillonnage complexes. Les résultats d'une étude en simulation montrent que les erreurs types calculées par LBR combinées à l'approximation de Satterthwaite pour déterminer la distribution de référence produisent des tests avec des taux d'erreur de première espèce (type I) proches des valeurs nominales. On compare cette méthode à d'autres proposées par Kott (1994 et 1996) et par Mancl et DeRouen (2001).

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016737
    Description :

    Même si l'ensemble de données disponibles pour l'apprentissage automatique résulte d'un échantillonnage en grappes (par exemple les patients d'un échantillon de salles d'hôpital), l'estimation habituelle du taux d'erreur par validation croisée peut donner des résultats biaisés et trompeurs. Dans cet article technique, on décrit une validation croisée adaptée à ce cas. Par simulation, on compare la distribution d'échantillonnage de l'estimation du taux d'erreur en généralisation, sous l'hypothèse d'échantillonnage en grappes ou d'échantillonnage aléatoire simple, à la valeur réelle. Les résultats soulignent l'influence du plan d'échantillonnage sur l'inférence : l'effet de la mise en grappes est manifestement significatif; la répartition entre l'ensemble d'apprentissage et l'ensemble de test devrait résulter d'une partition aléatoire des grappes et non d'une partition aléatoire des exemples. Dans le cas de l'échantillonnage en grappes, la validation croisée type sous-estime le taux d'erreur en généralisation et ne donne pas de bons résultats pour la sélection du modèle. Ces résultats sont illustrés au moyen d'une application réelle de reconnaissance automatique de la parole.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016734
    Description :

    Selon des documents publiés récemment, la méthode par calage est de plus en plus populaire en ce qui concerne l'échantillonnage, et nombre d'organismes d'enquête calculent régulièrement des estimateurs par calage. Cependant, pour toutes les méthodes existantes, le choix des variables de calage demeure ponctuel. Dans cet article, on montre que l'estimateur par calage basé sur un modèle de la moyenne d'une population finie, qui a été proposé par Wu et Sitter (2001) par raisonnement intuitif, est en effet optimal parmi une catégorie d'estimateurs par calage. En outre, on présente des estimateurs par calage optimaux pour la fonction de distribution d'une population finie, la variance de la population, la variance d'un estimateur linéaire et d'autres fonctions quadratiques de population finie dans un cadre de référence unifié. Une étude en simulation limitée révèle que l'amélioration de ces estimateurs optimaux par rapport aux estimateurs conventionnels peut être considérable. On aborde clairement la question de savoir quand et comment des données auxiliaires peuvent être utilisées tant pour l'estimation de la moyenne de la population à l'aide de l'estimateur par régression généralisée que pour l'estimation de sa variance par calage dans le contexte de la méthode générale proposée. On examine aussi la construction des estimateurs proposés en cas d'échantillonnage à deux degrés et certaines questions fondamentales relatives à l'utilisation d'information auxiliaire provenant de données d'enquête dans le contexte de l'estimation optimale.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016728
    Description :

    On recueille les données de presque toutes les enquêtes selon un plan d'échantillonnage complexe et on les utilise souvent pour effectuer des analyses statistiques allant plus loin que l'estimation de simples paramètres descriptifs de la population cible. Nombre de procédures offertes par les progiciels statistiques les plus utilisés ne conviennent pas pour cette tâche, car les analyses sont fondées sur l'hypothèse qu'on a procédé à un échantillonnage aléatoire simple. Par conséquent, les résultats ne sont pas valides en cas d'échantillonnage à plusieurs degrés, de stratification ou de mise en grappes. Deux méthodes utilisées couramment pour analyser les données d'enquêtes complexes sont les techniques de rééchantillonnage (répétitions) et de linéarisation de Taylor. Cet article traite de l'utilisation du logiciel WesVar pour calculer des estimations et pour produire des estimations répétées de la variance en reflétant correctement l'échantillonnage complexe et les méthodes d'estimation. On illustre aussi les caractéristiques de WesVar à l'aide de données provenant de deux enquêtes réalisées par Westat basées sur des plans d'échantillonnage complexes, à savoir la Third International Mathematics and Science Study (TIMSS) et la National Health and Nutrition Examination Survey (NHANES).

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016743
    Description :

    On s'intéresse beaucoup à l'utilisation de données provenant d'enquêtes longitudinales pour comprendre les processus qui surviennent au cours de la vie, comme la scolarité, l'emploi, la fécondité, la santé et le mariage. L'analyse des données sur la durée des épisodes que vivent les personnes dans certains états (par exemple, l'emploi, le mariage) est un des outils principaux de l'étude de ces processus. Cet article porte sur les méthodes d'analyse des données sur la durée qui tiennent compte de caractéristiques importantes des enquêtes longitudinales, à savoir l'utilisation de plans d'échantillonnage complexes dans des populations hétérogènes, l'absence ou l'inexactitude des renseignements sur le moment où ont lieu les événements et la possibilité qu'il existe des mécanismes de retrait de l'enquête ou de censure des données qui ne peuvent être ignorés. On considère des méthodes paramétriques et non paramétriques d'estimation et de vérification des modèles. On propose de nouvelles méthodes, ainsi que des méthodes existantes qu'on applique à l'analyse des données sur la durée provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016708
    Description :

    Cette étude traite de l'analyse des données d'enquêtes complexes sur la santé par des méthodes de modélisation multivariées. L'étude porte principalement sur diverses méthodes basées sur le plan d'échantillonnage ou basées sur un modèle qui visent à tenir compte de la complexité du plan d'échantillonnage, y compris la mise en grappes, la stratification et la pondération. Les méthodes étudiées incluent la modélisation linéaire généralisée fondée sur la pseudo-méthode de vraisemblance et les équations d'estimations généralisées, les modèles linéaires mixtes estimés par le maximum de vraisemblance restreint et les techniques hiérarchiques bayesiennes basées sur les méthodes de simulation de Monte Carlo d'une chaîne de Markov (MCMC). On compare empiriquement les méthodes sur des données provenant d'une grande enquête comprenant une interview sur la santé et un examen physique réalisés en Finlande en 2000 (Health 2000 Study).

    Les données de la Health 2000 Study ont été recueillies au moyen d'interviews sur place, de questionnaires et d'examens cliniques. L'enquête a été réalisée auprès d'un échantillon en grappes stratifié à deux degrés. Le plan d'échantillonnage comportait des corrélations intra grappes positives pour nombre de variables étudiées. En vue d'une étude plus approfondie, on a choisi un petit nombre de variables tirées des volets de l'interview sur la santé et de l'examen clinique. Dans de nombreux cas, les diverses méthodes ont produit des résultats numériques comparables et appuyés des conclusions statistiques similaires. Celles qui ne tenaient pas compte de la complexité du plan d'échantillonnage ont parfois produit des conclusions contradictoires. On discute aussi de l'application des méthodes lors de l'utilisation de logiciels statistiques standards.

    Date de diffusion : 2004-09-13

Date de modification :