Statistiques par sujet – Pondération et estimation

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (409)

Tout (409) (25 of 409 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Produits techniques : 91-528-X
    Description :

    Ce manuel offre des descriptions détaillées des sources de données et des méthodes utilisées par Statistique Canada pour produire des estimations de la population. Elles comportent : les estimations postcensitaires et intercensitaires de la population; la population de départ; les naissances et les décès; l'immigration; les émigrations; les résidents non permanents; la migration interprovinciale; les estimations infraprovinciales de la population; les estimations de la population selon l'âge, le sexe et l'état matrimonial et les estimations des familles de recensement. Un glossaire des termes courants est inclus à la fin du manuel, suivi de la notation normalisée utilisée.

    Auparavant, la documentation sur les changements méthodologiques pour le calcul des estimations était éparpillée dans plusieurs publications et documents d'information de Statistique Canada. Ce manuel offre aux utilisateurs de statistiques démographiques un recueil exhaustif des procédures actuelles utilisées par Statistique Canada pour élaborer des estimations de la population et des familles.

    Date de diffusion : 2016-03-03

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214230
    Description :

    Le présent article décrit l’élaboration de méthodes de répartition pour des enquêtes par sondage avec stratification quand l’utilisation d’estimateurs sur petits domaines composites est une priorité et que les domaines servent de strates. Longford (2006) a proposé pour cette situation un critère objectif fondé sur une combinaison pondérée des erreurs quadratiques moyennes des moyennes de petit domaine et d’une moyenne globale. Ici, nous redéfinissons cette approche dans un cadre assisté par modèle, ce qui permet l’utilisation de variables explicatives et une interprétation plus naturelle des résultats en utilisant un paramètre de corrélation intraclasse. Nous considérons aussi plusieurs utilisations de la répartition exponentielle et permettons l’application d’autres contraintes, telle une valeur maximale de la racine carrée relative de l’erreur quadratique moyenne, aux estimateurs de strate. Nous constatons qu’une répartition exponentielle simple peut donner des résultats très près d’être aussi bons que le plan optimal, même quand l’objectif est de minimiser le critère de Longford (2006).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114200
    Description :

    Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114174
    Description :

    L’échantillonnage matriciel, aussi appelé échantillonnage avec questionnaire fractionné ou scindé, est un plan d’échantillonnage qui consiste à diviser un questionnaire en sous-ensembles de questions, éventuellement chevauchants, puis à administrer chaque sous-ensemble à un ou à plusieurs sous-échantillons aléatoires d’un échantillon initial. Ce type de plan, de plus en plus attrayant, répond aux préoccupations concernant les coûts de la collecte, le fardeau de réponse et la qualité des données, mais réduit le nombre d’unités échantillonnées auxquelles les questions sont posées. Un concept élargi du plan d’échantillonnage matriciel comprend l’intégration d’échantillons provenant d’enquêtes distinctes afin de rationaliser les opérations d’enquête et d’accroître la cohérence des données de sortie. Dans le cas de l’échantillonnage matriciel avec sous-ensembles chevauchants de questions, nous proposons une méthode d’estimation efficace qui exploite les corrélations entre les items étudiés dans les divers sous-échantillons afin d’améliorer la précision des estimations de l’enquête. La méthode proposée, fondée sur le principe de la meilleure estimation linéaire sans biais, produit des estimateurs par régression optimale composites des totaux de population en utilisant un scénario approprié de calage des poids d’échantillonnage de l’échantillon complet. Une variante de ce scénario de calage, d’usage plus général, produit des estimateurs par régression généralisée composites qui sont également très efficaces sur le plan des calculs.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114161
    Description :

    Le modèle de Fay Herriot est un modèle au niveau du domaine d’usage très répandu pour l’estimation des moyennes de petit domaine. Ce modèle contient des effets aléatoires en dehors de la régression linéaire (fixe) basée sur les covariables au niveau du domaine. Les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine s’obtiennent en estimant les effets aléatoires de domaine, et ils peuvent être exprimés sous forme d’une moyenne pondérée des estimateurs directs propres aux domaines et d’estimateurs synthétiques de type régression. Dans certains cas, les données observées n’appuient pas l’inclusion des effets aléatoires de domaine dans le modèle. L’exclusion de ces effets de domaine aboutit à l’estimateur synthétique de type régression, autrement dit un poids nul est appliqué à l’estimateur direct. L’étude porte sur un estimateur à test préliminaire d’une moyenne de petit domaine obtenu après l’exécution d’un test pour déceler la présence d’effets aléatoires de domaine. Parallèlement, elle porte sur les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine qui donnent toujours des poids non nuls aux estimateurs directs dans tous les domaines, ainsi que certains estimateurs de rechange basés sur le test préliminaire. La procédure de test préliminaire est également utilisée pour définir de nouveaux estimateurs de l’erreur quadratique moyenne des estimateurs ponctuels des moyennes de petit domaine. Les résultats d’une étude par simulation limitée montrent que, si le nombre de domaines est petit, la procédure d’essai préliminaire mène à des estimateurs de l’erreur quadratique moyenne présentant un biais relatif absolu moyen considérablement plus faible que les estimateurs de l’erreur quadratique moyenne usuels, surtout quand la variance des effets aléatoires est faible comparativement aux variances d’échantillonnage.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Produits techniques : 12-002-X
    Description :

    Le Bulletin technique et d'information (BTI) des Centres de données de recherche (CDR) est un forum où les analystes de Statistique Canada et les personnes travaillant dans le milieu de la recherche peuvent communiquer entre eux au sujet de l'utilisation des données d'enquête et des techniques méthodologiques. Les articles du BTI seront axés sur l'analyse et la modélisation de données, la gestion des données ainsi que les pratiques exemplaires ou inefficaces sur le plan statistique, informatique et scientifique. De plus, les thèmes du BTI comprendront des articles portant sur le contenu des données, les répercussions de la formulation des questionnaires, la comparaison d'ensembles de données, les études traitant des méthodologies et de leur application, les particularités des données, les données problématiques et les solutions proposées et enfin la présentation d'outils novateurs utilisant les données des CDR et des logiciels appropriés. Tous ces articles permettront d'offrir des conseils et des exemples détaillés de commandes, d'habitudes, d'astuces et de stratégies pouvant aider les utilisateurs des CDR à résoudre des problèmes.

    Les principaux objectifs du BTI sont les suivants :

    - l'avancement et la diffusion des connaissances relatives aux données de Statistique Canada;- l'échange d'idées entre les utilisateurs des CDR;- l'aide aux nouveaux utilisateurs;- la collaboration avec les spécialistes et les divisions spécialisées de Statistique Canada.

    Le BTI vise la publication d'articles de qualité, dignes d'être diffusés dans le milieu de la recherche et susceptibles d'accroître la qualité des travaux effectués dans les CDR de Statistique Canada.

    Date de diffusion : 2015-03-25

  • Index et guides : 99-002-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.

    Date de diffusion : 2015-01-28

  • Articles et rapports : 12-001-X201400214113
    Description :

    Les enquêtes par panel à renouvellement servent à calculer des estimations des flux bruts entre deux périodes consécutives de mesure. Le présent article examine une procédure générale pour estimer les flux bruts lorsque l’enquête par panel à renouvellement a été générée à partir d’un plan de sondage complexe avec non-réponse aléatoire. Une approche à pseudo-maximum de vraisemblance est envisagée dans le contexte d’un modèle à deux degrés de chaînes de Markov pour le classement des personnes dans les catégories de l’enquête et pour la modélisation de la non-réponse.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214097
    Description :

    Lorsque les enquêtes mensuelles auprès des entreprises ne sont pas entièrement chevauchantes, il existe deux estimateurs différents du taux de croissance mensuelle du chiffre d’affaires, i) l’un fondé sur les totaux de population estimés mensuellement et ii) l’autre fondé purement sur les entreprises observées aux deux occasions dans la partie chevauchante des enquêtes correspondantes. Les estimations et les variances résultantes pourraient être assez différentes. Le présent article a pour but de proposer un estimateur composite optimal du taux de croissance, ainsi que des totaux de population.

    Date de diffusion : 2014-12-19

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (329)

Analyses (329) (25 of 329 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214230
    Description :

    Le présent article décrit l’élaboration de méthodes de répartition pour des enquêtes par sondage avec stratification quand l’utilisation d’estimateurs sur petits domaines composites est une priorité et que les domaines servent de strates. Longford (2006) a proposé pour cette situation un critère objectif fondé sur une combinaison pondérée des erreurs quadratiques moyennes des moyennes de petit domaine et d’une moyenne globale. Ici, nous redéfinissons cette approche dans un cadre assisté par modèle, ce qui permet l’utilisation de variables explicatives et une interprétation plus naturelle des résultats en utilisant un paramètre de corrélation intraclasse. Nous considérons aussi plusieurs utilisations de la répartition exponentielle et permettons l’application d’autres contraintes, telle une valeur maximale de la racine carrée relative de l’erreur quadratique moyenne, aux estimateurs de strate. Nous constatons qu’une répartition exponentielle simple peut donner des résultats très près d’être aussi bons que le plan optimal, même quand l’objectif est de minimiser le critère de Longford (2006).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114200
    Description :

    Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114174
    Description :

    L’échantillonnage matriciel, aussi appelé échantillonnage avec questionnaire fractionné ou scindé, est un plan d’échantillonnage qui consiste à diviser un questionnaire en sous-ensembles de questions, éventuellement chevauchants, puis à administrer chaque sous-ensemble à un ou à plusieurs sous-échantillons aléatoires d’un échantillon initial. Ce type de plan, de plus en plus attrayant, répond aux préoccupations concernant les coûts de la collecte, le fardeau de réponse et la qualité des données, mais réduit le nombre d’unités échantillonnées auxquelles les questions sont posées. Un concept élargi du plan d’échantillonnage matriciel comprend l’intégration d’échantillons provenant d’enquêtes distinctes afin de rationaliser les opérations d’enquête et d’accroître la cohérence des données de sortie. Dans le cas de l’échantillonnage matriciel avec sous-ensembles chevauchants de questions, nous proposons une méthode d’estimation efficace qui exploite les corrélations entre les items étudiés dans les divers sous-échantillons afin d’améliorer la précision des estimations de l’enquête. La méthode proposée, fondée sur le principe de la meilleure estimation linéaire sans biais, produit des estimateurs par régression optimale composites des totaux de population en utilisant un scénario approprié de calage des poids d’échantillonnage de l’échantillon complet. Une variante de ce scénario de calage, d’usage plus général, produit des estimateurs par régression généralisée composites qui sont également très efficaces sur le plan des calculs.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114161
    Description :

    Le modèle de Fay Herriot est un modèle au niveau du domaine d’usage très répandu pour l’estimation des moyennes de petit domaine. Ce modèle contient des effets aléatoires en dehors de la régression linéaire (fixe) basée sur les covariables au niveau du domaine. Les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine s’obtiennent en estimant les effets aléatoires de domaine, et ils peuvent être exprimés sous forme d’une moyenne pondérée des estimateurs directs propres aux domaines et d’estimateurs synthétiques de type régression. Dans certains cas, les données observées n’appuient pas l’inclusion des effets aléatoires de domaine dans le modèle. L’exclusion de ces effets de domaine aboutit à l’estimateur synthétique de type régression, autrement dit un poids nul est appliqué à l’estimateur direct. L’étude porte sur un estimateur à test préliminaire d’une moyenne de petit domaine obtenu après l’exécution d’un test pour déceler la présence d’effets aléatoires de domaine. Parallèlement, elle porte sur les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine qui donnent toujours des poids non nuls aux estimateurs directs dans tous les domaines, ainsi que certains estimateurs de rechange basés sur le test préliminaire. La procédure de test préliminaire est également utilisée pour définir de nouveaux estimateurs de l’erreur quadratique moyenne des estimateurs ponctuels des moyennes de petit domaine. Les résultats d’une étude par simulation limitée montrent que, si le nombre de domaines est petit, la procédure d’essai préliminaire mène à des estimateurs de l’erreur quadratique moyenne présentant un biais relatif absolu moyen considérablement plus faible que les estimateurs de l’erreur quadratique moyenne usuels, surtout quand la variance des effets aléatoires est faible comparativement aux variances d’échantillonnage.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214113
    Description :

    Les enquêtes par panel à renouvellement servent à calculer des estimations des flux bruts entre deux périodes consécutives de mesure. Le présent article examine une procédure générale pour estimer les flux bruts lorsque l’enquête par panel à renouvellement a été générée à partir d’un plan de sondage complexe avec non-réponse aléatoire. Une approche à pseudo-maximum de vraisemblance est envisagée dans le contexte d’un modèle à deux degrés de chaînes de Markov pour le classement des personnes dans les catégories de l’enquête et pour la modélisation de la non-réponse.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214097
    Description :

    Lorsque les enquêtes mensuelles auprès des entreprises ne sont pas entièrement chevauchantes, il existe deux estimateurs différents du taux de croissance mensuelle du chiffre d’affaires, i) l’un fondé sur les totaux de population estimés mensuellement et ii) l’autre fondé purement sur les entreprises observées aux deux occasions dans la partie chevauchante des enquêtes correspondantes. Les estimations et les variances résultantes pourraient être assez différentes. Le présent article a pour but de proposer un estimateur composite optimal du taux de croissance, ainsi que des totaux de population.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214118
    Description :

    L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114000
    Description :

    Nous avons mis en œuvre la technique de linéarisation généralisée reposant sur le concept de fonction d’influence tout comme l’a fait Osier (2009) pour estimer la variance de statistiques complexes telles que les indices de Laeken. Des simulations réalisées avec le langage R montrent que, pour les cas où l’on a recours à une estimation par noyau gaussien de la fonction de densité des revenus considérés, on obtient un fort biais pour la valeur estimée de la variance. On propose deux autres méthodes pour estimer la densité qui diminuent fortement le biais constaté. L’une de ces méthodes a déjà été esquissée par Deville (2000). Les résultats publiés ici permettront une amélioration substantielle de la qualité des informations sur la précision de certains indices de Laeken diffusées et comparées internationalement.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114029
    Description :

    Fay et Train (1995) présentent une méthode qu’ils nomment successive difference replication, c.-à-d. répliques des différences successives, qui peut être utilisée pour estimer la variance d’un total estimé au moyen d’un échantillon aléatoire systématique tiré d’une liste ordonnée. L’estimateur prend la forme générale d’un estimateur de variance par rééchantillonnage, où les facteurs de rééchantillonnage sont construits de manière à imiter l’estimateur par différences successives. Cet estimateur est une modification de celui présenté dans Wolter (1985). Le présent article étend la méthodologie en expliquant l’effet de l’attribution des lignes de matrice sur l’estimateur de variance, en montrant comment un jeu réduit de répliques mène à un estimateur raisonnable et en établissant les conditions pour que la méthode des répliques des différences successives soit équivalente à l’estimateur par différences successives.

    Date de diffusion : 2014-06-27

Références (80)

Références (80) (25 of 80 results)

  • Produits techniques : 91-528-X
    Description :

    Ce manuel offre des descriptions détaillées des sources de données et des méthodes utilisées par Statistique Canada pour produire des estimations de la population. Elles comportent : les estimations postcensitaires et intercensitaires de la population; la population de départ; les naissances et les décès; l'immigration; les émigrations; les résidents non permanents; la migration interprovinciale; les estimations infraprovinciales de la population; les estimations de la population selon l'âge, le sexe et l'état matrimonial et les estimations des familles de recensement. Un glossaire des termes courants est inclus à la fin du manuel, suivi de la notation normalisée utilisée.

    Auparavant, la documentation sur les changements méthodologiques pour le calcul des estimations était éparpillée dans plusieurs publications et documents d'information de Statistique Canada. Ce manuel offre aux utilisateurs de statistiques démographiques un recueil exhaustif des procédures actuelles utilisées par Statistique Canada pour élaborer des estimations de la population et des familles.

    Date de diffusion : 2016-03-03

  • Produits techniques : 12-002-X
    Description :

    Le Bulletin technique et d'information (BTI) des Centres de données de recherche (CDR) est un forum où les analystes de Statistique Canada et les personnes travaillant dans le milieu de la recherche peuvent communiquer entre eux au sujet de l'utilisation des données d'enquête et des techniques méthodologiques. Les articles du BTI seront axés sur l'analyse et la modélisation de données, la gestion des données ainsi que les pratiques exemplaires ou inefficaces sur le plan statistique, informatique et scientifique. De plus, les thèmes du BTI comprendront des articles portant sur le contenu des données, les répercussions de la formulation des questionnaires, la comparaison d'ensembles de données, les études traitant des méthodologies et de leur application, les particularités des données, les données problématiques et les solutions proposées et enfin la présentation d'outils novateurs utilisant les données des CDR et des logiciels appropriés. Tous ces articles permettront d'offrir des conseils et des exemples détaillés de commandes, d'habitudes, d'astuces et de stratégies pouvant aider les utilisateurs des CDR à résoudre des problèmes.

    Les principaux objectifs du BTI sont les suivants :

    - l'avancement et la diffusion des connaissances relatives aux données de Statistique Canada;- l'échange d'idées entre les utilisateurs des CDR;- l'aide aux nouveaux utilisateurs;- la collaboration avec les spécialistes et les divisions spécialisées de Statistique Canada.

    Le BTI vise la publication d'articles de qualité, dignes d'être diffusés dans le milieu de la recherche et susceptibles d'accroître la qualité des travaux effectués dans les CDR de Statistique Canada.

    Date de diffusion : 2015-03-25

  • Index et guides : 99-002-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.

    Date de diffusion : 2015-01-28

  • Produits techniques : 11-522-X201300014265
    Description :

    Le couplage d’enregistrements exact est un outil essentiel à l’exploitation des fichiers administratifs, surtout quand on étudie les relations entre de nombreuses variables qui ne sont pas toutes contenues dans un fichier administratif unique. L’objectif est de trouver des paires d’enregistrements associées à une même personne ou entité. Le résultat est un fichier couplé qui peut être utilisé pour estimer les paramètres de population, y compris les totaux et les ratios. Malheureusement, le processus de couplage est complexe et sujet à erreurs parce qu’il s’appuie habituellement sur des variables d’appariement qui ne sont pas uniques et qui peuvent être consignées avec des erreurs. Par conséquent, le fichier couplé contient des erreurs d’appariement, y compris des appariements incorrects d’enregistrements non apparentés et des appariements manquants d’enregistrements apparentés. Ces erreurs peuvent donner lieu à des estimateurs biaisés s’il n’en est pas tenu compte dans le processus d’estimation. Dans le cadre de travaux antérieurs dans ce domaine, ces erreurs ont été prises en considération au moyen d’hypothèses au sujet de leur distribution. En général, la distribution supposée est en fait une approximation très grossière de la distribution réelle, en raison de la complexité intrinsèque du processus de couplage. Donc, les estimateurs résultants peuvent présenter un biais. Un nouveau cadre méthodologique, fondé sur la théorie classique des sondages, est proposé pour obtenir des estimateurs fondés sur le plan de sondage à partir de fichiers administratifs d’enregistrements couplés. Il comprend trois étapes. Pour commencer, on tire un échantillon probabiliste de paires d’enregistrements. Ensuite, on procède à un examen manuel de toutes les paires échantillonnées. Enfin, on calcule des estimateurs fondés sur le plan de sondage en fonction des résultats de l’examen. Cette méthodologie mène à des estimateurs dont l’erreur d’échantillonnage est fondée sur le plan de sondage, même si le processus repose uniquement sur deux fichiers administratifs. Elle s’écarte des travaux antérieurs s’appuyant sur un modèle et fournit des estimateurs plus robustes. Ce résultat est obtenu en plaçant les examens manuels au coeur du processus d’estimation. Le recours aux examens manuels est essentiel, parce qu’il s’agit de fait d’une norme de référence en ce qui a trait à la qualité des décisions au sujet des appariements. Le cadre proposé peut également être appliqué à l’estimation au moyen de données administratives et de données d’enquête couplées.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014266
    Description :

    L’utilisation de moniteurs et l’autodéclaration sont deux méthodes de mesure de l’énergie dépensée durant l’activité physique, la variance de l’erreur étant habituellement beaucoup plus faible dans le cas des moniteurs que dans celui de l’autodéclaration. La Physical Activity Measurement Survey a été conçue pour comparer les deux procédures en utilisant des observations répétées sur une même personne. Ces observations répétées permettent de calibrer la mesure par autodéclaration sur la mesure par moniteur, ce qui rend possible l’estimation des composantes des variances des erreurs de mesure. Les estimations des composantes de la variance de l’erreur de mesure de la dépense d’énergie selon le moniteur et selon l’autodéclaration sont présentées pour les femmes qui ont participé à la Physical Activity Measurement Survey.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014286
    Description :

    L’Etude Longitudinale Française depuis l’Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion en maternité. Cette cohorte, consacrée au suivi des enfants, de la naissance à l’âge adulte, aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l’un des 25 jours répartis parmi les quatre saisons, ont été sélectionnés. Cet échantillon est le résultat d’un plan de sondage non standard que nous appellons échantillonnage produit. Il se présente pour cette enquête sous la forme du croisement de deux échantillonnages indépendants: celui des maternités et celui des jours. Si l’on peut facilement imaginer un effet grappe dû à l’échantillonnage de maternités, on peut symétriquement imaginer un effet grappe dû à l’échantillonnage des jours. La dimension temporelle du plan ne pourra alors être négligée si les estimations recherchées sont susceptibles de variations journalières ou saisonnières. Si ce plan non standard peut être vu comme un plan à deux phases bien particulier, il s’avère nécessaire de le définir dans un cadre plus adapté. Après une comparaison entre le plan produit et un plan classique à deux degrés, seront proposés des estimateurs de variance adaptés à ce plan de sondage. Une étude par simulations illustrera nos propos.

    Date de diffusion : 2014-10-31

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Produits techniques : 75F0002M2012003
    Description :

    La diffusion des données de 2010 de l'Enquête sur la dynamique du travail et du revenu (EDTR) a coïncidé avec une révision historique des résultats de 2006 à 2009. Les poids de l'enquête ont été mis à jour afin de tenir compte des nouvelles estimations démographiques fondées sur le Recensement de 2006, plutôt que sur le Recensement de 2001. Le présent document présente de façon sommaire les répercussions de cette révision sur les estimations d'enquête pour la période 2006-2009.

    Date de diffusion : 2012-11-01

  • Produits techniques : 12-002-X201200111642
    Description :

    En général, il est recommandé de recourir à l'estimation pondérée au moment d'analyser les données d'un fichier de microdonnées issues du questionnaire complet du recensement. Puisque de tels fichiers de données sont maintenant disponibles dans les CDR, il est nécessaire de donner aux chercheurs de ces centres plus d'information sur la façon de procéder à une estimation pondérée avec ces fichiers. Ce document a pour objectif de fournir cette information, plus particulièrement la façon avec laquelle les variables de pondération ont été dérivées pour les fichiers de microdonnées du recensement et la pondération qui devrait être utilisée pour différentes unités d'analyse. Dans le cas des recensements de 1996, 2001 et 2006, la même variable de pondération est appropriée peu importe si ce sont des personnes, des familles ou des ménages qui sont étudiés. Dans le cas du Recensement de 1991, les recommandations sont plus complexes : une variable de pondération différente de celle des personnes et des familles est requise pour les ménages, et d'autres restrictions s'appliquent pour obtenir la bonne valeur de pondération pour les familles.

    Date de diffusion : 2012-10-25

  • Produits techniques : 92-568-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le Recensement de 2006. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les résultats des études d'évaluation.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110409
    Description :

    Dans le cas de l'échantillonnage avec probabilités de sélection inégales, les corrélations entre les probabilités de sélection et les données échantillonnées peuvent induire un biais. Pour le corriger, on fait souvent appel à des poids de sondage correspondant à l'inverse de la probabilité de sélection. Les plans d'échantillonnage fortement disproportionnels donnent lieu à des poids élevés, susceptibles d'introduire une variabilité superflue dans des statistiques telles que l'estimation de la moyenne de la population. L'élagage des poids consiste à réduire ceux dont la valeur est élevée à une valeur seuil fixée et à rajuster ceux dont la valeur est inférieure à ce seuil afin que leur somme demeure égale à celle des poids non élagués. Cet élagage réduit la variabilité, mais introduit un certain biais. Les méthodes habituelles ne sont pas « guidées par les données », c'est à dire qu'elles ne se fondent pas sur les données pour arriver au compromis biais variance approprié, ou bien elles le font de façon très inefficace. Cette communication décrit l'élaboration de méthodes bayésiennes de sélection des variables pour l'élagage des poids destinées à compléter les méthodes habituelles, ponctuelles, fondées sur le plan de sondage, lors de l'utilisation de plans à probabilités d'inclusion disproportionnelles où les variances dues aux poids de sondage excèdent la correction pour le biais. Ces méthodes sont utilisées pour estimer les paramètres de population provenant de modèles de régression linéaire et de régression linéaire généralisée dans le contexte de plans d'échantillonnage à probabilités de sélection connues stratifiés et stratifiés a posteriori. Des applications seront décrites dans le cas de données provenant d'enquêtes sur les blessures causées par des accidents de circulation, pour lesquelles des plans de sondage fortement disproportionnels sont souvent utilisés.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110417
    Description :

    Les coefficients des équations de régression sont souvent des paramètres d'intérêt dans le cas des enquêtes sur la santé et ces dernières sont habituellement réalisées selon un plan de sondage complexe avec l'utilisation des taux d'échantillonnage différentiels. Nous présentons des estimateurs des coefficients de régression applicables aux enquêtes complexes qui sont supérieurs aux estimateurs à facteur d'extension ordinaires selon le modèle en question, mais retiennent aussi les propriétés souhaitables du plan. Nous présentons les propriétés théoriques et celles qui sont simulées par la méthode Monte Carlo.

    Date de diffusion : 2008-03-17

  • Produits techniques : 75F0002M2007007
    Description :

    L'Enquête sur la Dynamique du travail et du revenu (EDTR), introduite à l'année de référence 1993, est une enquête longitudinale par panel menée auprès des individus. Elle vise à mesurer les changements au niveau du bien-être économique des individus et les facteurs qui peuvent influencer ces changements. L'échantillon de l'EDTR est divisé en deux panels qui se chevauchent, d'une durée de six ans chacun. Les enquêtes longitudinales, comme l'EDTR, sont particulières de par la nature dynamique de la composition de leur échantillon, engendrée directement par la dynamique des familles et des ménages au fil des ans. À chaque année de référence, l'EDTR produit deux ensembles de poids : un ensemble de poids qui est représentatif de la population initiale d'un panel (l'aspect longitudinal) et un autre qui est représentatif de la population actuelle (l'aspect transversal). Depuis 2002, un troisième ensemble de poids combinant deux panels se chevauchant pour former un nouvel échantillon longitudinal est aussi produit (appelé pondération longitudinale combinée).

    Pour la production de poids transversaux, l'EDTR combine deux échantillons indépendants et assigne un poids aux individus qui se sont joints à l'échantillon après la sélection de l'échantillon initial. Les poids longitudinaux tout comme les poids transversaux sont ajustés pour la non-réponse et les valeurs influentes. De plus, un redressement de l'échantillon est effectué pour représenter la population cible. Le but de ce document est donc de décrire la méthodologie employée à l'EDTR pour pondérer les échantillons longitudinal et transversal, et de présenter les développements importants à venir. Afin de mieux illustrer la stratégie de pondération, les résultats de l'année de référence 2003 sont utilisés. Il est à noter que la méthodologie employée pour la pondération longitudinale combinée ne sera pas présentée dans ce document puisqu'elle est décrite de façon exhaustive dans Naud (2004).

    Date de diffusion : 2007-10-18

  • Produits techniques : 11-522-X20050019477
    Description :

    Une base de données intégrée sur les traumatismes est obtenue par couplage probabiliste des données en se basant sur un sous ensemble de variables clés ou de leurs dérivées, c'est-à-dire les noms (prénom, nom de famille et surnom), l'âge, le sexe, la date de naissance, le numéro de téléphone, date du traumatisme, le numéro d'identification unique et le diagnostic. Pour évaluer la qualité des couplages produits, on calcule les taux de résultats faussement positifs et de résultats faussement négatifs. Cependant, ces taux n'indiquent pas si les bases de données utilisées pour le couplage présentent un sous dénombrement des traumatismes (biais). En outre, il importe qu'un chercheur s'intéressant aux traumatismes ait une idée de la marge d'erreur des chiffres générés par intégration de diverses bases de données, comparable à celle que l'on obtiendrait dans le cas d'un sondage, par exemple.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019475
    Description :

    Afin de déterminer et de mesurer l'impact de l'informativité, on comparera les variances des paramètres estimés, celles fondées sur le plan à celles fondées sur le modèle, de même que les paramètres estimés eux-mêmes, dans un modèle logistique sous l'hypothèse que le modèle formulé est vrai. Une approche pour évaluer l'impact de l'informativité est présentée. Afin d'étudier la complexité additionnelle de l'impact de l'informativité sur la puissance, nous proposons une nouvelle approximation pour une combinaison linéaire de distributions chi-deux décentrées, utilisant les effets de plan généralisés. Une étude par simulation d'envergure, basée sur la génération d'une population sous un modèle postulé, utilisant des paramètres estimés dérivés de l'ENSP, nous permet de détecter la présence et de mesurer l'informativité, et de comparer la robustesse des approches retenues.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019481
    Description :

    L'Enquête sur l'emploi, la rémunération et les heures est une enquête mensuelle utilisant deux sources de données, soit un recensement de dossiers administratifs et une enquête auprès d'établissements. Les données d'enquête permettent de construire des modèles qui servent à imputer massivement un éventail de variables dérivées sur la source administrative. Ce plan de sondage repose sur le fait que les concepts d'emploi et de paye mensuelle brute sont les mêmes sur les deux sources. Dans cette présentation, nous décrirons différentes solutions apportées au plan de sondage et au modèle d'imputation massive pour permettre de contourner cette différence de concepts et ainsi produire des estimations plus stables dans le temps. Des résultats sur l'estimation des gains hebdomadaires moyens à l'aide des différents scénarios complèteront l'exposé.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019447
    Description :

    Afin de comprendre les biais de sélection dans l'estimation d'un modèle lors de l'utilisation de microdonnées tirées d'une enquête longitudinale portant sur un panel, nous nous penchons sur un modèle composé de trois équations liées à la non-attrition / réponse, à l'emploi et aux salaires. Les trois équations sont corrélées librement.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019449
    Description :

    La littérature portant sur la théorie de l'estimation à base multiple se concentre sur les bases doubles et ne se préoccupe que rarement du problème pratique important de l'estimation de la variance. En utilisant une approche de multiplicité, nous proposons un estimateur à base simple et à pondération fixe pour les enquêtes à base multiple.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019460
    Description :

    Les utilisateurs analysent et interprètent les séries chronologiques d'estimations de différentes manières, en faisant souvent appel à des estimations portant sur plusieurs périodes. Malgré la taille importante des échantillons et le degré de chevauchement entre eux pour certaines périodes, les erreurs d'échantillonnage peuvent encore affecter substantiellement les estimations des mouvements et les fonctions connexes qui servent à interpréter la série d'estimations. Nous considérons comment tenir compte des erreurs d'échantillonnage dans l'interprétation des estimations provenant d'enquêtes à passages répétés et comment informer les utilisateurs et les analystes de leur incidence éventuelle.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019461
    Description :

    On propose une généralisation du coefficient de variation habituel (CV) pour solutionner certains des problèmes connus lorsqu'il est utilisé pour mesurer la qualité des estimations Certains problèmes associés au CV comprennent notamment l'interprétation lorsque l'estimation se rapproche de zéro, et l'incohérence de l'interprétation quant à la précision lorsqu'elle est générée en vue de transformations individuelles monotones différentes.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019448
    Description :

    Le présent exposé a pour objet de donner un aperçu des grands concepts théoriques et méthodologiques qui sous-tendent l'analyse des effets médiats, ainsi que de présenter certains exemples d'applications utilisant la modélisation par équation structurelle (MES) et les données de l'Enquête sur l'accès aux services de santé (EASS) de 2003.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019463
    Description :

    Les statisticiens définissent de nouveaux concepts pour communiquer les erreurs liées aux estimations. Bon nombre de ces concepts sont faciles à comprendre pour les statisticiens, mais sont encore plus difficiles à expliquer aux utilisateurs que le traditionnel intervalle de confiance. La solution proposée, pour communiquer avec des non-statisticiens, consiste à améliorer les estimations de façon à réduire au minimum la nécessité d'expliquer les erreurs. On évite ainsi de déconcerter l'utilisateur en lui fournissant trop de chiffres à comprendre.

    Date de diffusion : 2007-03-02

Date de modification :