Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (26)

Tout (26) (25 of 26 results)

  • Articles et rapports : 12-001-X201700254895
    Description :

    Cette note de Graham Kalton présente une discussion de l’article « Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures » où J.N.K. Rao et Wayne A. Fuller partagent leur vision quant à l’évolution de la théorie et de la méthodologie des enquêtes par sondage au cours des 100 dernières années.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700254872
    Description :

    La présente note expose les fondements théoriques de l’extension de l’intervalle de couverture bilatéral de Wilson à une proportion estimée à partir de données d’enquêtes complexes. Il est démontré que l’intervalle est asymptotiquement équivalent à un intervalle calculé en partant d’une transformation logistique. Une légèrement meilleure version est examinée, mais les utilisateurs pourraient préférer construire un intervalle unilatéral déjà décrit dans la littérature.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600114307
    Description :

    À partir de l’Enquête auprès des peuples autochtones de 2012, la présente étude examine les propriétés psychométriques de l’échelle de détresse psychologique à 10 questions de Kessler (une mesure abrégée de la détresse psychologique non spécifique) appliquée aux Premières Nations vivant à l’extérieur des réserves, aux Métis et aux Inuits âgés de 15 ans et plus.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114172
    Description :

    Quand un échantillon aléatoire tiré d’une base liste complète souffre de non-réponse totale, on peut faire appel à la pondération par calage sur des totaux de population pour éliminer le biais de non-réponse sous un modèle hypothétique de réponse (sélection) ou de prédiction (résultat). De cette façon, la pondération par calage peut non seulement procurer une double protection contre le biais de non-réponse, mais aussi réduire la variance. En employant une astuce simple, on peut estimer simultanément la variance sous le modèle hypothétique de prédiction et l’erreur quadratique moyenne sous la combinaison du modèle hypothétique de réponse et du mécanisme d’échantillonnage probabiliste. Malheureusement, il existe une limite pratique aux types de modèle de réponse que l’on peut supposer lorsque les poids de sondage sont calés sur les totaux de population en une seule étape. En particulier, la fonction de réponse choisie ne peut pas toujours être logistique. Cette limite ne gêne pas la pondération par calage lorsqu’elle est effectuée en deux étapes : de l’échantillon de répondants à l’échantillon complet pour éliminer le biais de réponse, et puis de l’échantillon complet à la population pour réduire la variance. Des gains d’efficacité pourraient découler de l’utilisation de l’approche en deux étapes, même si les variables de calage employées à chaque étape représentent un sous-ensemble des variables de calage de l’approche en une seule étape. L’estimation simultanée de l’erreur quadratique moyenne par linéarisation est possible, mais plus compliquée que lorsque le calage est effectué en une seule étape.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214097
    Description :

    Lorsque les enquêtes mensuelles auprès des entreprises ne sont pas entièrement chevauchantes, il existe deux estimateurs différents du taux de croissance mensuelle du chiffre d’affaires, i) l’un fondé sur les totaux de population estimés mensuellement et ii) l’autre fondé purement sur les entreprises observées aux deux occasions dans la partie chevauchante des enquêtes correspondantes. Les estimations et les variances résultantes pourraient être assez différentes. Le présent article a pour but de proposer un estimateur composite optimal du taux de croissance, ainsi que des totaux de population.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211868
    Description :

    Thompson et Sigman (2000) ont proposé une méthode d'estimation des médianes applicable à des données provenant de populations à forte asymétrie positive. Cette méthode comprend une interpolation sur des intervalles (classes) qui dépendent des données. Ils ont démontré qu'elle possède de bonnes propriétés statistiques pour les médianes calculées d'après un échantillon fortement asymétrique. La présente étude étend les travaux antérieurs aux méthodes d'estimation des déciles pour une population à asymétrie positive en utilisant des données d'enquête complexes. Nous présentons trois méthodes d'interpolation, ainsi que la méthode classique d'estimation des déciles (sans classes) et nous évaluons chaque méthode empiriquement au moyen d'une étude en simulation en utilisant les données sur les logements résidentiels provenant de l'Enquête sur la construction (Survey of Construction). Nous avons constaté qu'une variante de la méthode courante en utilisant le 95e centile comme facteur d'échelle produit les estimations des déciles ayant les meilleures propriétés statistiques.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111826
    Description :

    Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201300111828
    Description :

    Une question fréquente concernant les enquêtes longitudinales est celle de savoir comment combiner les différentes cohortes. Dans le présent article, nous présentons une nouvelle méthode qui permet de combiner différentes cohortes et d'utiliser toutes les données à notre disposition dans une enquête longitudinale pour estimer les paramètres d'un modèle semi-paramétrique qui relie la variable réponse à un jeu de covariables. La procédure s'appuie sur la méthode des équations d'estimation généralisées pondérées pour traiter les données manquantes pour certaines vagues dans les enquêtes longitudinales. Notre méthode s'appuie, pour l'estimation des paramètres du modèle, sur un cadre de randomisation conjointe qui tient compte à la fois du modèle de superpopulation et de la sélection aléatoire selon le plan de sondage. Nous proposons aussi une méthode d'estimation de la variance sous le plan et sous randomisation conjointe. Pour illustrer la méthode, nous l'appliquons à l'enquête Survey of Doctorate Recipients réalisée par la National Science Foundation des États-Unis.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (23)

Analyses (23) (23 of 23 results)

  • Articles et rapports : 12-001-X201700254895
    Description :

    Cette note de Graham Kalton présente une discussion de l’article « Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures » où J.N.K. Rao et Wayne A. Fuller partagent leur vision quant à l’évolution de la théorie et de la méthodologie des enquêtes par sondage au cours des 100 dernières années.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700254872
    Description :

    La présente note expose les fondements théoriques de l’extension de l’intervalle de couverture bilatéral de Wilson à une proportion estimée à partir de données d’enquêtes complexes. Il est démontré que l’intervalle est asymptotiquement équivalent à un intervalle calculé en partant d’une transformation logistique. Une légèrement meilleure version est examinée, mais les utilisateurs pourraient préférer construire un intervalle unilatéral déjà décrit dans la littérature.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600114307
    Description :

    À partir de l’Enquête auprès des peuples autochtones de 2012, la présente étude examine les propriétés psychométriques de l’échelle de détresse psychologique à 10 questions de Kessler (une mesure abrégée de la détresse psychologique non spécifique) appliquée aux Premières Nations vivant à l’extérieur des réserves, aux Métis et aux Inuits âgés de 15 ans et plus.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114172
    Description :

    Quand un échantillon aléatoire tiré d’une base liste complète souffre de non-réponse totale, on peut faire appel à la pondération par calage sur des totaux de population pour éliminer le biais de non-réponse sous un modèle hypothétique de réponse (sélection) ou de prédiction (résultat). De cette façon, la pondération par calage peut non seulement procurer une double protection contre le biais de non-réponse, mais aussi réduire la variance. En employant une astuce simple, on peut estimer simultanément la variance sous le modèle hypothétique de prédiction et l’erreur quadratique moyenne sous la combinaison du modèle hypothétique de réponse et du mécanisme d’échantillonnage probabiliste. Malheureusement, il existe une limite pratique aux types de modèle de réponse que l’on peut supposer lorsque les poids de sondage sont calés sur les totaux de population en une seule étape. En particulier, la fonction de réponse choisie ne peut pas toujours être logistique. Cette limite ne gêne pas la pondération par calage lorsqu’elle est effectuée en deux étapes : de l’échantillon de répondants à l’échantillon complet pour éliminer le biais de réponse, et puis de l’échantillon complet à la population pour réduire la variance. Des gains d’efficacité pourraient découler de l’utilisation de l’approche en deux étapes, même si les variables de calage employées à chaque étape représentent un sous-ensemble des variables de calage de l’approche en une seule étape. L’estimation simultanée de l’erreur quadratique moyenne par linéarisation est possible, mais plus compliquée que lorsque le calage est effectué en une seule étape.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214097
    Description :

    Lorsque les enquêtes mensuelles auprès des entreprises ne sont pas entièrement chevauchantes, il existe deux estimateurs différents du taux de croissance mensuelle du chiffre d’affaires, i) l’un fondé sur les totaux de population estimés mensuellement et ii) l’autre fondé purement sur les entreprises observées aux deux occasions dans la partie chevauchante des enquêtes correspondantes. Les estimations et les variances résultantes pourraient être assez différentes. Le présent article a pour but de proposer un estimateur composite optimal du taux de croissance, ainsi que des totaux de population.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211868
    Description :

    Thompson et Sigman (2000) ont proposé une méthode d'estimation des médianes applicable à des données provenant de populations à forte asymétrie positive. Cette méthode comprend une interpolation sur des intervalles (classes) qui dépendent des données. Ils ont démontré qu'elle possède de bonnes propriétés statistiques pour les médianes calculées d'après un échantillon fortement asymétrique. La présente étude étend les travaux antérieurs aux méthodes d'estimation des déciles pour une population à asymétrie positive en utilisant des données d'enquête complexes. Nous présentons trois méthodes d'interpolation, ainsi que la méthode classique d'estimation des déciles (sans classes) et nous évaluons chaque méthode empiriquement au moyen d'une étude en simulation en utilisant les données sur les logements résidentiels provenant de l'Enquête sur la construction (Survey of Construction). Nous avons constaté qu'une variante de la méthode courante en utilisant le 95e centile comme facteur d'échelle produit les estimations des déciles ayant les meilleures propriétés statistiques.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111826
    Description :

    Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201300111828
    Description :

    Une question fréquente concernant les enquêtes longitudinales est celle de savoir comment combiner les différentes cohortes. Dans le présent article, nous présentons une nouvelle méthode qui permet de combiner différentes cohortes et d'utiliser toutes les données à notre disposition dans une enquête longitudinale pour estimer les paramètres d'un modèle semi-paramétrique qui relie la variable réponse à un jeu de covariables. La procédure s'appuie sur la méthode des équations d'estimation généralisées pondérées pour traiter les données manquantes pour certaines vagues dans les enquêtes longitudinales. Notre méthode s'appuie, pour l'estimation des paramètres du modèle, sur un cadre de randomisation conjointe qui tient compte à la fois du modèle de superpopulation et de la sélection aléatoire selon le plan de sondage. Nous proposons aussi une méthode d'estimation de la variance sous le plan et sous randomisation conjointe. Pour illustrer la méthode, nous l'appliquons à l'enquête Survey of Doctorate Recipients réalisée par la National Science Foundation des États-Unis.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

Références (3)

Références (3) (3 results)

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Produits techniques : 11-536-X200900110813
    Description :

    Le National Agricultural Statistics Service (NASS) utilise de plus en plus l'estimateur jackknife avec suppression d'un groupe pour estimer les variances. Dans le cas des enquêtes fondées sur cette technique, on attribue 16 poids à chaque élément échantillonné : le poids d'échantillonnage réel de l'élément après l'intégration de tous les ajustements de non-réponse et de calage, et 15 poids de rééchantillonnage jackknife. Le NASS recommande de construire un intervalle de confiance pour les statistiques univariées en supposant que l'estimateur jackknife avec suppression d'un groupe possède 14 degrés de liberté. Le document décrit les méthodes qui visent à modifier l'estimateur jackknife avec suppression d'un groupe en vue de réduire l'éventuel biais de l'échantillon fini. Il propose également une méthode qui sert à mesurer les degrés réels de liberté lorsque les 14 poids recommandés par le NASS pourraient s'avérer trop généreux.

    Date de diffusion : 2009-08-11

Date de modification :