Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (56)

Tout (56) (25 of 56 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114820
    Description :

    Les erreurs de mesure peuvent provoquer un biais de l’estimation des transitions, donnant lieu à des conclusions erronées au sujet de la dynamique du marché du travail. La littérature traditionnelle sur l’estimation des mouvements bruts est basée sur la supposition que les erreurs de mesure ne sont pas corrélées au fil du temps. Cette supposition n’est pas réaliste dans bien des contextes, en raison du plan d’enquête et des stratégies de collecte de données. Dans le présent document, nous utilisons une approche basée sur un modèle pour corriger les mouvements bruts observés des erreurs de classification au moyen de modèles markoviens à classes latentes. Nous nous reportons aux données recueillies dans le cadre de l’enquête italienne continue sur la population active, qui est transversale et trimestrielle et qui comporte un plan de renouvellement de type 2-2-2. Le questionnaire nous permet d’utiliser plusieurs indicateurs des états de la population active pour chaque trimestre : deux recueillis au cours de la première interview, et un troisième recueilli un an plus tard. Notre approche fournit une méthode pour estimer la mobilité sur le marché du travail, en tenant compte des erreurs corrélées et du plan par renouvellement de l’enquête. Le modèle qui convient le mieux est un modèle markovien mixte à classes latentes, avec des covariables touchant les transitions latentes et des erreurs corrélées parmi les indicateurs; les composantes mixtes sont de type mobile-stable. Le caractère plus approprié de la spécification du modèle mixte est attribuable à des transitions latentes estimées avec une plus grande précision.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214236
    Description :

    Nous proposons une extension assistée par modèle des mesures de l’effet de plan dû à la pondération. Nous élaborons une statistique de niveau sommaire pour différentes variables d’intérêt, sous échantillonnage à un degré et ajustement des poids par calage. La mesure de l’effet de plan que nous proposons traduit les effets conjoints d’un plan d’échantillonnage avec probabilités de sélection inégales, des poids inégaux produits en utilisant des ajustements par calage et de la force de l’association entre la variable d’analyse et les variables auxiliaires utilisées pour le calage. Nous comparons la mesure proposée aux mesures existantes de l’effet de plan au moyen de simulations en utilisant des variables semblables à celles pour lesquelles des données sont recueillies dans les enquêtes auprès des établissements et dans les enquêtes téléphoniques auprès des ménages.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501114243
    Description :

    Un outil de surveillance a été élaboré afin d’évaluer les données sur l’apport alimentaire recueillies dans le cadre d’enquêtes en fonction de Bien manger avec le Guide alimentaire canadien (GAC). L’outil permet de classer les aliments du Fichier canadien sur les éléments nutritifs (FCÉN) en fonction de leur degré de conformité avec les recommandations du GAC. Le présent article décrit l’exercice de validation effectué pour s’assurer que les aliments du FCÉN considérés « conformes aux recommandations du GAC » aient été classés de façon appropriée.

    Date de diffusion : 2015-11-18

  • Articles et rapports : 12-001-X201500114162
    Description :

    La mise en œuvre des opérations du Recensement de la population et du logement du Portugal est gérée par une structure hiérarchique dans laquelle Statistique Portugal se situe au sommet et les institutions gouvernementales locales, à la base. Quand le recensement a lieu, tous les 10 ans, Statistique Portugal demande aux administrations locales de collaborer avec lui à l’exécution et à la surveillance des opérations sur le terrain au niveau local. À l’étape de l’essai pilote du Recensement de 2011, on a demandé aux administrations locales une collaboration supplémentaire, à savoir répondre à un sondage sur la perception du risque, qui avait pour objectif de recueillir des renseignements en vue de concevoir un instrument d’assurance de la qualité pour surveiller les opérations du recensement. Le taux de réponse espéré au sondage était de 100 %, mais à l’échéance de la collecte des données, près du quart des administrations locales n’avaient pas répondu et il a donc été décidé de procéder à un suivi par la poste. Dans le présent article, nous examinons si nous aurions pu tirer les mêmes conclusions sans le suivi qu’avec celui-ci, et nous évaluons son influence sur la conception de l’instrument d’assurance de la qualité. La comparaison des réponses pour un ensemble de variables de perception a révélé que les réponses des administrations locales avant ou après le suivi ne différaient pas. Cependant, la configuration de l’instrument d’assurance de la qualité a changé lorsque l’on a inclus les réponses au suivi.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Produits techniques : 11-522-X201300014285
    Description :

    L’Enquête nationale auprès des ménages (ENM) de 2011 est une enquête à participation volontaire qui a remplacé le questionnaire complet obligatoire traditionnel du recensement de la population du Canada. L’ENM a été réalisée auprès d’un échantillon d’environ 30 % des ménages canadiens et a donné un taux de réponse pondéré selon le plan de sondage de 77 %. Comparativement, le dernier questionnaire complet du recensement a été envoyé à 20 % des ménages et a produit un taux de réponse de 94 %. Au moyen des données du questionnaire complet, Statistique Canada produit habituellement deux fichiers de microdonnées à grande diffusion (FMGD) : le FMGD des particuliers et le FMGD hiérarchique. Ces fichiers donnent tous deux des renseignements sur les particuliers, mais le FMGD hiérarchique fournit aussi des renseignements sur les liens entre les particuliers d’un même ménage ou d’une même famille. Afin de produire, en se basant sur les données de l’ENM, deux FMGD qui couvrent uniformément l’ensemble du pays et qui ne se chevauchent pas, nous avons appliqué une stratégie spéciale de sous-échantillonnage. Les analyses de confidentialité sont devenues plus difficiles, en raison des nombreuses nouvelles variables, de l’information géographique plus détaillée et de la nature volontaire de l’ENM. Le présent article décrit la méthodologie des FMGD de 2011 et la façon dont elle établit un équilibre entre le besoin de disposer de plus d’information et la nécessité que le risque de divulgation soit faible.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014288
    Description :

    Les enquêtes probabilistes, c’est-à-dire celles réalisées à partir d’échantillons sélectionnés selon un mécanisme aléatoire connu, sont considérées par plusieurs comme étant la norme par excellence comparativement aux enquêtes réalisées à partir d’échantillons non probabilistes. La théorie de l’échantillonnage probabiliste a vu le jour au début des années 1930 et sert encore aujourd’hui à prouver le bien-fondé d’estimer les valeurs d’une quelconque population à partir des données de ces enquêtes. Les études sur les échantillons non probabilistes, quant à elles, ont retenu davantage l’attention ces dernières années, mais elles ne sont pas nouvelles. Vantées comme étant moins coûteuses, plus rapides (voire meilleures) que les études avec plan probabiliste, ces enquêtes s’appuient, pour recruter les participants, sur diverses méthodes « de terrain » (p. ex., enquête en ligne à participation volontaire). Mais, quel type d’enquêtes est le meilleur? Le présent article est le premier d’une série portant sur la recherche d’un cadre de la qualité permettant de mesurer toutes les enquêtes, probabilistes ou non, en les plaçant davantage sur un pied d’égalité. D’abord, nous donnons un aperçu de quelques cadres utilisés à l’heure actuelle, en notant que le terme « meilleur » se rapporte presque toujours à la notion « d’adaptation de l’enquête à son but poursuivi » (fit for purpose). Ensuite, nous nous concentrons sur la question de la validité, surtout la validité externe, lorsque des estimations pour la population sont souhaitées. Nous passons en revue les techniques d’estimation appliquées jusqu’à présent aux enquêtes non probabilistes, ainsi que quelques études comparant ces estimations à celles obtenues avec un échantillon probabiliste. Enfin, nous décrivons les prochaines étapes de recherche et concluons par quelques remarques.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201300211870
    Description :

    Les instituts nationaux de statistique intègrent fréquemment des expériences dans les enquêtes par sondage courantes, par exemple pour déterminer si des modifications du processus d'enquête ont un effet sur les estimations des principaux paramètres de cette dernière, pour quantifier l'effet de diverses mises en oeuvre de l'enquête sur ces estimations, ou pour mieux comprendre les diverses sources d'erreur non due à l'échantillonnage. Le présent article propose une procédure d'analyse fondée sur le plan de sondage pour des plans factoriels complètement randomisés et des plans factoriels en blocs randomisés intégrés dans des échantillons probabilistes. Une statistique de Wald fondée sur le plan de sondage est élaborée pour vérifier si les paramètres de population, comme les moyennes, les totaux et les ratios de deux totaux de population, estimés sous les différentes combinaisons de traitements de l'expérience diffèrent de manière significative. Les méthodes sont illustrées au moyen d'une application réelle d'une expérience intégrée dans l'Enquête sur la population active des Pays-Bas.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211887
    Description :

    Les modèles multiniveaux sont d'usage très répandu pour analyser les données d'enquête en faisant concorder la hiérarchie du plan de sondage avec la hiérarchie du modèle. Nous proposons une approche unifiée, basée sur une log-vraisemblance composite pondérée par les poids de sondage pour des modèles à deux niveaux, qui mène à des estimateurs des paramètres du modèle convergents sous le plan et sous le modèle, même si les tailles d'échantillon dans les grappes sont petites, à condition que le nombre de grappes échantillonnées soit grand. Cette méthode permet de traiter les modèles à deux niveaux linéaires ainsi que linéaires généralisés et requiert les probabilités d'inclusion de niveau 2 et de niveau 1, ainsi que les probabilités d'inclusion conjointe de niveau 1, où le niveau 2 représente une grappe et le niveau 1, un élément dans une grappe. Nous présentons aussi les résultats d'une étude en simulation qui donnent la preuve que la méthode proposée est supérieure aux méthodes existantes sous échantillonnage informatif.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201200211757
    Description :

    Les colinéarités entre les variables explicatives des modèles de régression linéaire affectent les estimations fondées sur des données d'enquête autant que celles fondées sur des données ne provenant pas d'enquêtes. Les effets indésirables sont des erreurs-types inutilement grandes, des statistiques t faussement faibles ou élevées et des estimations des paramètres de signe illogique. Les diagnostics de colinéarité disponibles ne conviennent généralement pas pour les données d'enquête, parce que les estimateurs de variance qui y sont intégrés ne tiennent pas compte correctement de la stratification, des grappes et des poids de sondage. Dans le présent article, nous élaborons des indices de conditionnement et des décompositions de variance pour diagnostiquer les problèmes de colinéarité dans des données provenant d'enquêtes complexes. Les diagnostics adaptés sont illustrés au moyen de données provenant d'une enquête sur les caractéristiques de l'état de santé.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200111685
    Description :

    Les données d'enquêtes servent souvent à ajuster des modèles de régression linéaire. Les valeurs des covariables utilisées dans la modélisation n'étant toutefois pas contrôlées comme elles pourraient l'être dans une expérience, la colinéarité entre les covariables est un problème inévitable dans l'analyse des données d'enquêtes. Même si de nombreux livres et articles ont décrit le problème de la colinéarité et proposé des stratégies en vue de comprendre, d'évaluer et de traiter sa présence, la littérature sur les méthodes d'enquête n'a livré aucun outil diagnostique approprié pour évaluer son incidence sur l'estimation par la régression quand il est tenu compte de la complexité de l'enquête. Nous avons élaboré des facteurs d'inflation de la variance qui mesurent l'augmentation (« l'inflation ») de la variance des estimateurs des paramètres attribuable au fait que les variables explicatives ne sont pas orthogonales. Les facteurs d'inflation de la variance conviennent pour les estimateurs par la régression pondérée par les poids de sondage et tiennent compte des caractéristiques du plan de sondage complexe, par exemple, les pondérations, les grappes et les strates. Ces méthodes sont illustrées en utilisant un échantillon probabiliste provenant d'une enquête-ménage sur la santé et la nutrition.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201000111251
    Description :

    Les méthodes de calage, telles que la poststratification, s'appuient sur de l'information auxiliaire pour accroître l'efficacité des estimations par sondage. L'hypothèse est que les totaux de contrôle, en fonction desquels les poids de sondage sont poststratifiés (ou calés), sont les valeurs de population. Toutefois, les totaux de contrôle sont souvent estimés d'après d'autres enquêtes. De nombreux chercheurs appliquent les estimateurs classiques d'estimation de la variance par poststratification à des situations où les totaux de contrôle sont estimés, supposant donc que toute variance d'échantillonnage supplémentaire associée à ces totaux estimés est négligeable. Le but de l'étude présentée ici est d'évaluer des estimateurs de la variance pour des plans de sondage stratifiés à plusieurs degrés, sous une poststratification en fonction de totaux de contrôle estimés (CE) en utilisant des valeurs de contrôle sans biais par rapport au plan. Nous comparons les propriétés théoriques et empiriques des estimateurs de variance par linéarisation et par le jackknife pour un estimateur poststratifié d'un total de population. Nous donnons des exemples des effets qu'ont sur les variances divers niveaux de précision des totaux de contrôle estimés. Notre étude donne à penser que i) les estimateurs de variance classiques peuvent sous-estimer considérablement la variance théorique et que ii) deux estimateurs de variance par poststratification CE peuvent atténuer le biais négatif.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200900211040
    Description :

    L'article décrit un modèle de séries chronologiques structurel multivarié qui tient compte du plan de sondage avec renouvellement de panel de l'Enquête sur la population active des Pays-Bas et qui est appliqué pour estimer les taux mensuels de chômage. Comparativement à l'estimateur par la régression généralisée, cette approche accroît considérablement la précision des estimations, grâce à la réduction de l'erreur-type et à la modélisation explicite du biais entre les vagues subséquentes de l'enquête.

    Date de diffusion : 2009-12-23

  • Produits techniques : 11-522-X200800010985
    Description :

    Au Canada, les entreprises complexes représentent moins de 1 % du nombre total d'entreprises, mais comptent pour plus de 45 % du revenu total. Conscient de la grande importance des données recueillies auprès de ces entreprises, Statistique Canada a adopté plusieurs initiatives afin d'en améliorer la qualité. L'une d'entre elles consiste à évaluer la cohérence des données recueillies auprès des grandes entreprises complexes. Les résultats de ces récentes analyses de la cohérence ont joué un rôle capital dans le repérage des points à améliorer. Une fois réalisées, ces améliorations auraient pour effet d'accroître la qualité des données recueillies auprès des grandes entreprises complexes tout en réduisant le fardeau de réponse qui leur est imposé.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 12-001-X200900110881
    Description :

    Les diagnostics de régression ont pour objectif de détecter des points individuels ou des groupes de points qui exercent une influence importante sur un modèle ajusté. Lorsqu'on ajuste un modèle à l'aide de données d'enquête, les sources d'influence sont la variable réponse Y, les variables explicatives X et les poids de sondage W. Le présent article traite de l'utilisation de la matrice chapeau et des effets de levier pour déceler les points qui pourraient être influents dans l'ajustement des modèles linéaires parce que les valeurs des variables explicatives ou des poids sont grandes. Nous comparons aussi les résultats qu'un analyste pourrait obtenir s'il utilisait les moindres carrés ordinaires plutôt que les moindres carrés pondérés par les poids de sondage pour déterminer quels points sont influents.

    Date de diffusion : 2009-06-22

  • Produits techniques : 11-522-X200600110453
    Description :

    Les enquêtes nationales sur l'alimentation et la nutrition fournissent des renseignements essentiels pour comprendre la relation complexe qui existe entre la santé et l'alimentation au sein de la population. Bon nombre de ces enquêtes ont recours à la méthodologie du rappel alimentaire de 24 heures qui permet de connaître de façon détaillée tous les aliments et boissons consommés au cours d'une journée. Ce sont souvent les apports d'aliments et d'éléments nutritifs à long terme qui revêtent un intérêt, et il existe plusieurs techniques permettant d'estimer les apports habituels de la population. Ces techniques exigent qu'au moins un rappel alimentaire de 24 heures soit effectué auprès d'au moins un sous-ensemble de la population afin de pouvoir estimer la variabilité des apports chez une même personne. La détermination du nombre de personnes nécessaires pour constituer un rappel est une étape importante du plan d'enquête, dans la mesure où il faut reconnaître qu'un nombre trop faible de personnes participant au rappel peut compromettre la capacité à évaluer l'apport habituel, mais qu'un nombre élevé de rappels est coûteux et représente un fardeau supplémentaire pour les répondants. Ce document de recherche se penche sur les questions statistiques liées au nombre de personnes participant au rappel en évaluant l'incidence du nombre de ces personnes sur la stabilité et l'incertitude de l'estimation de la variabilité chez une même personne et en donnant une indication de ce que ce nombre devrait être.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110390
    Description :

    Nous proposons un modèle linéaire généralisé avec composantes aléatoires additives (GLMARC pour generalized linear model with additive random components) de niveau agrégé applicable aux dénombrements binaires provenant d'enquêtes. Ce modèle comporte une partie linéaire (pour les effets aléatoires) et une partie non linéaire (pour les effets fixes) pour la modélisation de la fonction de moyenne et appartient donc à la classe des modèles mixtes linéaires et non linéaires (MLNL). Il permet d'adopter une approche de type modèle linéaire mixte (LMM) pour l'estimation sur petits domaines (EPD) semblable dans une certaine mesure à la méthode bien connue de Fay Herriot (1979) et tient donc compte du plan d'échantillonnage. Contrairement à l'approche bayésienne hiérarchique (BH) de You et Rao (2002), la méthode proposée donne lieu à des estimations sur petits domaines et des diagnostics fréquentistes faciles à interpréter, ainsi qu'à un auto étalonnage reposant sur des estimations directes fiables sur grands domaines. La méthodologie habituelle des LMM ne convient pas dans le cas de dénombrements, à cause de l'absence de contraintes d'intervalle pour la fonction de moyenne et de la possibilité d'obtenir des estimations non raisonnables (p. ex. 0 dans le contexte de l'EPD) des composantes de variance, car le modèle ne permet pas que la partie des effets aléatoires de la fonction de moyenne conditionnelle dépende de la moyenne marginale. La méthode proposée est une amélioration de la méthode élaborée antérieurement par Vonesh et Carter (1992) qui s'appuyait aussi sur des modèles mixtes linéaires et non linéaires, mais qui ne tenait pas compte de la relation entre la variance et la moyenne, quoique cela se fasse habituellement par des contraintes d'intervalle pour les effets aléatoires. En outre, les effets du plan de sondage et l'estimation des effets aléatoires n'étaient pas envisagés. En revanche, dans notre application à l'estimation sur petits domaines, il est important d'obtenir des estimations appropriées des effets fixes ainsi qu'aléatoires. Il convient de souligner que, contrairement au modèle linéaire mixte généralisé (GLMM), le modèle GLMARC se caractérise, comme les LMM, par une grande simplicité d'ajustement. Cette dernière est due au remplacement des effets fixes et aléatoires originaux du GLMM par un nouvel ensemble de paramètres du GLMARC dont l'interprétation est assez différente, car l'effet aléatoire n'est plus intégré dans la fonction prédictrice non linéaire. Toutefois, cela n'a aucune conséquence pour estimation sur petits domaines, parce que les paramètres de petit domaine correspondent aux moyennes conditionnelles globales et non aux paramètres individuels du modèle. Nous proposons pour l'estimation des paramètres une méthode s'appuyant sur l'application itérative du meilleur prédicteur linéaire sans biais (BLUP pour best linear unbiased predictor) qui permet l'auto étalonnage après un agrandissement approprié du modèle. Le problème des petits domaines pour lesquels la taille d'échantillon est faible, voire nulle, ou des estimations directes nulles est résolu en regroupant les domaines pour l'étape de l'estimation des paramètres uniquement. L'application du modèle à l'Enquête sur la santé dans les collectivités canadiennes de 2000 2001 en vue d'estimer la proportion de fumeurs quotidiens dans les sous populations définies par les régions sociosanitaires provinciales selon le groupe âge sexe est présentée à titre d'illustration.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110446
    Description :

    Les immigrants sont avantagés sur le plan de la santé comparativement aux canadiens de naissance, mais ces avantages sont menacés par des situations à risque particulières. L'étude vise à explorer les issues de santé cardiovasculaire des quartiers de Montréal classés selon la proportion d'immigrants dans la population, au moyen d'une analyse en composantes principales. Les trois premières composantes représentent l'immigration, le degré de désavantage socio-économique et le degré de désavantage économique. L'incidence d'infarctus du myocarde est plus faible dans les quartiers avec forte immigration comparativement aux quartiers où prédominent les canadiens de naissance. Les taux de mortalité sont associés au degré de désavantage socio-économique tandis que la revascularisation est associée à la proportion de personnes âgées dans la population.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110444
    Description :

    Les enquêtes générales sur la santé des populations comportent souvent de petits échantillons de fumeurs. Peu d'études longitudinales portant spécifiquement sur l'usage du tabac ont été réalisées. Nous discutons de l'élaboration de l'Enquête sur le tabagisme en Ontario (OTS pour Ontario Tobacco Survey) qui combine une composante longitudinale avec échantillons successifs et des composantes transversales répétées. Lancée en juillet 2005, l'OTS est une enquête par échantillonnage aléatoire et collecte téléphonique des données. Tous les six mois, de nouveaux échantillons de fumeurs et de non fumeurs fournissent des données sur leurs comportements et attitudes relatifs à l'usage du tabac. Les fumeurs participent à une étude par panel et font l'objet d'un suivi afin de déterminer l'évolution des influences et des comportements relatifs à l'usage du tabac. Le plan d'enquête permet de répondre de manière rentable aux exigences d'échantillonnage associées à des objectifs d'étude multiples.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110394
    Description :

    Statistique Canada a mené en 2004 l'Enquête sur la santé dans les collectivités canadiennes sur la nutrition. L'objectif principal de l'enquête était d'estimer les distributions d'apports alimentaires habituels des Canadiens au niveau provincial pour 15 groupes d'âge et de sexe. En général, on estime de telles distributions à l'aide du logiciel SIDE, mais obtenir ces estimations en tenant compte des choix qui ont été faits en termes de plan d'échantillonnage et de méthode d'estimation de la variabilité d'échantillonnage n'est pas chose facile. Cet article traite des défis méthodologiques reliés à l'estimation de distributions d'apports habituels à l'aide de SIDE avec les données de l'enquête.

    Date de diffusion : 2008-03-17

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (34)

Analyses (34) (25 of 34 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114820
    Description :

    Les erreurs de mesure peuvent provoquer un biais de l’estimation des transitions, donnant lieu à des conclusions erronées au sujet de la dynamique du marché du travail. La littérature traditionnelle sur l’estimation des mouvements bruts est basée sur la supposition que les erreurs de mesure ne sont pas corrélées au fil du temps. Cette supposition n’est pas réaliste dans bien des contextes, en raison du plan d’enquête et des stratégies de collecte de données. Dans le présent document, nous utilisons une approche basée sur un modèle pour corriger les mouvements bruts observés des erreurs de classification au moyen de modèles markoviens à classes latentes. Nous nous reportons aux données recueillies dans le cadre de l’enquête italienne continue sur la population active, qui est transversale et trimestrielle et qui comporte un plan de renouvellement de type 2-2-2. Le questionnaire nous permet d’utiliser plusieurs indicateurs des états de la population active pour chaque trimestre : deux recueillis au cours de la première interview, et un troisième recueilli un an plus tard. Notre approche fournit une méthode pour estimer la mobilité sur le marché du travail, en tenant compte des erreurs corrélées et du plan par renouvellement de l’enquête. Le modèle qui convient le mieux est un modèle markovien mixte à classes latentes, avec des covariables touchant les transitions latentes et des erreurs corrélées parmi les indicateurs; les composantes mixtes sont de type mobile-stable. Le caractère plus approprié de la spécification du modèle mixte est attribuable à des transitions latentes estimées avec une plus grande précision.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214236
    Description :

    Nous proposons une extension assistée par modèle des mesures de l’effet de plan dû à la pondération. Nous élaborons une statistique de niveau sommaire pour différentes variables d’intérêt, sous échantillonnage à un degré et ajustement des poids par calage. La mesure de l’effet de plan que nous proposons traduit les effets conjoints d’un plan d’échantillonnage avec probabilités de sélection inégales, des poids inégaux produits en utilisant des ajustements par calage et de la force de l’association entre la variable d’analyse et les variables auxiliaires utilisées pour le calage. Nous comparons la mesure proposée aux mesures existantes de l’effet de plan au moyen de simulations en utilisant des variables semblables à celles pour lesquelles des données sont recueillies dans les enquêtes auprès des établissements et dans les enquêtes téléphoniques auprès des ménages.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501114243
    Description :

    Un outil de surveillance a été élaboré afin d’évaluer les données sur l’apport alimentaire recueillies dans le cadre d’enquêtes en fonction de Bien manger avec le Guide alimentaire canadien (GAC). L’outil permet de classer les aliments du Fichier canadien sur les éléments nutritifs (FCÉN) en fonction de leur degré de conformité avec les recommandations du GAC. Le présent article décrit l’exercice de validation effectué pour s’assurer que les aliments du FCÉN considérés « conformes aux recommandations du GAC » aient été classés de façon appropriée.

    Date de diffusion : 2015-11-18

  • Articles et rapports : 12-001-X201500114162
    Description :

    La mise en œuvre des opérations du Recensement de la population et du logement du Portugal est gérée par une structure hiérarchique dans laquelle Statistique Portugal se situe au sommet et les institutions gouvernementales locales, à la base. Quand le recensement a lieu, tous les 10 ans, Statistique Portugal demande aux administrations locales de collaborer avec lui à l’exécution et à la surveillance des opérations sur le terrain au niveau local. À l’étape de l’essai pilote du Recensement de 2011, on a demandé aux administrations locales une collaboration supplémentaire, à savoir répondre à un sondage sur la perception du risque, qui avait pour objectif de recueillir des renseignements en vue de concevoir un instrument d’assurance de la qualité pour surveiller les opérations du recensement. Le taux de réponse espéré au sondage était de 100 %, mais à l’échéance de la collecte des données, près du quart des administrations locales n’avaient pas répondu et il a donc été décidé de procéder à un suivi par la poste. Dans le présent article, nous examinons si nous aurions pu tirer les mêmes conclusions sans le suivi qu’avec celui-ci, et nous évaluons son influence sur la conception de l’instrument d’assurance de la qualité. La comparaison des réponses pour un ensemble de variables de perception a révélé que les réponses des administrations locales avant ou après le suivi ne différaient pas. Cependant, la configuration de l’instrument d’assurance de la qualité a changé lorsque l’on a inclus les réponses au suivi.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Articles et rapports : 12-001-X201300211870
    Description :

    Les instituts nationaux de statistique intègrent fréquemment des expériences dans les enquêtes par sondage courantes, par exemple pour déterminer si des modifications du processus d'enquête ont un effet sur les estimations des principaux paramètres de cette dernière, pour quantifier l'effet de diverses mises en oeuvre de l'enquête sur ces estimations, ou pour mieux comprendre les diverses sources d'erreur non due à l'échantillonnage. Le présent article propose une procédure d'analyse fondée sur le plan de sondage pour des plans factoriels complètement randomisés et des plans factoriels en blocs randomisés intégrés dans des échantillons probabilistes. Une statistique de Wald fondée sur le plan de sondage est élaborée pour vérifier si les paramètres de population, comme les moyennes, les totaux et les ratios de deux totaux de population, estimés sous les différentes combinaisons de traitements de l'expérience diffèrent de manière significative. Les méthodes sont illustrées au moyen d'une application réelle d'une expérience intégrée dans l'Enquête sur la population active des Pays-Bas.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211887
    Description :

    Les modèles multiniveaux sont d'usage très répandu pour analyser les données d'enquête en faisant concorder la hiérarchie du plan de sondage avec la hiérarchie du modèle. Nous proposons une approche unifiée, basée sur une log-vraisemblance composite pondérée par les poids de sondage pour des modèles à deux niveaux, qui mène à des estimateurs des paramètres du modèle convergents sous le plan et sous le modèle, même si les tailles d'échantillon dans les grappes sont petites, à condition que le nombre de grappes échantillonnées soit grand. Cette méthode permet de traiter les modèles à deux niveaux linéaires ainsi que linéaires généralisés et requiert les probabilités d'inclusion de niveau 2 et de niveau 1, ainsi que les probabilités d'inclusion conjointe de niveau 1, où le niveau 2 représente une grappe et le niveau 1, un élément dans une grappe. Nous présentons aussi les résultats d'une étude en simulation qui donnent la preuve que la méthode proposée est supérieure aux méthodes existantes sous échantillonnage informatif.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201200211757
    Description :

    Les colinéarités entre les variables explicatives des modèles de régression linéaire affectent les estimations fondées sur des données d'enquête autant que celles fondées sur des données ne provenant pas d'enquêtes. Les effets indésirables sont des erreurs-types inutilement grandes, des statistiques t faussement faibles ou élevées et des estimations des paramètres de signe illogique. Les diagnostics de colinéarité disponibles ne conviennent généralement pas pour les données d'enquête, parce que les estimateurs de variance qui y sont intégrés ne tiennent pas compte correctement de la stratification, des grappes et des poids de sondage. Dans le présent article, nous élaborons des indices de conditionnement et des décompositions de variance pour diagnostiquer les problèmes de colinéarité dans des données provenant d'enquêtes complexes. Les diagnostics adaptés sont illustrés au moyen de données provenant d'une enquête sur les caractéristiques de l'état de santé.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200111685
    Description :

    Les données d'enquêtes servent souvent à ajuster des modèles de régression linéaire. Les valeurs des covariables utilisées dans la modélisation n'étant toutefois pas contrôlées comme elles pourraient l'être dans une expérience, la colinéarité entre les covariables est un problème inévitable dans l'analyse des données d'enquêtes. Même si de nombreux livres et articles ont décrit le problème de la colinéarité et proposé des stratégies en vue de comprendre, d'évaluer et de traiter sa présence, la littérature sur les méthodes d'enquête n'a livré aucun outil diagnostique approprié pour évaluer son incidence sur l'estimation par la régression quand il est tenu compte de la complexité de l'enquête. Nous avons élaboré des facteurs d'inflation de la variance qui mesurent l'augmentation (« l'inflation ») de la variance des estimateurs des paramètres attribuable au fait que les variables explicatives ne sont pas orthogonales. Les facteurs d'inflation de la variance conviennent pour les estimateurs par la régression pondérée par les poids de sondage et tiennent compte des caractéristiques du plan de sondage complexe, par exemple, les pondérations, les grappes et les strates. Ces méthodes sont illustrées en utilisant un échantillon probabiliste provenant d'une enquête-ménage sur la santé et la nutrition.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201000111251
    Description :

    Les méthodes de calage, telles que la poststratification, s'appuient sur de l'information auxiliaire pour accroître l'efficacité des estimations par sondage. L'hypothèse est que les totaux de contrôle, en fonction desquels les poids de sondage sont poststratifiés (ou calés), sont les valeurs de population. Toutefois, les totaux de contrôle sont souvent estimés d'après d'autres enquêtes. De nombreux chercheurs appliquent les estimateurs classiques d'estimation de la variance par poststratification à des situations où les totaux de contrôle sont estimés, supposant donc que toute variance d'échantillonnage supplémentaire associée à ces totaux estimés est négligeable. Le but de l'étude présentée ici est d'évaluer des estimateurs de la variance pour des plans de sondage stratifiés à plusieurs degrés, sous une poststratification en fonction de totaux de contrôle estimés (CE) en utilisant des valeurs de contrôle sans biais par rapport au plan. Nous comparons les propriétés théoriques et empiriques des estimateurs de variance par linéarisation et par le jackknife pour un estimateur poststratifié d'un total de population. Nous donnons des exemples des effets qu'ont sur les variances divers niveaux de précision des totaux de contrôle estimés. Notre étude donne à penser que i) les estimateurs de variance classiques peuvent sous-estimer considérablement la variance théorique et que ii) deux estimateurs de variance par poststratification CE peuvent atténuer le biais négatif.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200900211040
    Description :

    L'article décrit un modèle de séries chronologiques structurel multivarié qui tient compte du plan de sondage avec renouvellement de panel de l'Enquête sur la population active des Pays-Bas et qui est appliqué pour estimer les taux mensuels de chômage. Comparativement à l'estimateur par la régression généralisée, cette approche accroît considérablement la précision des estimations, grâce à la réduction de l'erreur-type et à la modélisation explicite du biais entre les vagues subséquentes de l'enquête.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200900110881
    Description :

    Les diagnostics de régression ont pour objectif de détecter des points individuels ou des groupes de points qui exercent une influence importante sur un modèle ajusté. Lorsqu'on ajuste un modèle à l'aide de données d'enquête, les sources d'influence sont la variable réponse Y, les variables explicatives X et les poids de sondage W. Le présent article traite de l'utilisation de la matrice chapeau et des effets de levier pour déceler les points qui pourraient être influents dans l'ajustement des modèles linéaires parce que les valeurs des variables explicatives ou des poids sont grandes. Nous comparons aussi les résultats qu'un analyste pourrait obtenir s'il utilisait les moindres carrés ordinaires plutôt que les moindres carrés pondérés par les poids de sondage pour déterminer quels points sont influents.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200700210491
    Description :

    La poststratification est une méthode courante d'estimation dans le cas des enquêtes ménages. Les cellules sont créées d'après les caractéristiques qui sont connues pour tous les répondants de l'échantillon et pour lesquelles il existe des dénombrements de contrôle externes provenant d'un recensement ou d'une autre source. Les inverses des corrections par poststratification sont habituellement appelés ratios de couverture. La couverture de certains groupes démographiques peut être sensiblement inférieure à 100 % et la poststratification est destinée à corriger les biais résultant d'une couverture insatisfaisante. Une méthode standard de poststratification consiste à regrouper ou à combiner certaines cellules lorsque les tailles d'échantillon sont inférieures à un minimum donné ou que les corrections des poids sont supérieures à un maximum donné. Le regroupement peut accroître ou réduire la variance d'une estimation, mais pourrait simultanément augmenter son biais. Nous étudions les effets, sur le biais et la variance, de ce type de regroupement dynamique des cellules du point de vue théorique et par simulation en utilisant une population basée sur la National Health Interview Survey de 2003. Nous proposons deux estimateurs possibles qui réduisent l'importance des corrections des poids lorsque les cellules sont regroupées.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 12-001-X20060029550
    Description :

    L'article donne une comparaison des approches de la stratification par une méthode géométrique, par optimisation et par la méthode de Lavallée et Hidiroglou (LH). L'approche géométrique de stratification est une approximation, tandis que les deux autres, qui s'appuient sur des méthodes numériques, peuvent être considérées comme des méthodes de stratification optimales. L'algorithme de la stratification géométrique est très simple comparativement à ceux des deux autres approches, mais il ne prend pas en compte la construction d'une strate à tirage complet, qui est habituellement produite lorsque l'on stratifie une population positivement asymétrique. Dans le cas de la stratification par optimisation, on peut prendre en considération toute forme de la fonction d'optimisation et de ses contraintes. Une étude numérique comparative portant sur cinq populations artificielles positivement asymétriques a indiqué que, dans chaque cas étudié, l'approche par optimisation était plus efficace que la stratification géométrique. En outre, nous avons comparé les approches géométrique et par optimisation à l'algorithme LH. Cette comparaison a révélé que la méthode géométrique de stratification était moins efficace que l'algorithme LH, tandis que l'approche par optimisation était aussi efficace que cet algorithme. Néanmoins, les limites de strate déterminées par la stratification géométrique peuvent être considérées comme de bons points de départ pour l'approche par optimisation.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20050029046
    Description :

    La pondération pour la non réponse est une méthode courante de traitement de la non-réponse totale dans les sondages. Elle vise à réduire le biais dû à la non-réponse, mais produit souvent un accroissement de la variance. Par conséquent, son efficacité est souvent considérée comme un compromis entre le biais et la variance. Cette vision est cependant simpliste, car la pondération pour la non réponse peut, en fait, réduire le biais ainsi que la variance. Pour réduire le biais de non réponse, une covariable de repondération doit avoir deux caractéristiques : elle doit être corrélée à la probabilité de réponse, d'une part, et à la variable d'intérêt, d'autre part. Si cette deuxième caractéristique existe, la repondération peut réduire plutôt qu'augmenter la variance d'échantillonnage. Nous présentons une analyse détaillée du biais et de la variance dans le cas d'une pondération pour l'estimation d'une moyenne de sondage au moyen de cellules d'ajustement. L'analyse donne à penser que la caractéristique la plus importante des variables à inclure dans la repondération est qu'elles soient prédictives des variables d'intérêt; la prédiction de la propension à répondre est un objectif secondaire, quoiqu'utile. Nous proposons des estimations empiriques de la racine carrée de l'erreur quadratique moyenne pour déterminer dans quelles circonstances la repondération est efficace et nous les évaluons au moyen d'une étude en simulation. Un estimateur composite simple fondé sur la racine de l'erreur quadratique moyenne empirique donne de meilleurs résultats que l'estimateur pondéré dans les simulations.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029044
    Description :

    Les méthodes d'estimation de la variance des estimations par sondage applicables à des données complètes sont biaisées lorsque certaines données sont imputées. Nous recourons à la simulation pour comparer l'efficacité de la méthode assistée par modèle, de la méthode du jackknife ajusté et de la méthode d'imputation multiple pour estimer la variance d'un total quand les réponses à certaines questions ont été imputées par la méthode hot deck. La simulation vise à étudier les propriétés des estimations de la variance des estimations imputées de totaux pour la population dans son ensemble et pour certains domaines provenant d'un plan d'échantillonnage stratifié non proportionnel à un degré quand les hypothèses sous jacentes, comme l'absence de biais dans l'estimation ponctuelle et l'hypothèse des réponses manquantes au hasard dans les cellules hot deck, ne sont pas vérifiées. Les estimateurs de la variance des estimations pour l'ensemble de la population produisent des intervalles de confiance dont le taux de couverture s'approche du taux nominal, même en cas d'écarts modestes par rapport aux hypothèses, mais il n'en est pas ainsi des estimations par domaine. La couverture est surtout sensible au biais dans les estimations ponctuelles. Comme le démontre la simulation, même si une méthode d'imputation donne des estimations presque sans biais pour la population dans son ensemble, les estimations par domaine peuvent être fort biaisées.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050018084
    Description :

    Les instituts nationaux de statistique intègrent parfois des expériences dans les enquêtes par sondage courantes afin d'étudier les effets éventuels de diverses techniques d'enquête sur les estimations des paramètres d'une population finie. En vue de tester les hypothèses au sujet des différences entre les estimations par sondage obtenues on applique diverses variantes de l'enquête, nous élaborons une théorie fondée sur le plan de sondage pour analyser des plans en randomisation totale ou des plans en blocs randomisés intégrés dans des plans de sondage complexes généraux. Pour ces deux types de plans d'expérience, nous établissons une statistique de Wald fondée sur le plan de sondage pour l'estimateur d'Horvitz-Thompson et pour l'estimateur par la régression généralisée. Enfin, nous illustrons la théorie au moyen d'une étude en simulation.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018085
    Description :

    Le couplage d'enregistrements est un processus qui consiste à apparier des enregistrements provenant de deux fichiers en essayant de sélectionner les paires dont les deux enregistrements appartiennent à une même entité. La démarche fondamentale consiste à utiliser un poids d'appariement pour mesurer la probabilité qu'un appariement soit correct et une règle de décision pour décider si une paire d'enregistrements constitue un « vrai » ou un « faux » appariement. Les seuils de poids utilisés pour déterminer si une paire d'enregistrements représente un appariement ou un non appariement dépend du niveau de contrôle souhaité sur les erreurs de couplage. Les méthodes appliquées à l'heure actuelle pour déterminer les seuils de sélection et estimer les erreurs de couplage peuvent donner des résultats divergents, selon le type d'erreur de couplage et la méthode de couplage. L'article décrit une étude de cas reposant sur les méthodes existantes de couplage pour former les paires d'enregistrements, mais sur une nouvelle approche de simulation (SimRate) pour déterminer les seuils de sélection et estimer les erreurs de couplage. SimRate s'appuie sur la distribution observée des données dans les paires appariées et non appariées afin de générer un grand ensemble simulé de paires d'enregistrements, d'attribuer un poids d'appariement à chacune de ces paires d'après les règles d'appariement spécifiées et d'utiliser les courbes de distribution des poids des paires simulées pour estimer l'erreur.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20030016605
    Description :

    Dans ce document, on examine l'effet du choix d'un modèle sur différents types d'estimateurs des totaux des domaines (y compris les petits domaines ou les petites régions), pour une population finie échantillonnée. On compare différents types d'estimateurs pour un même énoncé de modèle sous-jacent. À notre avis, le type d'estimateur (synthétique, de régression généralisée [GREG], composite, du meilleur prédicteur linéaire sans biais empirique, hiérarchique de Bayes, etc.) constitue un aspect important de l'estimation des domaines. Quant au choix d'un modèle, y compris ses paramètres et ses effets, il constitue un deuxième aspect, différent du premier sur le plan conceptuel. Les travaux antérieurs n'ont pas toujours établi cette distinction. Pour un type d'estimateur donné, on peut calculer différents estimateurs, selon le choix du modèle. Un certain nombre de types d'estimateurs ont été proposés dans les articles récents, mais les auteurs qui les comparent de façon impartiale sont relativement peu nombreux. Dans ce document, on aborde trois types d'estimateurs : synthétique, de régression généralisée (GREG) et, dans une moindre mesure, composite. On montre que l'amélioration du modèle (transition d'un modèle faible à un modèle fort) a des effets très différents sur les divers types d'estimateurs. On indique aussi que la différence d'exactitude entre les divers types d'estimateurs dépend du choix du modèle. Pour un modèle bien défini, la différence d'exactitude entre l'estimateur synthétique et l'estimateur de régression généralisée (GREG) est négligeable, mais elle peut être substantielle si le modèle est mal défini. L'estimateur synthétique a alors tendance à être très inexact. L'étude est fondée en partie sur des résultats théoriques (pour l'échantillonnage aléatoire simple seulement) et en partie sur des résultats empiriques. Les résultats empiriques sont ceux de simulations effectuées avec des échantillons répétés tirés de deux populations finies, l'une construite artificiellement et l'autre, construite à partir de données réelles tirées de l'Enquête sur la population active finlandaise.

    Date de diffusion : 2003-07-31

  • Articles et rapports : 12-001-X20020016424
    Description :

    Dans la documentation traitant de l'échantillonnage, on trouve diverses propositions de la variance de l'estimateur de régression généralisée d'une moyenne, dont le principal but est d'estimer la variance due au plan de sondage. Dans certaines conditions, il est facile de concevoir des estimateurs de la variance qui sont approximativement non biaisés quant au plan de sondage et au modèle. On étudie dans cet article plusieurs estimateurs bivalents dans le cas de l'échantillonnage à un seul degré. Il s'agit d'estimateurs robustes de la variance due au modèle, même si le modèle qui agit sur la régression généralisée comprend un paramètre de variance incorrect.

    Une des caractéristiques principales des estimateurs robustes est le rajustement des carrés des résidus au moyen de facteurs analogues aux effets leviers utilisés en analyse de régression classique. On montre aussi que l'estimateur jackknife avec suppression d'une unité inclut les ajustements pour tenir compte des effets de leviers et constitue un bon choix, tant du point de vue de la variance due au plan de sondage que de celle due au modèle. Dans un ensemble de simulations, ces estimateurs de la variance sont caractérisés par un biais faible et produisent des intervalles de confiance dont le taux de couverture est quasi nominal pour plusieurs méthodes d'échantillonnage, tailles d'échantillon et populations en ce qui touche l'échantillonnage à un seul degré.

    On présente aussi les résultats de simulations pour une population à distribution asymétrique où tous les estimateurs de la variance donnent de mauvais résultats. Les échantillons qui ne représentent pas adéquatement les unités de grande valeur produisent des estimations de la moyenne trop faibles, des estimations de la variance trop faibles et des intervalles de confiance dont la couverture est nettement inférieure au taux nominal. Ces faiblesses peuvent être évitées à l'étape de l'élaboration du plan de sondage grâce à la sélection d'échantillons qui couvrent bien les unités extrêmes. Cependant, cette approche ne fonctionnera pas pour les populations dont les renseignements liés au plan de sondage sont insuffisants.

    Date de diffusion : 2002-07-05

Références (22)

Références (22) (22 of 22 results)

  • Produits techniques : 11-522-X201300014285
    Description :

    L’Enquête nationale auprès des ménages (ENM) de 2011 est une enquête à participation volontaire qui a remplacé le questionnaire complet obligatoire traditionnel du recensement de la population du Canada. L’ENM a été réalisée auprès d’un échantillon d’environ 30 % des ménages canadiens et a donné un taux de réponse pondéré selon le plan de sondage de 77 %. Comparativement, le dernier questionnaire complet du recensement a été envoyé à 20 % des ménages et a produit un taux de réponse de 94 %. Au moyen des données du questionnaire complet, Statistique Canada produit habituellement deux fichiers de microdonnées à grande diffusion (FMGD) : le FMGD des particuliers et le FMGD hiérarchique. Ces fichiers donnent tous deux des renseignements sur les particuliers, mais le FMGD hiérarchique fournit aussi des renseignements sur les liens entre les particuliers d’un même ménage ou d’une même famille. Afin de produire, en se basant sur les données de l’ENM, deux FMGD qui couvrent uniformément l’ensemble du pays et qui ne se chevauchent pas, nous avons appliqué une stratégie spéciale de sous-échantillonnage. Les analyses de confidentialité sont devenues plus difficiles, en raison des nombreuses nouvelles variables, de l’information géographique plus détaillée et de la nature volontaire de l’ENM. Le présent article décrit la méthodologie des FMGD de 2011 et la façon dont elle établit un équilibre entre le besoin de disposer de plus d’information et la nécessité que le risque de divulgation soit faible.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014288
    Description :

    Les enquêtes probabilistes, c’est-à-dire celles réalisées à partir d’échantillons sélectionnés selon un mécanisme aléatoire connu, sont considérées par plusieurs comme étant la norme par excellence comparativement aux enquêtes réalisées à partir d’échantillons non probabilistes. La théorie de l’échantillonnage probabiliste a vu le jour au début des années 1930 et sert encore aujourd’hui à prouver le bien-fondé d’estimer les valeurs d’une quelconque population à partir des données de ces enquêtes. Les études sur les échantillons non probabilistes, quant à elles, ont retenu davantage l’attention ces dernières années, mais elles ne sont pas nouvelles. Vantées comme étant moins coûteuses, plus rapides (voire meilleures) que les études avec plan probabiliste, ces enquêtes s’appuient, pour recruter les participants, sur diverses méthodes « de terrain » (p. ex., enquête en ligne à participation volontaire). Mais, quel type d’enquêtes est le meilleur? Le présent article est le premier d’une série portant sur la recherche d’un cadre de la qualité permettant de mesurer toutes les enquêtes, probabilistes ou non, en les plaçant davantage sur un pied d’égalité. D’abord, nous donnons un aperçu de quelques cadres utilisés à l’heure actuelle, en notant que le terme « meilleur » se rapporte presque toujours à la notion « d’adaptation de l’enquête à son but poursuivi » (fit for purpose). Ensuite, nous nous concentrons sur la question de la validité, surtout la validité externe, lorsque des estimations pour la population sont souhaitées. Nous passons en revue les techniques d’estimation appliquées jusqu’à présent aux enquêtes non probabilistes, ainsi que quelques études comparant ces estimations à celles obtenues avec un échantillon probabiliste. Enfin, nous décrivons les prochaines étapes de recherche et concluons par quelques remarques.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010985
    Description :

    Au Canada, les entreprises complexes représentent moins de 1 % du nombre total d'entreprises, mais comptent pour plus de 45 % du revenu total. Conscient de la grande importance des données recueillies auprès de ces entreprises, Statistique Canada a adopté plusieurs initiatives afin d'en améliorer la qualité. L'une d'entre elles consiste à évaluer la cohérence des données recueillies auprès des grandes entreprises complexes. Les résultats de ces récentes analyses de la cohérence ont joué un rôle capital dans le repérage des points à améliorer. Une fois réalisées, ces améliorations auraient pour effet d'accroître la qualité des données recueillies auprès des grandes entreprises complexes tout en réduisant le fardeau de réponse qui leur est imposé.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200600110453
    Description :

    Les enquêtes nationales sur l'alimentation et la nutrition fournissent des renseignements essentiels pour comprendre la relation complexe qui existe entre la santé et l'alimentation au sein de la population. Bon nombre de ces enquêtes ont recours à la méthodologie du rappel alimentaire de 24 heures qui permet de connaître de façon détaillée tous les aliments et boissons consommés au cours d'une journée. Ce sont souvent les apports d'aliments et d'éléments nutritifs à long terme qui revêtent un intérêt, et il existe plusieurs techniques permettant d'estimer les apports habituels de la population. Ces techniques exigent qu'au moins un rappel alimentaire de 24 heures soit effectué auprès d'au moins un sous-ensemble de la population afin de pouvoir estimer la variabilité des apports chez une même personne. La détermination du nombre de personnes nécessaires pour constituer un rappel est une étape importante du plan d'enquête, dans la mesure où il faut reconnaître qu'un nombre trop faible de personnes participant au rappel peut compromettre la capacité à évaluer l'apport habituel, mais qu'un nombre élevé de rappels est coûteux et représente un fardeau supplémentaire pour les répondants. Ce document de recherche se penche sur les questions statistiques liées au nombre de personnes participant au rappel en évaluant l'incidence du nombre de ces personnes sur la stabilité et l'incertitude de l'estimation de la variabilité chez une même personne et en donnant une indication de ce que ce nombre devrait être.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110390
    Description :

    Nous proposons un modèle linéaire généralisé avec composantes aléatoires additives (GLMARC pour generalized linear model with additive random components) de niveau agrégé applicable aux dénombrements binaires provenant d'enquêtes. Ce modèle comporte une partie linéaire (pour les effets aléatoires) et une partie non linéaire (pour les effets fixes) pour la modélisation de la fonction de moyenne et appartient donc à la classe des modèles mixtes linéaires et non linéaires (MLNL). Il permet d'adopter une approche de type modèle linéaire mixte (LMM) pour l'estimation sur petits domaines (EPD) semblable dans une certaine mesure à la méthode bien connue de Fay Herriot (1979) et tient donc compte du plan d'échantillonnage. Contrairement à l'approche bayésienne hiérarchique (BH) de You et Rao (2002), la méthode proposée donne lieu à des estimations sur petits domaines et des diagnostics fréquentistes faciles à interpréter, ainsi qu'à un auto étalonnage reposant sur des estimations directes fiables sur grands domaines. La méthodologie habituelle des LMM ne convient pas dans le cas de dénombrements, à cause de l'absence de contraintes d'intervalle pour la fonction de moyenne et de la possibilité d'obtenir des estimations non raisonnables (p. ex. 0 dans le contexte de l'EPD) des composantes de variance, car le modèle ne permet pas que la partie des effets aléatoires de la fonction de moyenne conditionnelle dépende de la moyenne marginale. La méthode proposée est une amélioration de la méthode élaborée antérieurement par Vonesh et Carter (1992) qui s'appuyait aussi sur des modèles mixtes linéaires et non linéaires, mais qui ne tenait pas compte de la relation entre la variance et la moyenne, quoique cela se fasse habituellement par des contraintes d'intervalle pour les effets aléatoires. En outre, les effets du plan de sondage et l'estimation des effets aléatoires n'étaient pas envisagés. En revanche, dans notre application à l'estimation sur petits domaines, il est important d'obtenir des estimations appropriées des effets fixes ainsi qu'aléatoires. Il convient de souligner que, contrairement au modèle linéaire mixte généralisé (GLMM), le modèle GLMARC se caractérise, comme les LMM, par une grande simplicité d'ajustement. Cette dernière est due au remplacement des effets fixes et aléatoires originaux du GLMM par un nouvel ensemble de paramètres du GLMARC dont l'interprétation est assez différente, car l'effet aléatoire n'est plus intégré dans la fonction prédictrice non linéaire. Toutefois, cela n'a aucune conséquence pour estimation sur petits domaines, parce que les paramètres de petit domaine correspondent aux moyennes conditionnelles globales et non aux paramètres individuels du modèle. Nous proposons pour l'estimation des paramètres une méthode s'appuyant sur l'application itérative du meilleur prédicteur linéaire sans biais (BLUP pour best linear unbiased predictor) qui permet l'auto étalonnage après un agrandissement approprié du modèle. Le problème des petits domaines pour lesquels la taille d'échantillon est faible, voire nulle, ou des estimations directes nulles est résolu en regroupant les domaines pour l'étape de l'estimation des paramètres uniquement. L'application du modèle à l'Enquête sur la santé dans les collectivités canadiennes de 2000 2001 en vue d'estimer la proportion de fumeurs quotidiens dans les sous populations définies par les régions sociosanitaires provinciales selon le groupe âge sexe est présentée à titre d'illustration.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110446
    Description :

    Les immigrants sont avantagés sur le plan de la santé comparativement aux canadiens de naissance, mais ces avantages sont menacés par des situations à risque particulières. L'étude vise à explorer les issues de santé cardiovasculaire des quartiers de Montréal classés selon la proportion d'immigrants dans la population, au moyen d'une analyse en composantes principales. Les trois premières composantes représentent l'immigration, le degré de désavantage socio-économique et le degré de désavantage économique. L'incidence d'infarctus du myocarde est plus faible dans les quartiers avec forte immigration comparativement aux quartiers où prédominent les canadiens de naissance. Les taux de mortalité sont associés au degré de désavantage socio-économique tandis que la revascularisation est associée à la proportion de personnes âgées dans la population.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110444
    Description :

    Les enquêtes générales sur la santé des populations comportent souvent de petits échantillons de fumeurs. Peu d'études longitudinales portant spécifiquement sur l'usage du tabac ont été réalisées. Nous discutons de l'élaboration de l'Enquête sur le tabagisme en Ontario (OTS pour Ontario Tobacco Survey) qui combine une composante longitudinale avec échantillons successifs et des composantes transversales répétées. Lancée en juillet 2005, l'OTS est une enquête par échantillonnage aléatoire et collecte téléphonique des données. Tous les six mois, de nouveaux échantillons de fumeurs et de non fumeurs fournissent des données sur leurs comportements et attitudes relatifs à l'usage du tabac. Les fumeurs participent à une étude par panel et font l'objet d'un suivi afin de déterminer l'évolution des influences et des comportements relatifs à l'usage du tabac. Le plan d'enquête permet de répondre de manière rentable aux exigences d'échantillonnage associées à des objectifs d'étude multiples.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110394
    Description :

    Statistique Canada a mené en 2004 l'Enquête sur la santé dans les collectivités canadiennes sur la nutrition. L'objectif principal de l'enquête était d'estimer les distributions d'apports alimentaires habituels des Canadiens au niveau provincial pour 15 groupes d'âge et de sexe. En général, on estime de telles distributions à l'aide du logiciel SIDE, mais obtenir ces estimations en tenant compte des choix qui ont été faits en termes de plan d'échantillonnage et de méthode d'estimation de la variabilité d'échantillonnage n'est pas chose facile. Cet article traite des défis méthodologiques reliés à l'estimation de distributions d'apports habituels à l'aide de SIDE avec les données de l'enquête.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110441
    Description :

    Comment estime t on efficacement la taille de l'échantillon tout en établissant un consensus entre de nombreux chercheurs pour des projets polyvalents? Nous présentons un modèle s'appuyant sur un tableur ordinaire pour produire des estimations de la puissance analytique, de la précision et des coûts financiers selon divers scénarios d'échantillonnage, tel qu'il a été utilisé lors de l'élaboration de l'Enquête sur le tabagisme en Ontario. En plus des estimations des coûts, des formules complexes de calcul de la taille d'échantillon ont été imbriquées dans un tableur pour déterminer la puissance et la précision des analyses, en tenant compte des effets de plan et des cas perdus de vue au suivi définis par l'utilisateur. Un tableur ordinaire peut être combiné à des formules complexes afin de faciliter l'échange de connaissances entre les méthodologistes et les intervenants, et en fait, de démystifier la "boîte noire de la taille d'échantillon".

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019457
    Description :

    La réduction du fardeau de réponse de la petite / moyenne entreprise a diminué grâce au projet de l'utilisation des données administratives. Nous continuons ce travail et élargissons nos horizons pour maximiser l'utilisation de ces données. De plus, en explorant la méthode « guichet unique de déclaration » "single window reporting", nous visons à réduire le fardeau de réponse de l'entreprise complexe, tout en s'assurant que la collecte se fasse de façon cohérente. Nous allons devoir surmonter de grands défis, et certains peut-être d'ordre méthodologique. Voyons ce que l'avenir nous réserve!

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019452
    Description :

    Le remaniement du Registre des entreprises des Pays Bas a été entrepris pour des raisons techniques. Les principaux changements dans le nouveau registre sont l'utilisation du nouveau Registre de base des entreprises des Pays Bas comme source pour les unités légales et locales, l'ajout d'unités administratives et un nouvel algorithme automatisé pour établir la base statistique d'après des sources administratives.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019459
    Description :

    Cet article porte sur l'utilisation de données administratives comme les données fiscales et les données sur la sécurité sociale pour la production de statistiques structurelles sur les entreprises. Le présent article traite également des statistiques que nous venons de développer sur les omnipraticiens.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019466
    Description :

    Une classe d'estimateurs basés sur la structure de dépendance entre une variable multidimensionnelle d'intérêt et le plan d'enquête est définie. Nous démontrons, à l'aide d'une simulation de Monte Carlo, comment l'emploi d'un estimateur correspondant à la structure de population est plus efficace que les autres.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20040018653
    Description :

    Ce document traite de l'élaboration de l'approche adaptée, de l'essai préliminaire, du plan d'échantillonnage de l'Enquête sur la famille et la fécondité au Pays-Bas, de l'expérience intégrée et de ses résultats.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20030017712
    Description :

    Ce document porte sur l'estimation de variance en présence d'imputation ainsi qu'à son application à l'estimation d'indices de prix, à l'échantillonnage à plusieurs degrés et au recours au graphisme dans les publications.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017603
    Description :

    Dans ce document, on décrit la situation actuelle relativement à l'adhérence des méthodes de développement et de mise à l'essai de questionnaires pour les enquêtes auprès des entreprises. On y présente également un programme de recherche méthodologique et des stratégies pour améliorer l'adhérence de ces méthodes.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017702
    Description :

    Dans ce document, on présente une procédure pour tester les hypothèses concernant les différences entre les estimations d'échantillon observées sous diverses méthodes d'enquête.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016728
    Description :

    On recueille les données de presque toutes les enquêtes selon un plan d'échantillonnage complexe et on les utilise souvent pour effectuer des analyses statistiques allant plus loin que l'estimation de simples paramètres descriptifs de la population cible. Nombre de procédures offertes par les progiciels statistiques les plus utilisés ne conviennent pas pour cette tâche, car les analyses sont fondées sur l'hypothèse qu'on a procédé à un échantillonnage aléatoire simple. Par conséquent, les résultats ne sont pas valides en cas d'échantillonnage à plusieurs degrés, de stratification ou de mise en grappes. Deux méthodes utilisées couramment pour analyser les données d'enquêtes complexes sont les techniques de rééchantillonnage (répétitions) et de linéarisation de Taylor. Cet article traite de l'utilisation du logiciel WesVar pour calculer des estimations et pour produire des estimations répétées de la variance en reflétant correctement l'échantillonnage complexe et les méthodes d'estimation. On illustre aussi les caractéristiques de WesVar à l'aide de données provenant de deux enquêtes réalisées par Westat basées sur des plans d'échantillonnage complexes, à savoir la Third International Mathematics and Science Study (TIMSS) et la National Health and Nutrition Examination Survey (NHANES).

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20010016242
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Cet hommage à Leslie Kish constitue une évocation personnelle de sa contribution multiforme à l'évolution internationale de la statistique. La démarche de Kish - précise et efficace - comprend les caractéristiques suivantes : déterminer ce qui est important, formuler des questions pratiques et y répondre, cerner les tendances et les cadres de travail et, surtout, encourager les idées valables. Nous présentons les domaines dans lesquels sa contribution technique a eu la plus forte incidence sur le travail pratique d'enquête dans les pays en développement. La mise en valeur d'une collectivité mondiale de spécialistes voués à l'échantillonnage d'enquête constitue l'apport exceptionnel de Leslie.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X20010016234
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Dans le but d'obtenir un dénombrement complet du secteur agricole canadien, on a mené le recensement de l'agriculture de 2001 en utilisant plusieurs méthodes de collecte. La remise en question de la traditionnelle méthode de livraison et de retour postal des questionnaires imprimés, fondée sur un dénombrement des ménages, a mené à l'adoption d'autres méthodes utilisant de nouvelles technologies pour maintenir la qualité de la couverture et du contenu du recensement. Dans l'ensemble, cette combinaison de modes de collecte répond à divers besoins essentiels du programme de recensement. Ce document traite des différentes méthodes et de plusieurs évaluations qualitatives, de même que des défis à surmonter pour arriver à une vue concertée des différentes approches quant à la qualité des données.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X19990015654
    Description :

    On a recouru à la méta-analyse pour estimer la proportion de carcinogènes hépatiques, la proportion de substances chimiques carcinogènes à n'importe quel siège et la proportion correspondante d'anticarcinogènes parmi les produits chimiques évalués au cours de 397 essais biologiques de la cancérogénicité à long terme réalisés dans le cadre du programme national de toxicologie des États-Unis [U.S. National Toxicology program (NTP)]. Bien que l'estimateur utilisé soit biaisé négativement, l'étude fournit des preuves convaincantes que la proportion de carcinogènes hépatiques (0,43,IC90 % : 0,35,0,51) est plus forte que ne l'a déterminé le NTP (0,28). Selon l'étude, la proportion estimée de produits chimiques carcinogènes à n'importe quel siège est également plus forte (0,59,IC 90 % : 0,49, 0,69) que celle déterminée que par le NTP (0,51) mais l'écart n'est pas statistiquement significatif. On observe une proportion plus forte d'anticarcinogènes (0,66) que de carcinogènes (0,59). Malgré le biais négatif, on estime que 85 % des produits chimiques sont soit carcinogènes soit anticarcinogènes à certains sièges pour certains groupes sexe-espèce. Ces résultats donnent à penser qu'à une concentration suffisamment forte, la plupart des produits chimiques évalués modifient dans une certaine mesure le taux de tumeurs.

    Date de diffusion : 2000-03-02

  • Produits techniques : 11-522-X19990015650
    Description :

    La U.S. Manufacturing Plant Ownership Change Database (OCD) a été créée d'après des données sur les usines extraites de la Longitudinal Research Database (LRD) du Census Bureau. Elle contient des données sur toutes les usines de fabrication qui ont changé de propriétaire au moins une fois entre 1963 et 1992. L'auteur fait le point sur l'OCD et examine les possibilités de recherche. Pour utiliser empiriquement ces possibilités, il se sert de données extraites de la base de données pour étudier le lien entre les changements de propriété et les fermetures d'usines.

    Date de diffusion : 2000-03-02

Date de modification :