Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

81 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

81 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

81 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

81 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (160)

Tout (160) (25 of 160 results)

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114542
    Description :

    La méthode du maximum de vraisemblance restreint (méthode REML pour restricted maximum likelihood) est généralement utilisée pour estimer la variance de l’effet aléatoire de domaine sous le modèle de Fay-Herriot (Fay et Herriot 1979) afin d’obtenir le meilleur estimateur linéaire sans biais empirique (estimateur EBLUP pour empirical best linear unbiased predictor) d’une moyenne de petit domaine. Lorsque l’estimation REML correspond à zéro, le poids de l’estimateur d’échantillon direct est zéro et l’EBLUP devient un estimateur synthétique, ce qui est rarement souhaitable. Pour résoudre le problème, Li et Lahiri (2011) et Yoshimori et Lahiri (2014) ont élaboré des estimateurs de variance constante par la méthode du maximum de vraisemblance ajusté (méthode ADM pour adjusted maximum likelihood), qui produisent toujours des estimations de variance positives. Certains des estimateurs ADM produisent toujours des estimations positives, mais génèrent un biais élevé, ce qui influe sur l’estimation de l’erreur quadratique moyenne (EQM) de l’estimateur EBLUP. Nous proposons d’utiliser un estimateur de variance MIX, défini comme étant une combinaison des méthodes REML et ADM. Nous montrons que cet estimateur est sans biais jusqu’à l’ordre deux et qu’il produit toujours une estimation de variance positive. Nous proposons également un estimateur de l’EQM sous la méthode MIX et montrons au moyen d’une simulation fondée sur un modèle que, dans de nombreuses situations, cet estimateur donne de meilleurs résultats que d’autres estimateurs de l’EQM par « linéarisation de Taylor » récemment proposés.

    Date de diffusion : 2016-06-22

  • Produits techniques : 11-522-X201700014722
    Description :

    Le U.S. Census Bureau cherche des façons d’intégrer des données administratives dans les opérations des recensements décennaux et des enquêtes. Pour mener ces travaux, il est essentiel de comprendre la couverture de la population dans les dossiers administratifs. À partir de données administratives fédérales et de tiers couplées avec celles de l’American Community Survey (ACS), nous évaluons dans quelle mesure les dossiers administratifs fournissent des données sur les personnes nées à l’étranger dans l’ACS, et nous utilisons des techniques de régression logistique multinomiale pour évaluer les caractéristiques de celles qui figurent dans les dossiers administratifs par rapport à celles qui n’y figurent pas. Nous avons déterminé que, dans l’ensemble, les dossiers administratifs fournissent une bonne couverture des personnes nées à l’étranger dans notre échantillon pour lesquelles un appariement peut être déterminé. La probabilité de figurer dans les dossiers administratifs semble être liée aux processus d’assimilation des immigrants : la naturalisation, une meilleure connaissance de la langue anglaise, le niveau de scolarité, et un emploi à temps plein étant associés à une plus grande probabilité de figurer dans les dossiers administratifs. Ces résultats laissent supposer qu’au fur et à mesure que les immigrants s’adaptent à la société américaine et s’y intègrent, ils sont plus susceptibles de participer aux processus et aux programmes gouvernementaux et commerciaux pour lesquels nous incluons des données. Nous explorons ensuite la couverture des dossiers administratifs pour les deux groupes raciaux/ethniques les plus importants de notre échantillon, à savoir les personnes nées à l’étranger de race hispanique et de race asiatique unique non hispanique, en déterminant encore une fois que les caractéristiques liées à l’assimilation sont associées à une couverture des deux groupes dans les dossiers administratifs. Toutefois, nous observons que le contexte du quartier a des répercussions différentes sur les personnes d’origine hispanique et asiatique.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014723
    Description :

    Le U.S. Census Bureau est à la recherche de façons d’utiliser les dossiers administratifs dans les opérations d’enquête et les opérations décennales afin de réduire les coûts et le fardeau des répondants, tout en préservant la qualité des données. Parmi les utilisations possibles des dossiers administratifs figure l’utilisation des données en l’absence de réponses sur la race et l’origine hispanique. Lorsque les dossiers administratifs fédéraux et de tiers sont compilés, les réponses concernant la race et l’origine hispanique ne sont pas toujours les mêmes pour la même personne dans les différentes sources de dossiers administratifs. Nous explorons différents ensembles de règles opérationnelles servant à attribuer une réponse pour la race et l’origine hispanique lorsque ces réponses diffèrent entre les sources. Nous décrivons aussi les caractéristiques des personnes dont les données sur la race et l’origine hispanique correspondent, ne correspondent pas et sont manquantes pour plusieurs variables démographiques, des ménages et contextuelles. Nous avons déterminé que les personnes appartenant à des minorités, et plus particulièrement les personnes d’origine hispanique, sont plus susceptibles d’avoir des réponses sur l’origine hispanique et la race qui ne correspondent pas dans les dossiers administratifs que dans le Recensement de 2010. Les Hispaniques sont moins susceptibles d’avoir des données manquantes sur l’origine hispanique, mais plus susceptibles d’avoir des données manquantes sur la race dans les dossiers administratifs. Les Asiatiques non hispaniques et les habitants des îles du Pacifique non hispaniques sont plus susceptibles d’avoir des données manquantes sur la race et l’origine hispanique dans les dossiers administratifs. Les personnes plus jeunes, les locataires, les personnes vivant dans des ménages de deux personnes ou plus, les personnes qui ont répondu au recensement dans le cadre de l’opération de suivi de la non-réponse ainsi que les personnes résidant dans des régions urbaines sont plus susceptibles d’avoir des réponses sur la race et l’origine ethnique qui ne correspondent pas.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014740
    Description :

    Dans le présent document, nous abordons les répercussions des prestations d’emploi et mesures de soutien versées au Canada, en vertu des Ententes sur le développement du marché du travail. Nous utilisons un ensemble riche de données administratives longitudinales couplées englobant tous les participants aux EDMT de 2002 à 2005. Sur la base d’un appariement par score de propension, comme dans Blundell et coll. (2002), Gerfin et Lechner (2002), et Sianesi (2004), nous avons produit des estimations de l’impact différentiel à l’échelle nationale à partir d’un estimateur de l’écart des différences et d’un estimateur par la méthode du noyau (Heckman et Smith, 1999). Les résultats laissent supposer que, tant pour les Services d’aide à l’emploi que pour les programmes de prestations d’emploi, comme le Développement des compétences et les Subventions salariales ciblées, des effets positifs se font sentir sur la rémunération et l’emploi.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014757
    Description :

    Le Système de santé unifié brésilien (SUS) a été créé en 1988 et, afin d’organiser les systèmes d’information sur la santé et les bases de données déjà utilisées, une banque de données unifiée (DataSUS) a été créée en 1991. Les fichiers de DataSUS sont facilement disponibles sur Internet. L’accès à ces données et leur consultation se font actuellement au moyen d’un nombre limité de tableaux personnalisés et de diagrammes simples, qui ne répondent pas entièrement aux besoins des gestionnaires de la santé et des autres utilisateurs, qui souhaitent un outil souple et facile à utiliser, qui peut tenir compte des différents aspects de la santé qui les concernent, en vue de la recherche de connaissances et de la prise de décisions. Le projet actuel propose la production mensuelle interactive de rapports épidémiologiques synthétiques, qui sont non seulement facilement accessibles, mais aussi faciles à interpréter et à comprendre. L’accent est mis sur la visualisation des données, grâce à des diagrammes et des cartes plus informatifs.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014718
    Description :

    La présente étude vise à déterminer si le fait de commencer à participer aux Services d’aide à l’emploi (SAE) tôt après la présentation de la demande d’assurance-emploi (a.-e.) donne de meilleurs résultats pour les chômeurs que leur participation plus tardive durant la période de prestations. Comme dans Sianesi (2004) et dans Hujer et Thomsen (2010), l’analyse s’appuie sur une méthode d’appariement par score de propension stratifié, conditionnelle à la durée discrétisée de la période de chômage jusqu’au commencement du programme. Les résultats montrent que les personnes qui ont participé aux SAE dans les quatre premières semaines après la présentation de la demande d’assurance-emploi sont celles chez lesquelles les effets sur la rémunération et l’incidence de l’emploi ont été les meilleurs et que ces personnes ont également vu se réduire l’utilisation de l’assurance-emploi à partir de la deuxième année après le programme.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014714
    Description :

    Les Ententes sur le développement du marché du travail (EDMT) sont des ententes entre le Canada et les provinces et territoires visant à financer la formation et les services de soutien sur le marché du travail pour les prestataires d’assurance-emploi. L’objectif de cette communication est d’examiner les améliorations au fil des ans de la méthode d’évaluation des répercussions. Le présent document décrit les EDMT et les travaux d’élaboration passés et mentionne les raisons qui motivent une meilleure utilisation de fonds de données administratives importants. Suit une explication détaillée de la façon dont la nouvelle approche a fait en sorte que le processus d’évaluation nécessite moins de ressources, alors que les résultats s’appliquent mieux à l’élaboration de politiques. Le document fait aussi état des leçons apprises d’un point de vue méthodologique et fournit un aperçu des façons de rendre efficace ce type d’utilisation des données administratives, particulièrement dans le contexte des grands programmes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501014228
    Description :

    La présente étude fait état des résultats d’un couplage par appariement exact hiérarchique de données du Recensement de la population de 2006 et de données hospitalières pour toutes les provinces et les territoires (sauf le Québec) provenant de la Base de données sur les congés des patients pour la période 2006-2007 à 2008-2009. Elle a pour but de déterminer si le couplage recensement—BDCP donne des résultats similaires d’un secteur de compétence à l’autre, et si les taux de couplage et de couverture diminuent en fonction du temps écoulé depuis le recensement.

    Date de diffusion : 2015-10-21

  • Articles et rapports : 12-001-X201500114162
    Description :

    La mise en œuvre des opérations du Recensement de la population et du logement du Portugal est gérée par une structure hiérarchique dans laquelle Statistique Portugal se situe au sommet et les institutions gouvernementales locales, à la base. Quand le recensement a lieu, tous les 10 ans, Statistique Portugal demande aux administrations locales de collaborer avec lui à l’exécution et à la surveillance des opérations sur le terrain au niveau local. À l’étape de l’essai pilote du Recensement de 2011, on a demandé aux administrations locales une collaboration supplémentaire, à savoir répondre à un sondage sur la perception du risque, qui avait pour objectif de recueillir des renseignements en vue de concevoir un instrument d’assurance de la qualité pour surveiller les opérations du recensement. Le taux de réponse espéré au sondage était de 100 %, mais à l’échéance de la collecte des données, près du quart des administrations locales n’avaient pas répondu et il a donc été décidé de procéder à un suivi par la poste. Dans le présent article, nous examinons si nous aurions pu tirer les mêmes conclusions sans le suivi qu’avec celui-ci, et nous évaluons son influence sur la conception de l’instrument d’assurance de la qualité. La comparaison des réponses pour un ensemble de variables de perception a révélé que les réponses des administrations locales avant ou après le suivi ne différaient pas. Cependant, la configuration de l’instrument d’assurance de la qualité a changé lorsque l’on a inclus les réponses au suivi.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114200
    Description :

    Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114161
    Description :

    Le modèle de Fay Herriot est un modèle au niveau du domaine d’usage très répandu pour l’estimation des moyennes de petit domaine. Ce modèle contient des effets aléatoires en dehors de la régression linéaire (fixe) basée sur les covariables au niveau du domaine. Les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine s’obtiennent en estimant les effets aléatoires de domaine, et ils peuvent être exprimés sous forme d’une moyenne pondérée des estimateurs directs propres aux domaines et d’estimateurs synthétiques de type régression. Dans certains cas, les données observées n’appuient pas l’inclusion des effets aléatoires de domaine dans le modèle. L’exclusion de ces effets de domaine aboutit à l’estimateur synthétique de type régression, autrement dit un poids nul est appliqué à l’estimateur direct. L’étude porte sur un estimateur à test préliminaire d’une moyenne de petit domaine obtenu après l’exécution d’un test pour déceler la présence d’effets aléatoires de domaine. Parallèlement, elle porte sur les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine qui donnent toujours des poids non nuls aux estimateurs directs dans tous les domaines, ainsi que certains estimateurs de rechange basés sur le test préliminaire. La procédure de test préliminaire est également utilisée pour définir de nouveaux estimateurs de l’erreur quadratique moyenne des estimateurs ponctuels des moyennes de petit domaine. Les résultats d’une étude par simulation limitée montrent que, si le nombre de domaines est petit, la procédure d’essai préliminaire mène à des estimateurs de l’erreur quadratique moyenne présentant un biais relatif absolu moyen considérablement plus faible que les estimateurs de l’erreur quadratique moyenne usuels, surtout quand la variance des effets aléatoires est faible comparativement aux variances d’échantillonnage.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114149
    Description :

    L’article décrit un cadre généralisé de calcul des probabilités d’inclusion optimales dans divers contextes d’enquête dans lesquels il est requis de diffuser des estimations d’enquête d’une précision préétablie pour de multiples variables et domaines d’intérêt. Le cadre permet de définir des plans de sondage stratifiés classiques ou incomplets. Les probabilités d’inclusion optimales sont obtenues en minimisant les coûts au moyen d’un algorithme qui garantit l’établissement de bornes pour les erreurs d’échantillonnage au niveau du domaine, en supposant que les variables d’appartenance au domaine sont disponibles dans la base de sondage. Les variables cibles sont inconnues, mais peuvent être prédites au moyen de modèles de superpopulation appropriés. L’algorithme tient compte correctement de l’incertitude de ces modèles. Certaines expériences basées sur des données réelles montrent les propriétés empiriques de l’algorithme.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114173
    Description :

    La non-réponse est présente dans presque toutes les enquêtes et peut fortement biaiser les estimations. On distingue habituellement la non-réponse totale et la non-réponse partielle. En notant que pour une variable d’enquête en particulier, nous avons uniquement des valeurs observées et des valeurs inobservées, nous exploitons dans la présente étude le lien entre la non-réponse totale et la non-réponse partielle. En particulier, nous supposons que les facteurs qui sous-tendent la réponse totale sont les mêmes que ceux qui sous-tendent la réponse partielle pour les variables d’intérêt choisies. Nous estimons alors les probabilités de réponse en utilisant une covariable latente qui mesure la volonté de répondre à l’enquête et qui peut expliquer, en partie, le comportement inconnu d’une unité en ce qui concerne la participation à l’enquête. Nous estimons cette covariable latente en nous servant de modèles à traits latents. Cette approche convient particulièrement bien pour les questions sensibles et, par conséquent, permet de traiter la non-réponse non ignorable. L’information auxiliaire connue pour les répondants et les non-répondants peut être incluse dans le modèle à variables latentes ou dans le processus d’estimation de la probabilité de réponse. L’approche peut également être utilisée quand on ne dispose pas d’information auxiliaire, et nous nous concentrons ici sur ce cas. Nous proposons une estimation au moyen d’un système de repondération basé sur la covariable latente précédente quand aucune autre information auxiliaire observée n’est disponible. Les résultats d’études par simulation en vue d’évaluer sa performance en se servant de données réelles ainsi que simulées sont encourageants.

    Date de diffusion : 2015-06-29

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014261
    Description :

    Les instituts nationaux de statistique sont confrontés à une double exigence difficile à concilier. D’un côté, ils doivent fournir des informations toujours plus précises sur des sujets spécifiques, des populations difficiles d’accès ou minoritaires, avec des protocoles innovants permettant d’objectiver la mesure ou d’assurer sa confidentialité, etc. D’un autre côté, ils doivent faire face à des restrictions budgétaires dans un contexte où les ménages sont de plus en plus difficiles à joindre. Cette double injonction n’est pas sans effet sur la qualité des enquêtes, qualité au sens large, c’est-à-dire non seulement en termes de précision mais encore en termes de pertinence, comparabilité, cohérence, clarté, fraîcheur. Compte tenu du faible coût de la collecte par internet et de la très large diffusion d’internet au sein de la population, ces instituts voient dans ce mode de collecte moderne une solution pour résoudre leurs problèmes. Ainsi, le développement du recours à la collecte par internet, et plus généralement à la collecte multimode, serait la solution pour maximiser la qualité d’enquête, en particulier en termes d’erreur d’enquête totale, en faisant face aux problèmes de couverture, d’échantillonnage, de non-réponse ou de mesure, tout en respectant ces contraintes budgétaires. Cependant, si la collecte par internet est un mode peu coûteux, elle pose des problèmes méthodologiques non négligeables : couverture, auto-sélection ou biais de sélection, non-réponse et les difficultés de sa correction, « satisficing », etc. Aussi, avant de développer ou généraliser l’utilisation du multimode, l’Insee s’est lancé dans une vaste opération d’expérimentations afin d’étudier ces différentes questions méthodologiques, dont les premiers résultats montrent que le multimode est à la fois source de solutions et de nouveaux problèmes méthodologiques.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014268
    Description :

    En surveillance des maladies chroniques, la cueillette d’information est essentielle dans le but de mesurer l’ampleur des maladies, évaluer l’utilisation des services, identifier les groupes à risque et suivre l’évolution des maladies et des facteurs de risque dans le temps en vue de planifier et d’appliquer des programmes de prévention en santé publique. C’est dans ce contexte qu’a été créé le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ). Le SISMACQ est une base de données issue du jumelage de fichiers administratifs, couvrant les années 1996 à 2013, représentant une alternative intéressante aux données d’enquêtes puisqu’elle porte sur la totalité de la population, n’est pas affectée par le biais de rappel et permet de suivre la population dans le temps et dans l’espace. Cette présentation a pour objet de présenter la pertinence de l’utilisation des données administratives comme alternative aux données d’enquête ainsi que de les méthodes choisies pour la construction de la cohorte populationnelle à partir du jumelage des différentes sources de données brutes ainsi que de décrire les traitements apportées dans le but de minimiser les biais. Nous discuterons également des avantages et des limites liés à l’analyse des fichiers administratifs.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014286
    Description :

    L’Etude Longitudinale Française depuis l’Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion en maternité. Cette cohorte, consacrée au suivi des enfants, de la naissance à l’âge adulte, aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l’un des 25 jours répartis parmi les quatre saisons, ont été sélectionnés. Cet échantillon est le résultat d’un plan de sondage non standard que nous appellons échantillonnage produit. Il se présente pour cette enquête sous la forme du croisement de deux échantillonnages indépendants: celui des maternités et celui des jours. Si l’on peut facilement imaginer un effet grappe dû à l’échantillonnage de maternités, on peut symétriquement imaginer un effet grappe dû à l’échantillonnage des jours. La dimension temporelle du plan ne pourra alors être négligée si les estimations recherchées sont susceptibles de variations journalières ou saisonnières. Si ce plan non standard peut être vu comme un plan à deux phases bien particulier, il s’avère nécessaire de le définir dans un cadre plus adapté. Après une comparaison entre le plan produit et un plan classique à deux degrés, seront proposés des estimateurs de variance adaptés à ce plan de sondage. Une étude par simulations illustrera nos propos.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201401014098
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (87)

Analyses (87) (25 of 87 results)

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114542
    Description :

    La méthode du maximum de vraisemblance restreint (méthode REML pour restricted maximum likelihood) est généralement utilisée pour estimer la variance de l’effet aléatoire de domaine sous le modèle de Fay-Herriot (Fay et Herriot 1979) afin d’obtenir le meilleur estimateur linéaire sans biais empirique (estimateur EBLUP pour empirical best linear unbiased predictor) d’une moyenne de petit domaine. Lorsque l’estimation REML correspond à zéro, le poids de l’estimateur d’échantillon direct est zéro et l’EBLUP devient un estimateur synthétique, ce qui est rarement souhaitable. Pour résoudre le problème, Li et Lahiri (2011) et Yoshimori et Lahiri (2014) ont élaboré des estimateurs de variance constante par la méthode du maximum de vraisemblance ajusté (méthode ADM pour adjusted maximum likelihood), qui produisent toujours des estimations de variance positives. Certains des estimateurs ADM produisent toujours des estimations positives, mais génèrent un biais élevé, ce qui influe sur l’estimation de l’erreur quadratique moyenne (EQM) de l’estimateur EBLUP. Nous proposons d’utiliser un estimateur de variance MIX, défini comme étant une combinaison des méthodes REML et ADM. Nous montrons que cet estimateur est sans biais jusqu’à l’ordre deux et qu’il produit toujours une estimation de variance positive. Nous proposons également un estimateur de l’EQM sous la méthode MIX et montrons au moyen d’une simulation fondée sur un modèle que, dans de nombreuses situations, cet estimateur donne de meilleurs résultats que d’autres estimateurs de l’EQM par « linéarisation de Taylor » récemment proposés.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501014228
    Description :

    La présente étude fait état des résultats d’un couplage par appariement exact hiérarchique de données du Recensement de la population de 2006 et de données hospitalières pour toutes les provinces et les territoires (sauf le Québec) provenant de la Base de données sur les congés des patients pour la période 2006-2007 à 2008-2009. Elle a pour but de déterminer si le couplage recensement—BDCP donne des résultats similaires d’un secteur de compétence à l’autre, et si les taux de couplage et de couverture diminuent en fonction du temps écoulé depuis le recensement.

    Date de diffusion : 2015-10-21

  • Articles et rapports : 12-001-X201500114162
    Description :

    La mise en œuvre des opérations du Recensement de la population et du logement du Portugal est gérée par une structure hiérarchique dans laquelle Statistique Portugal se situe au sommet et les institutions gouvernementales locales, à la base. Quand le recensement a lieu, tous les 10 ans, Statistique Portugal demande aux administrations locales de collaborer avec lui à l’exécution et à la surveillance des opérations sur le terrain au niveau local. À l’étape de l’essai pilote du Recensement de 2011, on a demandé aux administrations locales une collaboration supplémentaire, à savoir répondre à un sondage sur la perception du risque, qui avait pour objectif de recueillir des renseignements en vue de concevoir un instrument d’assurance de la qualité pour surveiller les opérations du recensement. Le taux de réponse espéré au sondage était de 100 %, mais à l’échéance de la collecte des données, près du quart des administrations locales n’avaient pas répondu et il a donc été décidé de procéder à un suivi par la poste. Dans le présent article, nous examinons si nous aurions pu tirer les mêmes conclusions sans le suivi qu’avec celui-ci, et nous évaluons son influence sur la conception de l’instrument d’assurance de la qualité. La comparaison des réponses pour un ensemble de variables de perception a révélé que les réponses des administrations locales avant ou après le suivi ne différaient pas. Cependant, la configuration de l’instrument d’assurance de la qualité a changé lorsque l’on a inclus les réponses au suivi.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114200
    Description :

    Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114161
    Description :

    Le modèle de Fay Herriot est un modèle au niveau du domaine d’usage très répandu pour l’estimation des moyennes de petit domaine. Ce modèle contient des effets aléatoires en dehors de la régression linéaire (fixe) basée sur les covariables au niveau du domaine. Les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine s’obtiennent en estimant les effets aléatoires de domaine, et ils peuvent être exprimés sous forme d’une moyenne pondérée des estimateurs directs propres aux domaines et d’estimateurs synthétiques de type régression. Dans certains cas, les données observées n’appuient pas l’inclusion des effets aléatoires de domaine dans le modèle. L’exclusion de ces effets de domaine aboutit à l’estimateur synthétique de type régression, autrement dit un poids nul est appliqué à l’estimateur direct. L’étude porte sur un estimateur à test préliminaire d’une moyenne de petit domaine obtenu après l’exécution d’un test pour déceler la présence d’effets aléatoires de domaine. Parallèlement, elle porte sur les meilleurs prédicteurs linéaires sans biais empiriques des moyennes de petit domaine qui donnent toujours des poids non nuls aux estimateurs directs dans tous les domaines, ainsi que certains estimateurs de rechange basés sur le test préliminaire. La procédure de test préliminaire est également utilisée pour définir de nouveaux estimateurs de l’erreur quadratique moyenne des estimateurs ponctuels des moyennes de petit domaine. Les résultats d’une étude par simulation limitée montrent que, si le nombre de domaines est petit, la procédure d’essai préliminaire mène à des estimateurs de l’erreur quadratique moyenne présentant un biais relatif absolu moyen considérablement plus faible que les estimateurs de l’erreur quadratique moyenne usuels, surtout quand la variance des effets aléatoires est faible comparativement aux variances d’échantillonnage.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114149
    Description :

    L’article décrit un cadre généralisé de calcul des probabilités d’inclusion optimales dans divers contextes d’enquête dans lesquels il est requis de diffuser des estimations d’enquête d’une précision préétablie pour de multiples variables et domaines d’intérêt. Le cadre permet de définir des plans de sondage stratifiés classiques ou incomplets. Les probabilités d’inclusion optimales sont obtenues en minimisant les coûts au moyen d’un algorithme qui garantit l’établissement de bornes pour les erreurs d’échantillonnage au niveau du domaine, en supposant que les variables d’appartenance au domaine sont disponibles dans la base de sondage. Les variables cibles sont inconnues, mais peuvent être prédites au moyen de modèles de superpopulation appropriés. L’algorithme tient compte correctement de l’incertitude de ces modèles. Certaines expériences basées sur des données réelles montrent les propriétés empiriques de l’algorithme.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114173
    Description :

    La non-réponse est présente dans presque toutes les enquêtes et peut fortement biaiser les estimations. On distingue habituellement la non-réponse totale et la non-réponse partielle. En notant que pour une variable d’enquête en particulier, nous avons uniquement des valeurs observées et des valeurs inobservées, nous exploitons dans la présente étude le lien entre la non-réponse totale et la non-réponse partielle. En particulier, nous supposons que les facteurs qui sous-tendent la réponse totale sont les mêmes que ceux qui sous-tendent la réponse partielle pour les variables d’intérêt choisies. Nous estimons alors les probabilités de réponse en utilisant une covariable latente qui mesure la volonté de répondre à l’enquête et qui peut expliquer, en partie, le comportement inconnu d’une unité en ce qui concerne la participation à l’enquête. Nous estimons cette covariable latente en nous servant de modèles à traits latents. Cette approche convient particulièrement bien pour les questions sensibles et, par conséquent, permet de traiter la non-réponse non ignorable. L’information auxiliaire connue pour les répondants et les non-répondants peut être incluse dans le modèle à variables latentes ou dans le processus d’estimation de la probabilité de réponse. L’approche peut également être utilisée quand on ne dispose pas d’information auxiliaire, et nous nous concentrons ici sur ce cas. Nous proposons une estimation au moyen d’un système de repondération basé sur la covariable latente précédente quand aucune autre information auxiliaire observée n’est disponible. Les résultats d’études par simulation en vue d’évaluer sa performance en se servant de données réelles ainsi que simulées sont encourageants.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 82-003-X201401014098
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211887
    Description :

    Les modèles multiniveaux sont d'usage très répandu pour analyser les données d'enquête en faisant concorder la hiérarchie du plan de sondage avec la hiérarchie du modèle. Nous proposons une approche unifiée, basée sur une log-vraisemblance composite pondérée par les poids de sondage pour des modèles à deux niveaux, qui mène à des estimateurs des paramètres du modèle convergents sous le plan et sous le modèle, même si les tailles d'échantillon dans les grappes sont petites, à condition que le nombre de grappes échantillonnées soit grand. Cette méthode permet de traiter les modèles à deux niveaux linéaires ainsi que linéaires généralisés et requiert les probabilités d'inclusion de niveau 2 et de niveau 1, ainsi que les probabilités d'inclusion conjointe de niveau 1, où le niveau 2 représente une grappe et le niveau 1, un élément dans une grappe. Nous présentons aussi les résultats d'une étude en simulation qui donnent la preuve que la méthode proposée est supérieure aux méthodes existantes sous échantillonnage informatif.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111830
    Description :

    Nous considérons deux méthodes distinctes d'autocalage pour l'estimation des moyennes de petit domaine fondée sur le modèle au niveau du domaine de Fay-Herriot (FH), à savoir la méthode de You et Rao (2002) appliquée au modèle FH et la méthode de Wang, Fuller et Qu (2008) basée sur des modèles augmentés. Nous établissons un estimateur de l'erreur quadratique moyenne de prédiction (EQMP) de l'estimateur de You-Rao (YR) d'une moyenne de petit domaine qui, sous le modèle vrai, est correct jusqu'aux termes de deuxième ordre. Nous présentons les résultats d'une étude en simulation du biais relatif de l'estimateur de l'EQMP de l'estimateur YR et de l'estimateur de l'EQMP de l'estimateur de Wang, Fuller et Qu (WFQ) obtenu sous un modèle augmenté. Nous étudions aussi l'EQMP et les estimateurs de l'EQMP des estimateurs YR et WFQ obtenus sous un modèle mal spécifié.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201200211754
    Description :

    La méthode d'ajustement sur le score de propension est souvent adoptée pour traiter le biais de sélection dans les sondages, y compris la non-réponse totale et le sous-dénombrement. Le score de propension est calculé en se servant de variables auxiliaires observées dans tout l'échantillon. Nous discutons de certaines propriétés asymptotiques des estimateurs ajustés sur le score de propension et dérivons des estimateurs optimaux fondés sur un modèle de régression pour la population finie. Un estimateur ajusté sur le score de propension optimal peut être réalisé en se servant d'un modèle de score de propension augmenté. Nous discutons de l'estimation de la variance et présentons les résultats de deux études par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211756
    Description :

    Nous proposons une nouvelle approche d'estimation sur petits domaines fondée sur la modélisation conjointe des moyennes et des variances. Le modèle et la méthodologie que nous proposons améliorent non seulement les estimateurs sur petits domaines, mais donnent aussi des estimateurs « lissés » des vraies variances d'échantillonnage. Le maximum de vraisemblance des paramètres du modèle est estimé au moyen de l'algorithme EM en raison de la forme non classique de la fonction de vraisemblance. Les intervalles de confiance des paramètres de petit domaine sont obtenus en adoptant une approche de la théorie de la décision plus générale que l'approche classique de minimisation de la perte quadratique. Les propriétés numériques de la méthode proposée sont étudiées au moyen d'études par simulation et comparées à celles de méthodes concurrentes proposées dans la littérature. Une justification théorique des propriétés effectives des estimateurs et intervalles de confiance résultants est également présentée.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200111682
    Description :

    Les questions concernant la répartition de l'échantillon sont étudiées dans le contexte de l'estimation des moyennes de sous-population (strate ou domaine), ainsi que de la moyenne de population agrégée sous-échantillonnage aléatoire simple stratifié. Une méthode de programmation non linéaire est utilisée pour obtenir la répartition « optimale » de l'échantillon entre les strates qui minimise la taille totale d'échantillon sous la contrainte des tolérances spécifiées pour les coefficients de variation des estimateurs des moyennes de strate et de la moyenne de population. La taille totale d'échantillon résultante est alors utilisée pour déterminer les répartitions de l'échantillon par les méthodes de Costa, Satorra et Ventura (2004) s'appuyant sur une répartition intermédiaire ou de compromis et de Longford (2006) fondée sur des « priorités inférencielles » spécifiées. En outre, nous étudions la répartition de l'échantillon entre les strates quand sont également spécifiées des exigences de fiabilité pour des domaines qui recoupent les strates. Les propriétés des trois méthodes sont étudiées au moyen de données provenant de l'Enquête mensuelle sur le commerce de détail (EMCD) menée par Statistique Canada auprès d'établissements uniques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 82-003-X201100411589
    Description :

    Le présent article vise à illustrer comment la combinaison de données de plusieurs cycles de l'Enquête sur la santé dans les collectivités canadiennes augmente les possibilités analytiques et produit un aperçu plus clair de la santé des immigrants, grâce à l'établissement de sous groupes plus précis. Les exemples servent à montrer comment les indicateurs de l'état de santé varient selon le lieu de naissance.

    Date de diffusion : 2011-11-16

  • Articles et rapports : 12-001-X201100111447
    Description :

    Ce document présente un programme R pour la stratification d'une population d'enquête à l'aide d'une variable unidimensionnelle X et pour le calcul de tailles d'échantillon dans les strates. Nous y employons des méthodes non itératives pour délimiter les strates, comme la méthode de la fonction cumulative de la racine carrée des fréquences et la méthode géométrique. Nous pouvons élaborer des plans optimaux où les bornes de strates minimisent soit le CV de l'estimateur simple par dilatation pour une taille fixe d'échantillon n, soit la valeur n pour un CV fixe. Nous disposons de deux algorithmes itératifs pour le calcul des bornes optimales. Le plan peut comporter des strates à tirage obligatoire qui sont définies par l'utilisateur et dont toutes les unités sont échantillonnées. Il est également possible d'inclure dans le plan stratifié des strates à tirage complet et à tirage nul qui permettent souvent de réduire les tailles d'échantillon. Les calculs de taille d'échantillon sont fondés sur les moments anticipés de la variable d'enquête Y étant donné la variable de stratification X. Le programme traite les distributions conditionnelles de Y étant donné X qui sont soit un modèle linéaire hétéroscédastique soit un modèle loglinéaire. Nous pouvons tenir compte de la non-réponse par strate dans l'élaboration du plan d'échantillonnage et dans les calculs de taille d'échantillon.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 82-003-X201100211437
    Description :

    La présente étude vise principalement à examiner la cohérence interne des versions française et anglaise de l'échelle de soutien social de l'Étude des issues médicales pour un échantillon d'adultes d'un certain âge. En deuxième lieu, elle sert à effectuer une analyse factorielle confirmatoire afin de permettre une évaluation de la structure factorielle de chacune des versions. Enfin, elle a pour but de déterminer si les items de l'échelle s'appliquent uniformément aux participants francophones et aux participants anglophones.

    Date de diffusion : 2011-05-18

  • Articles et rapports : 12-001-X201000211381
    Description :

    Les méthodes de linéarisation de Taylor sont souvent utilisées pour obtenir des estimateurs de la variance d'estimateurs par calage de totaux et de paramètres de population finie (ou de recensement) non linéaires, tels que des ratios ou des coefficients de régression et de corrélation, qui peuvent être exprimés sous forme de fonctions lisses de totaux. La linéarisation de Taylor s'applique généralement à tout plan d'échantillonnage, mais elle peut produire de multiples estimateurs de la variance qui sont asymptotiquement sans biais par rapport au plan en cas d'échantillonnage répété. Le choix parmi les estimateurs de variance doit donc s'appuyer sur d'autres critères, tels que i) l'absence approximative de biais dans la variance par rapport au modèle de l'estimateur obtenu sous un modèle hypothétique et ii) la validité sous échantillonnage répété conditionnel. Demnati et Rao (2004) ont proposé une méthode unifiée de calcul des estimateurs de variance par linéarisation de Taylor produisant directement un estimateur de variance unique qui satisfait aux critères susmentionnés pour des plans de sondage généraux. Dans l'analyse des données d'enquête, on suppose généralement que les populations finies sont générées au moyen de modèles de superpopulation et l'on s'intéresse aux inférences analytiques concernant les paramètres de ces modèles. Si les fractions d'échantillonnage sont faibles, la variance d'échantillonnage reflète presque toute la variation due aux processus aléatoires liés au plan de sondage et au modèle. Par contre, si les fractions d'échantillonnage ne sont pas négligeables, il faut tenir compte de la variance du modèle pour construire des inférences valides concernant les paramètres du modèle sous le processus combiné de génération de la population finie à partir du modèle hypothétique de superpopulation et de sélection de l'échantillon conformément au plan de l'échantillonnage spécifié. Dans le présent article, nous obtenons un estimateur de la variance totale selon l'approche de Demnati-Rao en supposant que les caractéristiques d'intérêt sont des variables aléatoires générées au moyen d'un modèle de superpopulation. Nous illustrons la méthode à l'aide d'estimateurs par le ratio et d'estimateurs définis comme des solutions d'équations d'estimation pondérées par calage. Nous présentons aussi les résultats de simulations en vue de déterminer la performance de l'estimateur de variance proposé pour les paramètres du modèle.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000111244
    Description :

    Nous étudions le problème de la sélection de modèles non paramétriques pour l'estimation sur petits domaines, auquel beaucoup d'attention a été accordée récemment. Nous élaborons une méthode fondée sur le concept de la méthode de l'enclos (fence method) de Jiang, Rao, Gu et Nguyen (2008) pour sélectionner la fonction moyenne pour les petits domaines parmi une classe de splines d'approximation. Les études par simulations montrent que la nouvelle méthode donne des résultats impressionnants, même si le nombre de petits domaines est assez faible. Nous appliquons la méthode à un ensemble de données hospitalières sur les échecs de greffe pour choisir un modèle non paramétrique de type Fay­Herriot.

    Date de diffusion : 2010-06-29

Références (73)

Références (73) (25 of 73 results)

  • Produits techniques : 11-522-X201700014722
    Description :

    Le U.S. Census Bureau cherche des façons d’intégrer des données administratives dans les opérations des recensements décennaux et des enquêtes. Pour mener ces travaux, il est essentiel de comprendre la couverture de la population dans les dossiers administratifs. À partir de données administratives fédérales et de tiers couplées avec celles de l’American Community Survey (ACS), nous évaluons dans quelle mesure les dossiers administratifs fournissent des données sur les personnes nées à l’étranger dans l’ACS, et nous utilisons des techniques de régression logistique multinomiale pour évaluer les caractéristiques de celles qui figurent dans les dossiers administratifs par rapport à celles qui n’y figurent pas. Nous avons déterminé que, dans l’ensemble, les dossiers administratifs fournissent une bonne couverture des personnes nées à l’étranger dans notre échantillon pour lesquelles un appariement peut être déterminé. La probabilité de figurer dans les dossiers administratifs semble être liée aux processus d’assimilation des immigrants : la naturalisation, une meilleure connaissance de la langue anglaise, le niveau de scolarité, et un emploi à temps plein étant associés à une plus grande probabilité de figurer dans les dossiers administratifs. Ces résultats laissent supposer qu’au fur et à mesure que les immigrants s’adaptent à la société américaine et s’y intègrent, ils sont plus susceptibles de participer aux processus et aux programmes gouvernementaux et commerciaux pour lesquels nous incluons des données. Nous explorons ensuite la couverture des dossiers administratifs pour les deux groupes raciaux/ethniques les plus importants de notre échantillon, à savoir les personnes nées à l’étranger de race hispanique et de race asiatique unique non hispanique, en déterminant encore une fois que les caractéristiques liées à l’assimilation sont associées à une couverture des deux groupes dans les dossiers administratifs. Toutefois, nous observons que le contexte du quartier a des répercussions différentes sur les personnes d’origine hispanique et asiatique.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014723
    Description :

    Le U.S. Census Bureau est à la recherche de façons d’utiliser les dossiers administratifs dans les opérations d’enquête et les opérations décennales afin de réduire les coûts et le fardeau des répondants, tout en préservant la qualité des données. Parmi les utilisations possibles des dossiers administratifs figure l’utilisation des données en l’absence de réponses sur la race et l’origine hispanique. Lorsque les dossiers administratifs fédéraux et de tiers sont compilés, les réponses concernant la race et l’origine hispanique ne sont pas toujours les mêmes pour la même personne dans les différentes sources de dossiers administratifs. Nous explorons différents ensembles de règles opérationnelles servant à attribuer une réponse pour la race et l’origine hispanique lorsque ces réponses diffèrent entre les sources. Nous décrivons aussi les caractéristiques des personnes dont les données sur la race et l’origine hispanique correspondent, ne correspondent pas et sont manquantes pour plusieurs variables démographiques, des ménages et contextuelles. Nous avons déterminé que les personnes appartenant à des minorités, et plus particulièrement les personnes d’origine hispanique, sont plus susceptibles d’avoir des réponses sur l’origine hispanique et la race qui ne correspondent pas dans les dossiers administratifs que dans le Recensement de 2010. Les Hispaniques sont moins susceptibles d’avoir des données manquantes sur l’origine hispanique, mais plus susceptibles d’avoir des données manquantes sur la race dans les dossiers administratifs. Les Asiatiques non hispaniques et les habitants des îles du Pacifique non hispaniques sont plus susceptibles d’avoir des données manquantes sur la race et l’origine hispanique dans les dossiers administratifs. Les personnes plus jeunes, les locataires, les personnes vivant dans des ménages de deux personnes ou plus, les personnes qui ont répondu au recensement dans le cadre de l’opération de suivi de la non-réponse ainsi que les personnes résidant dans des régions urbaines sont plus susceptibles d’avoir des réponses sur la race et l’origine ethnique qui ne correspondent pas.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014740
    Description :

    Dans le présent document, nous abordons les répercussions des prestations d’emploi et mesures de soutien versées au Canada, en vertu des Ententes sur le développement du marché du travail. Nous utilisons un ensemble riche de données administratives longitudinales couplées englobant tous les participants aux EDMT de 2002 à 2005. Sur la base d’un appariement par score de propension, comme dans Blundell et coll. (2002), Gerfin et Lechner (2002), et Sianesi (2004), nous avons produit des estimations de l’impact différentiel à l’échelle nationale à partir d’un estimateur de l’écart des différences et d’un estimateur par la méthode du noyau (Heckman et Smith, 1999). Les résultats laissent supposer que, tant pour les Services d’aide à l’emploi que pour les programmes de prestations d’emploi, comme le Développement des compétences et les Subventions salariales ciblées, des effets positifs se font sentir sur la rémunération et l’emploi.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014757
    Description :

    Le Système de santé unifié brésilien (SUS) a été créé en 1988 et, afin d’organiser les systèmes d’information sur la santé et les bases de données déjà utilisées, une banque de données unifiée (DataSUS) a été créée en 1991. Les fichiers de DataSUS sont facilement disponibles sur Internet. L’accès à ces données et leur consultation se font actuellement au moyen d’un nombre limité de tableaux personnalisés et de diagrammes simples, qui ne répondent pas entièrement aux besoins des gestionnaires de la santé et des autres utilisateurs, qui souhaitent un outil souple et facile à utiliser, qui peut tenir compte des différents aspects de la santé qui les concernent, en vue de la recherche de connaissances et de la prise de décisions. Le projet actuel propose la production mensuelle interactive de rapports épidémiologiques synthétiques, qui sont non seulement facilement accessibles, mais aussi faciles à interpréter et à comprendre. L’accent est mis sur la visualisation des données, grâce à des diagrammes et des cartes plus informatifs.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014718
    Description :

    La présente étude vise à déterminer si le fait de commencer à participer aux Services d’aide à l’emploi (SAE) tôt après la présentation de la demande d’assurance-emploi (a.-e.) donne de meilleurs résultats pour les chômeurs que leur participation plus tardive durant la période de prestations. Comme dans Sianesi (2004) et dans Hujer et Thomsen (2010), l’analyse s’appuie sur une méthode d’appariement par score de propension stratifié, conditionnelle à la durée discrétisée de la période de chômage jusqu’au commencement du programme. Les résultats montrent que les personnes qui ont participé aux SAE dans les quatre premières semaines après la présentation de la demande d’assurance-emploi sont celles chez lesquelles les effets sur la rémunération et l’incidence de l’emploi ont été les meilleurs et que ces personnes ont également vu se réduire l’utilisation de l’assurance-emploi à partir de la deuxième année après le programme.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014714
    Description :

    Les Ententes sur le développement du marché du travail (EDMT) sont des ententes entre le Canada et les provinces et territoires visant à financer la formation et les services de soutien sur le marché du travail pour les prestataires d’assurance-emploi. L’objectif de cette communication est d’examiner les améliorations au fil des ans de la méthode d’évaluation des répercussions. Le présent document décrit les EDMT et les travaux d’élaboration passés et mentionne les raisons qui motivent une meilleure utilisation de fonds de données administratives importants. Suit une explication détaillée de la façon dont la nouvelle approche a fait en sorte que le processus d’évaluation nécessite moins de ressources, alors que les résultats s’appliquent mieux à l’élaboration de politiques. Le document fait aussi état des leçons apprises d’un point de vue méthodologique et fournit un aperçu des façons de rendre efficace ce type d’utilisation des données administratives, particulièrement dans le contexte des grands programmes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Produits techniques : 11-522-X201300014261
    Description :

    Les instituts nationaux de statistique sont confrontés à une double exigence difficile à concilier. D’un côté, ils doivent fournir des informations toujours plus précises sur des sujets spécifiques, des populations difficiles d’accès ou minoritaires, avec des protocoles innovants permettant d’objectiver la mesure ou d’assurer sa confidentialité, etc. D’un autre côté, ils doivent faire face à des restrictions budgétaires dans un contexte où les ménages sont de plus en plus difficiles à joindre. Cette double injonction n’est pas sans effet sur la qualité des enquêtes, qualité au sens large, c’est-à-dire non seulement en termes de précision mais encore en termes de pertinence, comparabilité, cohérence, clarté, fraîcheur. Compte tenu du faible coût de la collecte par internet et de la très large diffusion d’internet au sein de la population, ces instituts voient dans ce mode de collecte moderne une solution pour résoudre leurs problèmes. Ainsi, le développement du recours à la collecte par internet, et plus généralement à la collecte multimode, serait la solution pour maximiser la qualité d’enquête, en particulier en termes d’erreur d’enquête totale, en faisant face aux problèmes de couverture, d’échantillonnage, de non-réponse ou de mesure, tout en respectant ces contraintes budgétaires. Cependant, si la collecte par internet est un mode peu coûteux, elle pose des problèmes méthodologiques non négligeables : couverture, auto-sélection ou biais de sélection, non-réponse et les difficultés de sa correction, « satisficing », etc. Aussi, avant de développer ou généraliser l’utilisation du multimode, l’Insee s’est lancé dans une vaste opération d’expérimentations afin d’étudier ces différentes questions méthodologiques, dont les premiers résultats montrent que le multimode est à la fois source de solutions et de nouveaux problèmes méthodologiques.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014268
    Description :

    En surveillance des maladies chroniques, la cueillette d’information est essentielle dans le but de mesurer l’ampleur des maladies, évaluer l’utilisation des services, identifier les groupes à risque et suivre l’évolution des maladies et des facteurs de risque dans le temps en vue de planifier et d’appliquer des programmes de prévention en santé publique. C’est dans ce contexte qu’a été créé le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ). Le SISMACQ est une base de données issue du jumelage de fichiers administratifs, couvrant les années 1996 à 2013, représentant une alternative intéressante aux données d’enquêtes puisqu’elle porte sur la totalité de la population, n’est pas affectée par le biais de rappel et permet de suivre la population dans le temps et dans l’espace. Cette présentation a pour objet de présenter la pertinence de l’utilisation des données administratives comme alternative aux données d’enquête ainsi que de les méthodes choisies pour la construction de la cohorte populationnelle à partir du jumelage des différentes sources de données brutes ainsi que de décrire les traitements apportées dans le but de minimiser les biais. Nous discuterons également des avantages et des limites liés à l’analyse des fichiers administratifs.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014286
    Description :

    L’Etude Longitudinale Française depuis l’Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion en maternité. Cette cohorte, consacrée au suivi des enfants, de la naissance à l’âge adulte, aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l’un des 25 jours répartis parmi les quatre saisons, ont été sélectionnés. Cet échantillon est le résultat d’un plan de sondage non standard que nous appellons échantillonnage produit. Il se présente pour cette enquête sous la forme du croisement de deux échantillonnages indépendants: celui des maternités et celui des jours. Si l’on peut facilement imaginer un effet grappe dû à l’échantillonnage de maternités, on peut symétriquement imaginer un effet grappe dû à l’échantillonnage des jours. La dimension temporelle du plan ne pourra alors être négligée si les estimations recherchées sont susceptibles de variations journalières ou saisonnières. Si ce plan non standard peut être vu comme un plan à deux phases bien particulier, il s’avère nécessaire de le définir dans un cadre plus adapté. Après une comparaison entre le plan produit et un plan classique à deux degrés, seront proposés des estimateurs de variance adaptés à ce plan de sondage. Une étude par simulations illustrera nos propos.

    Date de diffusion : 2014-10-31

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Produits techniques : 12-002-X201200111642
    Description :

    En général, il est recommandé de recourir à l'estimation pondérée au moment d'analyser les données d'un fichier de microdonnées issues du questionnaire complet du recensement. Puisque de tels fichiers de données sont maintenant disponibles dans les CDR, il est nécessaire de donner aux chercheurs de ces centres plus d'information sur la façon de procéder à une estimation pondérée avec ces fichiers. Ce document a pour objectif de fournir cette information, plus particulièrement la façon avec laquelle les variables de pondération ont été dérivées pour les fichiers de microdonnées du recensement et la pondération qui devrait être utilisée pour différentes unités d'analyse. Dans le cas des recensements de 1996, 2001 et 2006, la même variable de pondération est appropriée peu importe si ce sont des personnes, des familles ou des ménages qui sont étudiés. Dans le cas du Recensement de 1991, les recommandations sont plus complexes : une variable de pondération différente de celle des personnes et des familles est requise pour les ménages, et d'autres restrictions s'appliquent pour obtenir la bonne valeur de pondération pour les familles.

    Date de diffusion : 2012-10-25

  • Produits techniques : 11-522-X200800011011
    Description :

    Le Système de rapports sur la qualité de vie (SRQDV) de la Fédération canadienne des municipalités (FCM) offre un moyen de mesurer et de surveiller la qualité de vie dans les municipalités canadiennes et d'en rendre compte. Pour relever le défi que représente la collecte de données administratives auprès des diverses municipalités membres, l'équipe technique du SRQDV a collaboré au développement de l'Outil de collecte de données municipales (OCDM) qui est devenu une composante clé de la méthodologie d'acquisition de données du SRQDV. Soumis en tant qu'étude de cas de la collecte des données administratives, le présent article soutient que le lancement récent de l'OCDM a permis à la FCM d'avoir accès à des données administratives municipales pancanadiennes fiables pour le SRQDV.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011016
    Description :

    Alors que prennent fin une journée d'ateliers et trois journées bien remplies de séances, j'ai l'immense plaisir de vous livrer le mot de la fin et, surtout, de souligner les efforts déployés par ceux qui ont contribué au succès du Symposium de cette année. J'admets avec force qu'il s'agit d'une réussite.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010972
    Description :

    Contexte : L'évaluation de la couverture du fichier obtenu par couplage de données administratives recueillies régulièrement par les hôpitaux et de données d'enquête est une importante étape préalable aux analyses fondées sur ce fichier couplé. Données et méthodes : Afin d'évaluer la couverture du couplage des données du cycle 1.1 de l'Enquête sur la santé dans les collectivités canadiennes (ESCC) aux données sur les hospitalisations (Information-santé orientée vers la personne, ou ISOP), le nombre de personnes admises à l'hôpital selon l'ISOP a été comparé à l'estimation pondérée obtenue pour les répondants à l'ESCC dont les données ont pu être couplées à celles de l'ISOP. Les écarts entre le chiffre selon l'ISOP et les estimations d'après les données couplées et pondérées de l'ESCC révèlent un échec du couplage ou un sous-dénombrement. Résultats : Selon l'ISOP, 1 572 343 personnes (hors Québec) âgées de 12 ans et plus ont été hospitalisées de septembre 2000 à la fin de novembre 2001. Les estimations fondées sur les données couplées de l'ESCC, rajustées pour tenir compte du consentement au couplage et de la vraisemblance du numéro d'assurance-maladie, sont inférieures de 7,7 % à ce chiffre. Les taux de couverture des hommes et des femmes sont comparables. Les taux provinciaux ne diffèrent pas de ceux observés pour le reste du Canada, mais des différences se dégagent pour les territoires. Les taux de couverture sont significativement plus faibles pour les personnes de 75 ans et plus que pour celles de 12 à 74 ans.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010960
    Description :

    La non-réponse est inévitable dans toute enquête, malgré tous les efforts mis en oeuvre pour la réduire aux différentes étapes de l'enquête. Cette non-réponse peut notamment être responsable de biais dans l'estimation. La non-réponse est par ailleurs une problématique d'autant plus importante dans une étude longitudinale que l'échantillon se réduit au fil du temps. L'Étude Longitudinale Française depuis l'Enfance (Elfe) est un projet de suivi de 20 000 enfants de la naissance à l'âge adulte dans une approche pluridisciplinaire. Cet article est basé sur les résultats des premières études pilotes menées en 2007 qui ont permis de tester la faisabilité et l'acceptation de l'étude. Les résultats de participation sont présentés (taux de réponse, facteurs liés à la non-réponse) ainsi qu'une première ébauche des méthodes de traitement de la non-réponse envisagées.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010967
    Description :

    Le présent article traite du contexte de l'utilisation du langage XBRL (eXtensible Business Reporting Language) et de la participation de Statistics Netherlands au projet de taxonomie des Pays-Bas. La discussion porte principalement sur le contexte statistique de l'utilisation de XBRL et de la taxonomie des Pays-Bas pour préciser les termes de données aux sociétés.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110806
    Description :

    Les travaux récents qui utilisent la méthode du maximum de vraisemblance pseudo-empirique pour des inférences pour populations finies avec données d'enquêtes complexes se sont d'abord concentrées sur un échantillon d'enquête simple, non stratifié ou stratifié, avec de considérables efforts sur les procédures de calcul. Dans cet exposé, nous présentons une approche d'inférence par maximum de vraisemblance pseudo-empirique pour des enquêtes multiples et des enquêtes à bases multiples, deux problèmes souvent rencontrés en pratique dans les enquêtes. Nous montrons qu'il est possible de faire l'inférence à propos du paramètre d'intérêt commum et d'utiliser efficacement les divers types d'information auxiliaire de façon pratique par la maximisation sous contrainte de la fonction du maximum de vraisemblance pseudo-empirique. Nous obtenons les résultats asymptotiques qui sont utilisés pour construire des intervalles de confiance de ratio de maximum de vraisemblance pseudo-empiriques, soit en utilisant une approximation du chi-deux, soit en utilisant une calibration bootstrap. Tous les problèmes de calcul reliés peuvent être résolus en utilisant des algorithmes d'échantillonnage stratifié existants après avoir reformulé le problème de façon appropriée.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-536-X200900110807
    Description :

    On a démontré que la calibration à des modèles (Wu et Sitter, JASA 2001) produit des estimations plus efficaces que la calibration classique lorsque les valeurs d'une ou plusieurs variables auxiliaires sont disponibles pour chaque unité de la population et que les relations entre de telles variables et les variables d'intérêt sont plus complexes qu'une relation linéaire. La calibration à un modèle, par contre, fournit un ensemble de poids différents pour chaque variable d'intérêt. Pour surmonter ce problème, un estimateur est proposé: on vise à calibrer simultanément par rapport aux valeurs des variables auxiliaires et par rapport aux valeurs prédites de la variables d'intérêt obtenues par des modèles paramétriques et/ou nonparamétriques. Ceci permet d'obtenir la cohérence entre les estimations et plus d'efficacité si le modèle est bien spécifié. On étudie les propriétés asymptotiques de l'estimateur résultant par rapport au plan de sondage. On traite de la question de la grande variabilité des poids en relâchant des contraintes fermes sur les variables qui sont inclues pour des raisons d'efficacité dans les équations de calibration. On présente aussi une étude par simulations pour mieux comprendre le comportement de l'estimateur proposé dans de petits échantillons.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110440
    Description :

    Alors que prennent fin une journée d'ateliers et deux journées bien remplies de séances, j'ai l'immense plaisir de vous livrer le mot de la fin et, surtout, de souligner les efforts déployés par ceux qui ont contribué au succès du Symposium de cette année. J'admets avec force qu'il s'agit d'une réussite.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110443
    Description :

    La population du Brésil vieillit puisque le nombre de personnes âgées a augmenté. Des instruments ont été élaborés pour mesurer la qualité de vie de ces personnes. Un questionnaire composé de différents instruments validés et d'une question ouverte a donc été appliqué à un groupe de personnes âgées de la ville de Botucatu, SP, au Brésil. L'analyse des réponses à la question ouverte, évaluées selon des méthodes qualitatives, a permis d'obtenir onze catégories d'opinions des personnes âgées sur la qualité de vie, et une analyse par grappes des réponses a permis de diviser les personnes âgées en trois groupes. L'étude visait ainsi à valider les catégories obtenues à l'aide de la question ouverte par les questions fermées de l'instrument au moyen d'associations et de l'application de tests du chi carré au niveau de signification de 5 %. On a observé que l'analyse qualitative permet de déterminer les phénomènes sans égard à la saturation de catégories. En revanche, la méthode quantitative montre le poids de chaque catégorie dans un ensemble, c'est à dire globalement.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110408
    Description :

    Malgré les progrès réalisés en vue d'améliorer la santé de la population des États Unis, des disparités en matière de santé persistent entre divers groupes raciaux/ethniques et socioéconomiques. Les sources habituelles de données pour évaluer la santé d'une population d'intérêt comprennent les enquêtes à grande échelle, qui contiennent souvent des questions à réponse autodéclarée, comme « Un médecin ou un autre professionnel de la santé vous a t-il déjà dit que vous souffrez de problème de santé d'intérêt ? Les réponses à de telles questions pourraient ne pas refléter la prévalence réelle des problèmes de santé (p. ex., si le répondant n'a pas accès à un médecin ou à un autre professionnel de la santé). De même, les renseignements autodéclarés concernant des données quantitatives telles que la taille et le poids pourraient être entachés d'erreurs de déclaration. Ce genre d'« erreurs de mesure » dans les données sur la santé pourraient avoir une incidence sur les inférences relatives aux mesures de la santé et aux disparités en matière de santé. Dans la présente étude, nous ajustons des modèles d'erreur de mesure aux données de la National Health and Nutrition Examination Survey, qui comprend un volet d'interview durant lequel sont posées des questions à réponse autodéclarée et un volet d'examen durant lequel sont obtenues des mesures physiques. Puis, nous élaborons des méthodes permettant d'utiliser les modèles ajustés pour améliorer l'analyse des données autodéclarées provenant d'une autre enquête ne comportant pas de volet d'examen. Enfin, nous appliquons ces méthodes, qui comportent l'imputation multiples de valeurs fondées sur les données recueillies par examen à l'enquête ne produisant que des données autodéclarées, à la National Health Interview Survey dans des exemples ayant trait au diabète, à l'hypertension et à l'obésité. Les résultats préliminaires laissent entendre que les ajustements pour l'erreur de mesure peuvent causer des variations non négligeables des estimations des mesures de la santé.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110447
    Description :

    La classification et l'identification des emplacements où se trouvent les personnes qui déclarent être en plus ou en moins bonne santé ou posséder plus ou moins de capital social dans une région particulière, comme une région sociosanitaire, contribue considérablement à comprendre les associations entre lieu et santé. L'objectif de l'étude proposée est de classifier et de cartographier divers secteurs de la région sociosanitaire de la Zone 6 (figure 1) de la Nouvelle Écosse (municipalité régionale de Halifax et régions de la vallée de l'Annapolis) en fonction de l'état de santé (dimension 1) et du capital social (dimension 2). Nous avons procédé au résumé analytique des réponses autodéclarées aux questions sur l'état de santé, l'état mental et le capital social figurant dans les fichiers maîtres de l'Enquête sur la santé dans les collectivités canadiennes (cycles 1.1, 1.2 et 2.1), de l'Enquête nationale sur la santé de la population (cycle 5) et de l'Enquête sociale générale (cycles 13, 14, 17 et 18). Les réponses ont été géocodées en utilisant le Fichier de conversion des codes postaux (FCCP+) de Statistique Canada et importées dans un système d'information géographique (SIG) afin que le code postal associé à la réponse soit assigné à une latitude et à une longitude dans la région sociosanitaire de la Zone 6 de la Nouvelle Écosse. Nous avons utilisé des estimateurs à noyau de la densité et des interpolateurs spatiaux supplémentaires pour élaborer des surfaces statistiquement lissées de la distribution des valeurs des réponses pour chaque question. Le lissage rend impossible la détermination de l'emplacement d'un répondant particulier et la divulgation des renseignements confidentiels contenus dans la base de sondage de Statistique Canada. L'utilisation de réponses à des questions semblables recueillies dans le cadre de plusieurs enquêtes accroît la probabilité de déceler une hétérogénéité entre les réponses obtenues dans la région sociosanitaire et rend la classification cartographique lissée plus exacte.

    Date de diffusion : 2008-03-17

Date de modification :