Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (37)

Tout (37) (25 of 37 results)

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114542
    Description :

    La méthode du maximum de vraisemblance restreint (méthode REML pour restricted maximum likelihood) est généralement utilisée pour estimer la variance de l’effet aléatoire de domaine sous le modèle de Fay-Herriot (Fay et Herriot 1979) afin d’obtenir le meilleur estimateur linéaire sans biais empirique (estimateur EBLUP pour empirical best linear unbiased predictor) d’une moyenne de petit domaine. Lorsque l’estimation REML correspond à zéro, le poids de l’estimateur d’échantillon direct est zéro et l’EBLUP devient un estimateur synthétique, ce qui est rarement souhaitable. Pour résoudre le problème, Li et Lahiri (2011) et Yoshimori et Lahiri (2014) ont élaboré des estimateurs de variance constante par la méthode du maximum de vraisemblance ajusté (méthode ADM pour adjusted maximum likelihood), qui produisent toujours des estimations de variance positives. Certains des estimateurs ADM produisent toujours des estimations positives, mais génèrent un biais élevé, ce qui influe sur l’estimation de l’erreur quadratique moyenne (EQM) de l’estimateur EBLUP. Nous proposons d’utiliser un estimateur de variance MIX, défini comme étant une combinaison des méthodes REML et ADM. Nous montrons que cet estimateur est sans biais jusqu’à l’ordre deux et qu’il produit toujours une estimation de variance positive. Nous proposons également un estimateur de l’EQM sous la méthode MIX et montrons au moyen d’une simulation fondée sur un modèle que, dans de nombreuses situations, cet estimateur donne de meilleurs résultats que d’autres estimateurs de l’EQM par « linéarisation de Taylor » récemment proposés.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201501214295
    Description :

    À l’aide du modèle de microsimulation du cancer du sein mis au point par le Cancer Intervention and Surveillance Monitoring Network de l’Université du Wisconsin adapté au contexte canadien, on a évalué 11 stratégies de dépistage par mammographie sur le plan des coûts et des années de vie ajustées en fonction de la qualité. Ces stratégies, qui s’adressent à la population générale, diffèrent selon l’âge au début et à la fin du dépistage ainsi que la fréquence des examens de dépistage. Des rapports coût/efficacité différentiels sont présentés, et des analyses de sensibilité servent à évaluer la robustesse des conclusions du modèle.

    Date de diffusion : 2015-12-16

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014271
    Description :

    Ce document vise à présenter l'utilisation des dossiers administratifs dans le U.S. Census pour les logements collectifs. Le dénombrement des logements collectifs signifie la collecte de données dans des endroits difficiles d'accès, comme les établissements correctionnels, les établissements de soins infirmiers spécialisés et les casernes militaires. Nous examinons les avantages et les contraites de l'utilisation de diverses sources de dossier administratifs pour l'élaboration de la base de sondage des logements collectifs, en vue d'améliorer la couverture. Le présent document est un document d'accompagnement de la communication de Chun et Gan (2014) portant sur les utilisations possibles des dossiers administratifs dans le recensement des logements collectifs.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201300111830
    Description :

    Nous considérons deux méthodes distinctes d'autocalage pour l'estimation des moyennes de petit domaine fondée sur le modèle au niveau du domaine de Fay-Herriot (FH), à savoir la méthode de You et Rao (2002) appliquée au modèle FH et la méthode de Wang, Fuller et Qu (2008) basée sur des modèles augmentés. Nous établissons un estimateur de l'erreur quadratique moyenne de prédiction (EQMP) de l'estimateur de You-Rao (YR) d'une moyenne de petit domaine qui, sous le modèle vrai, est correct jusqu'aux termes de deuxième ordre. Nous présentons les résultats d'une étude en simulation du biais relatif de l'estimateur de l'EQMP de l'estimateur YR et de l'estimateur de l'EQMP de l'estimateur de Wang, Fuller et Qu (WFQ) obtenu sous un modèle augmenté. Nous étudions aussi l'EQMP et les estimateurs de l'EQMP des estimateurs YR et WFQ obtenus sous un modèle mal spécifié.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201100111445
    Description :

    Dans le présent article, nous étudions l'estimation sur petits domaines en nous servant de modèles au niveau du domaine. Nous considérons d'abord le modèle de Fay-Herriot (Fay et Herriot 1979) pour le cas d'une variance d'échantillonnage connue lissée et le modèle de You-Chapman (You et Chapman 2006) pour le cas de la modélisation de la variance d'échantillonnage. Ensuite, nous considérons des modèles spatiaux hiérarchiques bayésiens (HB) qui étendent les modèles de Fay-Herriot et de You-Chapman en tenant compte à la fois de l'hétérogénéité géographiquement non structurée et des effets de corrélation spatiale entre les domaines pour le lissage local. Les modèles proposés sont mis en 'uvre en utilisant la méthode d'échantillonnage de Gibbs pour une inférence entièrement bayésienne. Nous appliquons les modèles proposés à l'analyse de données d'enquête sur la santé et comparons les estimations fondées sur le modèle HB aux estimations directes fondées sur le plan. Nos résultats montrent que les estimations fondées sur le modèle HB ont de meilleures propriétés que les estimations directes. En outre, les modèles spatiaux au niveau du domaine proposés produisent des CV plus petits que les modèles de Fay-Herriot et de You-Chapman, particulièrement pour les domaines ayant trois domaines voisins ou plus. Nous présentons aussi une comparaison des modèles bayésiens et une analyse de l'adéquation du modèle.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111448
    Description :

    Dans l'échantillonnage à deux phases pour la stratification, l'échantillon de deuxième phase est sélectionné selon un plan stratifié basé sur l'information observée sur l'échantillon de première phase. Nous élaborons un estimateur de variance corrigé du biais fondé sur une méthode de répliques qui étend la méthode de Kim, Navarro et Fuller (2006). La méthode proposée est également applicable quand la fraction d'échantillonnage de première phase n'est pas négligeable et que le tirage de l'échantillon de deuxième phase se fait par échantillonnage de Poisson avec probabilités inégales dans chaque strate. La méthode proposée peut être étendue à l'estimation de la variance pour les estimateurs par la régression à deux phases. Les résultats d'une étude par simulation limitée sont présentés.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201000111246
    Description :

    Dans le cas de nombreux sondages, des procédures d'ajustement des poids sont utilisées pour réduire le biais de non-réponse. Ces ajustements s'appuient sur les données auxiliaires disponibles. Le présent article traite de l'estimation de la variance par la méthode du jackknife pour les estimateurs qui ont été corrigés de la non-réponse. En suivant l'approche inversée d'estimation de la variance proposée par Fay (1991), ainsi que par Shao et Steel (1999), nous étudions l'effet dû au fait de ne pas recalculer l'ajustement des poids pour la non-réponse dans chaque réplique jackknife. Nous montrons que l'estimateur de variance jackknife « simplifié » résultant a tendance à surestimer la variance réelle des estimateurs ponctuels dans le cas de plusieurs procédures d'ajustement des poids utilisées en pratique. Ces résultats théoriques sont confirmés au moyen d'une étude par simulation dans laquelle nous comparons l'estimateur de variance jackknife simplifié à l'estimateur de variance jackknife complet obtenu en recalculant l'ajustement des poids pour la non-réponse dans chaque réplique jackknife.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X201000111249
    Description :

    Dans le cas de nombreux plans de sondage, la probabilité de sélectionner un échantillon qui produira de mauvaises estimations pour des quantités connues n'est pas nulle. L'échantillonnage aléatoire stratifié permet de réduire l'ensemble de ces échantillons éventuels en fixant la taille de l'échantillon dans chaque strate. Cependant, l'obtention d'échantillons indésirables demeure possible après la stratification. L'échantillonnage réjectif permet d'éliminer les échantillons donnant de mauvais résultats en ne retenant un échantillon que si des fonctions spécifiées des estimations sont comprises entre des limites de tolérance par rapport aux valeurs connues. Les échantillons résultant sont souvent dits équilibrés sur la fonction des variables utilisées dans la méthode de rejet. Nous présentons des modifications de la méthode de rejet de Fuller (2009a) qui donnent plus de souplesse aux règles de rejet. Au moyen de simulations, nous comparons les propriétés des estimations obtenues en suivant une méthode d'échantillonnage réjectif, d'une part, et une procédure d'échantillonnage par la méthode du cube, d'autre part.

    Date de diffusion : 2010-06-29

  • Produits techniques : 11-522-X200800011010
    Description :

    L'Enquête sur l'emploi, la rémunération et les heures de travail (EERH) est une enquête mensuelle qui utilise deux sources de données : un recensement des formulaires de retenues sur la paye (PD7) (données administratives) et une enquête auprès des établissements. Le présent document est axé sur le traitement des données administratives, de la réception hebdomadaire des données de l'Agence du revenu du Canada à la production d'estimations mensuelles par les responsables de l'EERH.

    Les méthodes de contrôle et d'imputation utilisées pour traiter les données administratives ont été révisées au cours des dernières années. Les objectifs de ce remaniement étaient principalement d'améliorer la qualité des données et l'uniformité avec une autre source de données administratives (T4), qui constitue une mesure repère pour les responsables du Système de comptabilité nationale de Statistique Canada. On visait en outre à s'assurer que le nouveau processus serait plus facile à comprendre et à modifier, au besoin. Par conséquent, un nouveau module de traitement a été élaboré pour contrôler et imputer les formulaires PD7, avant l'agrégation des données au niveau mensuel.

    Le présent document comporte un aperçu des processus actuel et nouveau, y compris une description des défis auxquels nous avons fait face pendant l'élaboration. L'amélioration de la qualité est démontrée à la fois au niveau conceptuel (grâce à des exemples de formulaires PD7 et à leur traitement au moyen de l'ancien et du nouveau systèmes) et quantitativement (en comparaison avec les données T4).

    Date de diffusion : 2009-12-03

  • Articles et rapports : 12-001-X200800110614
    Description :

    L'Enquête sur la population active (EPA) réalisée au Canada permet de produire des estimations mensuelles du taux de chômage aux niveaux national et provincial. Le programme de l'EPA diffuse aussi des estimations du chômage pour des régions infraprovinciales, comme les régions métropolitaines de recensement (RMR) et les centres urbains (CU). Cependant, pour certaines de ces régions infraprovinciales, les estimations directes ne sont pas fiables, parce que la taille de l'échantillon est assez petite. Dans le contexte de l'EPA, l'estimation pour de petites régions a trait à l'estimation des taux de chômage pour des régions infraprovinciales telles que les RMR/CU à l'aide de modèles pour petits domaines. Dans le présent article, nous discutons de divers modèles, dont celui de Fay Herriot et des modèles transversaux ainsi que chronologiques. En particulier, nous proposons un modèle non linéaire intégré à effets mixtes sous un cadre hiérarchique bayésien (HB) pour l'estimation du taux de chômage d'après les données de l'EPA. Nous utilisons les données mensuelles sur les bénéficiaires de l'assurance emploi (a. e.) au niveau de la RMR ou du CU comme covariables auxiliaires dans le modèle. Nous appliquons une approche HB ainsi que la méthode d'échantillonnage de Gibbs pour obtenir les estimations des moyennes et des variances a posteriori des taux de chômage au niveau de la RMR ou du CU. Le modèle HB proposé produit des estimations fondées sur un modèle fiables si l'on s'en tient à la réduction du coefficient de variation. Nous présentons dans l'article une analyse d'ajustement du modèle et une comparaison des estimations fondées sur le modèle aux estimations directes.

    Date de diffusion : 2008-06-26

  • Produits techniques : 11-522-X200600110433
    Description :

    Le processus de création de fichiers de microdonnées à grande diffusion compte un certain nombre de composantes. L'un de ses éléments clés est la méthode novatrice MASSC mise au point par RTI International. Cependant, ce processus comporte d'autres composantes importantes, comme le traitement des variables d'identification non essentielles et des résultats extrêmes en guise de protection supplémentaire. Le contrôle de la divulgation statistique a pour but de contrer l'intrusion interne ainsi qu'externe. Les composantes du processus sont conçues en conséquence.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110397
    Description :

    En pratique, il arrive souvent que certaines données recueillies comportent une erreur de mesure. Parfois, des covariables (ou facteurs de risque) d'intérêt sont difficiles à observer avec précision en raison de l'emplacement physique ou du coût. D'autres fois, il est impossible de mesurer précisément les covariables à cause de leur nature. Dans d'autres situations, une covariable peut représenter la moyenne d'une certaine grandeur mesurable au cours du temps, et tout moyen pratique de mesurer cette grandeur comporte nécessairement une erreur de mesure. Lorsqu'on procède à des inférences statistiques dans de telles conditions, il est important de tenir compte des effets des covariables mesurées incorrectement; sinon, les résultats risques d'être incorrects, voire même trompeurs. Dans le présent article, nous discutons de plusieurs exemples d'erreur de mesure survenant dans des contextes distincts. Nous accordons une attention particulière aux données sur la survie en présence de covariables sujettes à une erreur de mesure. Nous discutons d'une méthode de simulation extrapolation pour la correction des effets de l'erreur de mesure. Enfin, nous présentons une étude par simulation.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019474
    Description :

    Les données manquantes sont une caractéristique fréquente des études longitudinales. Ces dernières années, de nombreuses études ont été consacrées à la mise au point de méthodes d'analyse des données longitudinales incomplètes. Une pratique courante est l'imputation par « report de la dernière observation » (RDO), selon laquelle les valeurs pour les réponses manquantes sont imputées en se servant des observations provenant de l'évaluation complétée la plus récente. La communication débutera par un examen de la performance de l'approche RDO, lorsque des équations d'estimation généralisées (EEG) sont employées comme méthode d'inférence.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 12-001-X20060019263
    Description :

    Dans le contexte de l'estimation pour petits domaines, des modèles régionaux, comme le modèle de Fay Herriot (Fay et Herriot, 1979), sont très souvent utilisés en vue d'obtenir de bons estimateurs fondés sur un modèle pour les petits domaines ou petites régions. Il est généralement supposé que les variances d'erreur d'échantillonnage incluses dans le modèle sont connues. Dans le présent article, nous considérons la situation où les variances d'erreur d'échantillonnage sont estimées individuellement au moyen d'estimateurs directs. Nous construisons un modèle hiérarchique bayésien (HB) complet pour les estimateurs par sondage directs et pour les estimateurs de variance de l'erreur d'échantillonnage. Nous employons la méthode d'échantillonnage de Gibbs pour obtenir les estimateurs HB pour les petites régions. L'approche HB proposée tient compte automatiquement de l'incertitude supplémentaire associée à l'estimation des variances d'erreur d'échantillonnage, particulièrement quand la taille des échantillons régionaux est très faible. Nous comparons le modèle HB proposé au modèle de Fay Herriot grâce à l'analyse de deux ensembles de données d'enquête. Nos résultats montrent que les estimateurs HB proposés donnent d'assez bons résultats comparativement aux estimations directes. Nous discutons également du problème des lois a priori sur les composantes de la variance.

    Date de diffusion : 2006-07-20

  • Produits techniques : 12-002-X20060019253
    Description :

    Avant que des résultats analytiques ne soient diffusés par les Centres de données de recherche (CDR), les analystes de ces centres doivent procéder à une analyse (ou à une vérification) des risques de divulgation. Lorsqu'ils examinent tout produit analytique, ils appliquent les lignes directrices de Statistique Canada sur le contrôle de divulgation comme moyen de sauvegarde de la confidentialité pour les répondants des enquêtes. Dans le cas d'ensembles de données comme ceux de l'Enquête auprès des peuples autochtones (EAPA), de l'Enquête sur la diversité ethnique (EDE), de l'Enquête sur la participation et les limitations d'activités (EPLA) et de l'Enquête longitudinale auprès des immigrants du Canada (ELIC), Statistique Canada a élaboré des lignes directrices complémentaires portant sur l'arrondissement des résultats analytiques pour encore améliorer cette sauvegarde. Dans le présent article, nous exposerons la raison d'être de ce surcroît de procédures applicables à ces ensembles et préciserons ce que sont les lignes directrices en matière d'arrondis. Plus important encore, nous proposerons plusieurs façons d'aider les chercheurs à se conformer aux protocoles en question avec plus d'efficacité et d'efficience.

    Date de diffusion : 2006-07-18

  • Produits techniques : 11-522-X20040018733
    Description :

    Une enquête auprès d'utilisateurs de drogues injectables exploite l'information obtenue des centres d'échange de seringues de même que des utilisateurs échantillonnés. Le cadre méthodologique permet d'en tirer divers estimés.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20040027758
    Description :

    Nous étudions l'utilisation de réseaux neuronaux bayésiens pour l'estimation en population finie. Nous proposons des estimateurs de la moyenne de population finie et de son erreur quadratique moyenne. Nous proposons aussi d'utiliser la loi t de Student pour modéliser les perturbations afin de pouvoir utiliser les observations extrêmes souvent présentes dans les données provenant d'enquêtes sociales par sondage. Les résultats numériques montrent que les réseaux neuronaux bayésiens améliorent significativement l'estimation en population finie comparativement aux méthodes fondées sur la régression linéaire.

    Date de diffusion : 2005-02-03

  • Produits techniques : 11-522-X20030017705
    Description :

    Dans ce document, on élabore une méthode itérative à équations d'estimations pondérées (IEEP) pour évaluer les effets fixes et les composantes de la variance du modèle aléatoire à l'origine en utilisant des poids d'échantillonnage.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017715
    Description :

    Ce document présente un programme que l'Australian Bureau of Statistics (ABS) a conçu pour mettre en évidence la qualité des données de l'ABS et pour sensibiliser les utilisateurs quant à l'importance d'acquérir une connaissance sur la qualité des données.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016727
    Description :

    Les données tirées du recensement sont largement utilisées pour procéder à la répartition et au ciblage des ressources aux échelons national, régional et local. Au Royaume-Uni, un recensement de la population est mené tous les 10 ans. En s'éloignant de la date du recensement, les données du recensement deviennent périmées et moins pertinentes, ce qui rend la répartition des ressources moins équitable. Dans cette étude, on analyse les différentes méthodes pour résoudre ce problème.

    Plusieurs méthodes aréolaires ont été mises au point pour produire des estimations postcensitaires, y compris la technique d'estimation préservant la structure mise au point par Purcell et Kish (1980). Cette étude porte sur la méthode de modélisation linéaire variable pour produire des estimations postcensitaires. On teste la validité de la méthode au moyen de données simulées à partir du registre de population de la Finlande et on applique la technique aux données britanniques pour produire des estimations mises à jour pour plusieurs indicateurs du recensement de 1991.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016719
    Description :

    Dans cette étude, on examine les méthodes de modélisation utilisées pour les données sur la santé publique. Les spécialistes de la santé publique manifestent un regain d'intérêt pour l'étude des effets de l'environnement sur la santé. Idéalement, les études écologiques ou contextuelles explorent ces liens au moyen de données sur la santé publique étoffées de données sur les caractéristiques environnementales à l'aide de modèles multiniveaux ou hiérarchiques. Dans ces modèles, le premier niveau correspond aux données des personnes sur la santé et le deuxième, aux données des collectivités. La plupart des données sur la santé publique proviennent d'enquêtes à plan d'échantillonnage complexe qui obligent, lors de l'analyse, à tenir compte de la mise en grappes, de la non-réponse et de la post-stratification pour obtenir des estimations représentatives de la prévalence des comportements posant un risque pour la santé.

    Cette étude est basée sur le Behavioral Risk Factor Surveillance System (BRFSS). Il s'agit d'un système américain de surveillance des facteurs de risque pour la santé selon l'État exploité par les Centers for Disease Control and Prevention en vue d'évaluer chaque année les facteurs de risque pour la santé chez plus de 200 000 adultes. Les données du BRFSS sont maintenant produites à l'échelle de la région métropolitaine statistique (MSA pour metropolitan statistical area) et fournissent des données de qualité sur la santé pour les études des effets de l'environnement. Les exigences conjuguées du plan d'échantillonnage et des analyses à plusieurs niveaux compliquent encore davantage les analyses à l'échelle de la MSA combinant les données sur la santé et sur l'environnement.

    On compare trois méthodes de modélisation dans le cadre d'une étude sur l'activité physique et certains facteurs environnementaux à l'aide de données du BRFSS de 2000. Chaque méthode décrite ici est un moyen valide d'analyser des données d'enquête à plan d'échantillonnage complexe complétées de données environnementales, quoique chacune tienne compte de façon différente du plan d'échantillonnage et de la structure multiniveau des données. Ces méthodes conviennent donc à l'étude de questions légèrement différentes.

    Date de diffusion : 2004-09-13

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (23)

Analyses (23) (23 of 23 results)

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114542
    Description :

    La méthode du maximum de vraisemblance restreint (méthode REML pour restricted maximum likelihood) est généralement utilisée pour estimer la variance de l’effet aléatoire de domaine sous le modèle de Fay-Herriot (Fay et Herriot 1979) afin d’obtenir le meilleur estimateur linéaire sans biais empirique (estimateur EBLUP pour empirical best linear unbiased predictor) d’une moyenne de petit domaine. Lorsque l’estimation REML correspond à zéro, le poids de l’estimateur d’échantillon direct est zéro et l’EBLUP devient un estimateur synthétique, ce qui est rarement souhaitable. Pour résoudre le problème, Li et Lahiri (2011) et Yoshimori et Lahiri (2014) ont élaboré des estimateurs de variance constante par la méthode du maximum de vraisemblance ajusté (méthode ADM pour adjusted maximum likelihood), qui produisent toujours des estimations de variance positives. Certains des estimateurs ADM produisent toujours des estimations positives, mais génèrent un biais élevé, ce qui influe sur l’estimation de l’erreur quadratique moyenne (EQM) de l’estimateur EBLUP. Nous proposons d’utiliser un estimateur de variance MIX, défini comme étant une combinaison des méthodes REML et ADM. Nous montrons que cet estimateur est sans biais jusqu’à l’ordre deux et qu’il produit toujours une estimation de variance positive. Nous proposons également un estimateur de l’EQM sous la méthode MIX et montrons au moyen d’une simulation fondée sur un modèle que, dans de nombreuses situations, cet estimateur donne de meilleurs résultats que d’autres estimateurs de l’EQM par « linéarisation de Taylor » récemment proposés.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201501214295
    Description :

    À l’aide du modèle de microsimulation du cancer du sein mis au point par le Cancer Intervention and Surveillance Monitoring Network de l’Université du Wisconsin adapté au contexte canadien, on a évalué 11 stratégies de dépistage par mammographie sur le plan des coûts et des années de vie ajustées en fonction de la qualité. Ces stratégies, qui s’adressent à la population générale, diffèrent selon l’âge au début et à la fin du dépistage ainsi que la fréquence des examens de dépistage. Des rapports coût/efficacité différentiels sont présentés, et des analyses de sensibilité servent à évaluer la robustesse des conclusions du modèle.

    Date de diffusion : 2015-12-16

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201300111830
    Description :

    Nous considérons deux méthodes distinctes d'autocalage pour l'estimation des moyennes de petit domaine fondée sur le modèle au niveau du domaine de Fay-Herriot (FH), à savoir la méthode de You et Rao (2002) appliquée au modèle FH et la méthode de Wang, Fuller et Qu (2008) basée sur des modèles augmentés. Nous établissons un estimateur de l'erreur quadratique moyenne de prédiction (EQMP) de l'estimateur de You-Rao (YR) d'une moyenne de petit domaine qui, sous le modèle vrai, est correct jusqu'aux termes de deuxième ordre. Nous présentons les résultats d'une étude en simulation du biais relatif de l'estimateur de l'EQMP de l'estimateur YR et de l'estimateur de l'EQMP de l'estimateur de Wang, Fuller et Qu (WFQ) obtenu sous un modèle augmenté. Nous étudions aussi l'EQMP et les estimateurs de l'EQMP des estimateurs YR et WFQ obtenus sous un modèle mal spécifié.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201100111445
    Description :

    Dans le présent article, nous étudions l'estimation sur petits domaines en nous servant de modèles au niveau du domaine. Nous considérons d'abord le modèle de Fay-Herriot (Fay et Herriot 1979) pour le cas d'une variance d'échantillonnage connue lissée et le modèle de You-Chapman (You et Chapman 2006) pour le cas de la modélisation de la variance d'échantillonnage. Ensuite, nous considérons des modèles spatiaux hiérarchiques bayésiens (HB) qui étendent les modèles de Fay-Herriot et de You-Chapman en tenant compte à la fois de l'hétérogénéité géographiquement non structurée et des effets de corrélation spatiale entre les domaines pour le lissage local. Les modèles proposés sont mis en 'uvre en utilisant la méthode d'échantillonnage de Gibbs pour une inférence entièrement bayésienne. Nous appliquons les modèles proposés à l'analyse de données d'enquête sur la santé et comparons les estimations fondées sur le modèle HB aux estimations directes fondées sur le plan. Nos résultats montrent que les estimations fondées sur le modèle HB ont de meilleures propriétés que les estimations directes. En outre, les modèles spatiaux au niveau du domaine proposés produisent des CV plus petits que les modèles de Fay-Herriot et de You-Chapman, particulièrement pour les domaines ayant trois domaines voisins ou plus. Nous présentons aussi une comparaison des modèles bayésiens et une analyse de l'adéquation du modèle.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111448
    Description :

    Dans l'échantillonnage à deux phases pour la stratification, l'échantillon de deuxième phase est sélectionné selon un plan stratifié basé sur l'information observée sur l'échantillon de première phase. Nous élaborons un estimateur de variance corrigé du biais fondé sur une méthode de répliques qui étend la méthode de Kim, Navarro et Fuller (2006). La méthode proposée est également applicable quand la fraction d'échantillonnage de première phase n'est pas négligeable et que le tirage de l'échantillon de deuxième phase se fait par échantillonnage de Poisson avec probabilités inégales dans chaque strate. La méthode proposée peut être étendue à l'estimation de la variance pour les estimateurs par la régression à deux phases. Les résultats d'une étude par simulation limitée sont présentés.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201000111246
    Description :

    Dans le cas de nombreux sondages, des procédures d'ajustement des poids sont utilisées pour réduire le biais de non-réponse. Ces ajustements s'appuient sur les données auxiliaires disponibles. Le présent article traite de l'estimation de la variance par la méthode du jackknife pour les estimateurs qui ont été corrigés de la non-réponse. En suivant l'approche inversée d'estimation de la variance proposée par Fay (1991), ainsi que par Shao et Steel (1999), nous étudions l'effet dû au fait de ne pas recalculer l'ajustement des poids pour la non-réponse dans chaque réplique jackknife. Nous montrons que l'estimateur de variance jackknife « simplifié » résultant a tendance à surestimer la variance réelle des estimateurs ponctuels dans le cas de plusieurs procédures d'ajustement des poids utilisées en pratique. Ces résultats théoriques sont confirmés au moyen d'une étude par simulation dans laquelle nous comparons l'estimateur de variance jackknife simplifié à l'estimateur de variance jackknife complet obtenu en recalculant l'ajustement des poids pour la non-réponse dans chaque réplique jackknife.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X201000111249
    Description :

    Dans le cas de nombreux plans de sondage, la probabilité de sélectionner un échantillon qui produira de mauvaises estimations pour des quantités connues n'est pas nulle. L'échantillonnage aléatoire stratifié permet de réduire l'ensemble de ces échantillons éventuels en fixant la taille de l'échantillon dans chaque strate. Cependant, l'obtention d'échantillons indésirables demeure possible après la stratification. L'échantillonnage réjectif permet d'éliminer les échantillons donnant de mauvais résultats en ne retenant un échantillon que si des fonctions spécifiées des estimations sont comprises entre des limites de tolérance par rapport aux valeurs connues. Les échantillons résultant sont souvent dits équilibrés sur la fonction des variables utilisées dans la méthode de rejet. Nous présentons des modifications de la méthode de rejet de Fuller (2009a) qui donnent plus de souplesse aux règles de rejet. Au moyen de simulations, nous comparons les propriétés des estimations obtenues en suivant une méthode d'échantillonnage réjectif, d'une part, et une procédure d'échantillonnage par la méthode du cube, d'autre part.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200800110614
    Description :

    L'Enquête sur la population active (EPA) réalisée au Canada permet de produire des estimations mensuelles du taux de chômage aux niveaux national et provincial. Le programme de l'EPA diffuse aussi des estimations du chômage pour des régions infraprovinciales, comme les régions métropolitaines de recensement (RMR) et les centres urbains (CU). Cependant, pour certaines de ces régions infraprovinciales, les estimations directes ne sont pas fiables, parce que la taille de l'échantillon est assez petite. Dans le contexte de l'EPA, l'estimation pour de petites régions a trait à l'estimation des taux de chômage pour des régions infraprovinciales telles que les RMR/CU à l'aide de modèles pour petits domaines. Dans le présent article, nous discutons de divers modèles, dont celui de Fay Herriot et des modèles transversaux ainsi que chronologiques. En particulier, nous proposons un modèle non linéaire intégré à effets mixtes sous un cadre hiérarchique bayésien (HB) pour l'estimation du taux de chômage d'après les données de l'EPA. Nous utilisons les données mensuelles sur les bénéficiaires de l'assurance emploi (a. e.) au niveau de la RMR ou du CU comme covariables auxiliaires dans le modèle. Nous appliquons une approche HB ainsi que la méthode d'échantillonnage de Gibbs pour obtenir les estimations des moyennes et des variances a posteriori des taux de chômage au niveau de la RMR ou du CU. Le modèle HB proposé produit des estimations fondées sur un modèle fiables si l'on s'en tient à la réduction du coefficient de variation. Nous présentons dans l'article une analyse d'ajustement du modèle et une comparaison des estimations fondées sur le modèle aux estimations directes.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 12-001-X20060019263
    Description :

    Dans le contexte de l'estimation pour petits domaines, des modèles régionaux, comme le modèle de Fay Herriot (Fay et Herriot, 1979), sont très souvent utilisés en vue d'obtenir de bons estimateurs fondés sur un modèle pour les petits domaines ou petites régions. Il est généralement supposé que les variances d'erreur d'échantillonnage incluses dans le modèle sont connues. Dans le présent article, nous considérons la situation où les variances d'erreur d'échantillonnage sont estimées individuellement au moyen d'estimateurs directs. Nous construisons un modèle hiérarchique bayésien (HB) complet pour les estimateurs par sondage directs et pour les estimateurs de variance de l'erreur d'échantillonnage. Nous employons la méthode d'échantillonnage de Gibbs pour obtenir les estimateurs HB pour les petites régions. L'approche HB proposée tient compte automatiquement de l'incertitude supplémentaire associée à l'estimation des variances d'erreur d'échantillonnage, particulièrement quand la taille des échantillons régionaux est très faible. Nous comparons le modèle HB proposé au modèle de Fay Herriot grâce à l'analyse de deux ensembles de données d'enquête. Nos résultats montrent que les estimateurs HB proposés donnent d'assez bons résultats comparativement aux estimations directes. Nous discutons également du problème des lois a priori sur les composantes de la variance.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20040027758
    Description :

    Nous étudions l'utilisation de réseaux neuronaux bayésiens pour l'estimation en population finie. Nous proposons des estimateurs de la moyenne de population finie et de son erreur quadratique moyenne. Nous proposons aussi d'utiliser la loi t de Student pour modéliser les perturbations afin de pouvoir utiliser les observations extrêmes souvent présentes dans les données provenant d'enquêtes sociales par sondage. Les résultats numériques montrent que les réseaux neuronaux bayésiens améliorent significativement l'estimation en population finie comparativement aux méthodes fondées sur la régression linéaire.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X20030016602
    Description :

    L'Enquête sur la population active (EPA) du Canada permet de produire des estimations mensuelles directes du taux de chômage aux échelons national et provincial. Le programme de l'EPA diffuse aussi des estimations du chômage pour des régions infraprovinciales, comme les régions métropolitaines de recensement (RMR) et les agglomérations de recensement (AR). Cependant, pour certaines de ces régions infraprovinciales, les estimations directes ne sont pas très fiables, parce que la taille de l'échantillon est assez petite. On utilise donc un modèle transversal et chronologique permettant d'emprunter de l'information recueillie pour diverses régions et périodes de référence afin de produire des estimations du taux de chômage fondées sur un modèle au niveau de la RMR ou de l'AR. Ce modèle est une généralisation d'un modèle transversal d'usage très répandu pour l'estimation régionale qui inclut un modèle de marche aléatoire ou modèle AR (1) pour la composante temporelle aléatoire. On utilise les données mensuelles sur les bénéficiaires de l'assurance-emploi (a.-e.) au niveau de la RMR ou de l'AR comme covariables auxiliaires dans le modèle. On suit une méthode hiérarchique bayésienne (HB) et on utilise l'échantillonneur de Gibbs pour générer des échantillons à partir de la loi conjointe a posteriori. On obtient les estimateurs Rao-Blackwellisés pour les moyennes et les variances a posteriori des taux de chômage au niveau de la RMR/AR. La méthode HB lisse les estimations d'enquête et réduit considérablement les erreurs-types. On étudie aussi l'ajustement du modèle bayésien en nous fondant sur les lois prédictives a posteriori.

    Date de diffusion : 2003-07-31

  • Articles et rapports : 12-001-X20000025537
    Description :

    On examine les modèles standard à plusieurs niveaux comportant des paramètres de régression aléatoires pour les estimations régionales. Les auteurs élargissent également les modèles en admettant une variance inégale de l'erreur ou en supposant des modèles à effets aléatoires tant pour les paramètres de régression que pour la variance de l'erreur.

    Date de diffusion : 2001-02-28

  • Articles et rapports : 12-001-X19980013907
    Description :

    Les amateurs évaluent la méthode d'estimation par les moindres carrés pour les enquêtes répétitives. Ils proposent plusieurs estimateurs pour le niveau courant, le changement de niveau et le niveau moyen applicables à des périodes multiples. Suit la présentation de l'estimateur de régression récursif, méthode récursive permettant de calculer le meilleur estimateur linéaire sans biais d'après l'ensemble des périodes couvertes par l'enquête. On constate qu'il y a convergence de la régression récursive et que le nombre de dimensions de l'estimation est plafonné lorsque le nombre de périodes tend vers l'infini. La méthode récursive apporte une solution au problème de la complexité des calculs que suscite l'estimation non biaisée de la variance minimale dans les enquêtes répétitives. Les auteurs recourent aux données de la U.S. Current Population Survey pour comparer les différents estimateurs, avec deux genres de plan d'échantillonnage: le plan à renouvellement intermittent de la Current Population Survey et deux plans à renouvellement continu.

    Date de diffusion : 1998-07-31

  • Articles et rapports : 12-001-X19980013908
    Description :

    L'analyse qui suit porte sur le problème qui consiste à estimer la variance de l'estimateur général de régresison linéaire. On a montré que l'approche de calage à bas niveau adoptée par Sändal (1996) est moins ou aussi efficace que celle d'une catégorie d'estimateurs avancée par Deng et Wu (1987). On a aussi proposé une approche par calage à un niveau plus élevé. Les auteurs montrent que cette dernière constitue une amélioration par rapport à l'originale. Plusieurs estimateurs correspondent à des cas particuliers de la nouvelle approche. On a notamment émis l'idée d'obtenir une estimation non négative de la variance de l'estimateur GREG. Les résultats ont été appliqués à un plan d'échantillonnage aléatoire stratifié. On a aussi entrepris une étude empirique afin de jauger l'efficacité des stratégies envisagées. Le logiciel de statistique SGE bien connu, élaboré par Statistique Canada, peut être perfectionné en vue de fournir une estimation plus précise de la variance de l'estimateur GREG par calage à niveau élevé, dans certaines circonstances examinées plus bas.

    Date de diffusion : 1998-07-31

  • Articles et rapports : 12-001-X19970013104
    Description :

    Les mesures de l'inégalité et de la polarisation du revenu sont essentielles à l'étude de nombreux dossiers économiques et sociaux. La plupart de ces mesures étant des fonctions non linéaires de la fonction de distribution et (ou) des qualtiles, on ne peut exprimer leur variance au moyen d'une formule simple et on doit recourir aux méthodes à l'estimation de la variance de six mesures particulières de l'inégalité et de la polarisation du revenu et on étudie empiriquement leur performance grâce à une étude en simulation fondée sur l'Enquête canadienne sur les finances des consommateurs. Les résultats indiquent que, pour les mesures étudiées, la méthode bootstrap et celle des équations d'estimation donnent de nettement meilleurs résultats que les autres.

    Date de diffusion : 1997-08-18

  • Articles et rapports : 12-001-X19970013103
    Description :

    Les auteurs décrivent certaines méthodes diagnostiques simples utilisées pour guider la construction de cellules de correction pour la non-réponse. S'inspirant des travaux de Little (1986), ils étudient la construction de cellules de correction par regroupement d'unités d'échantillonnage selon la probabilité estimée de réponse ou selon la réponse estimée aux questions de l'enquête. Ils examinent plus particulièrement l'évaluation de la sensibilité des estimations corrigées de la moyenne à la variation de k, c'est-à-dire le nombre de cellules utilisées, le dépistage de cellules particulières qui nécessitent une mise au point supplémentaire, la comparaison des estimations corrigées et non corrigées de la moyenne et la comparaison des estimations obtenues au moyen des cellules fondées sur la probabilité estimée de réponse, d'une part, et sur la réponse estimée aux questions, d'autre part. Les auteurs justifient les méthodes proposées et les illustrent par une application à l'estimation du revenu moyen des unités de la U.S. Consumer Expenditure Survey.

    Date de diffusion : 1997-08-18

  • Articles et rapports : 12-001-X199600114388
    Description :

    Les auteurs examinent l’estimation de la variance d’une totalisation issue d’un échantillonnage stratifié à degrés multiples pour l’estimateur de stratification a posteriori et l’estimateur de régression généralisée. En linéarisant l’estimateur de variance jackknife, on obtient un nouvel estimateur, différent de celui obtenu par la méthode de linéarisation ordinaire. En matière de calcul, cet estimateur est plus simple à utiliser que l’estimateur de variance jackknife. Pourtant, il donne des valeurs qui s’approchent de celles de la méthode du jackknife. Les auteurs étudient les propriétés de l’estimateur de variance jackknife linéarisé, de l’estimateur de variance linéarisé ordinaire et de l’estimateur de variance jackknife dans le cadre d’une simulation. D’après l’écart entre le total estimatif des variables auxiliaires et les totaux connus de la population, les trois estimateurs donnent de bons résultats, conditionnellement ou non. Un estimateur de variance jackknife reposant sur une nouvelle pondération incorrecte a donné de piètres résultats, signe qu’il est important de procéder de façon adéquate à une nouvelle pondération quand on recourt à la méthode du jackknife.

    Date de diffusion : 1996-06-14

  • Articles et rapports : 12-001-X199200214486
    Description :

    Les méthodes de rééchantillonnage permettant d’obtenir, par inférence, des résultats à partir de données d’enquêtes complexes incluent la méthode du jackknife, la méthode BRR (« balanced repeated replication ») et la méthode d’auto-amorçage. La présente communication passe en revue certains travaux récents relatifs à ces méthodes, pour l’estimation des erreurs-types et des intervalles de confiance. Certains résultats empiriques relatifs à des statistiques non lisses sont également présentés.

    Date de diffusion : 1992-12-15

  • Articles et rapports : 12-001-X199200114492
    Description :

    Nous considérons dans cet article le scénario d’une enquête par sondage ayant les deux objectifs principaux suivants : 1) l’identification, pour des études de suivi ultérieures, de n^* -sujets dans chacun des H sous-domaines et 2) l’estimation, au moment où on en est dans le déroulement de l’enquête, du niveau d’un caractère quelconque dans chacun de ces sous-domaines. Pour cette enquête, le plan de sondage doit se limiter à un échantillonnage par grappes à un seul degré, ce qui constitue une contrainte supplémentaire. Levy et coll. 1989, ont proposé une variante de l’échantillonnage par grappes à un seul degré, appelée échantillonnage par grappes à un seul degré étagé (ÉGSDÉ), comme moyen économique d’identifier n^* -sujets dans chacun des sous-domaines. Dans cet article-ci, nous étudions les propriétés statistiques de l’ÉGSDÉ pour l’estimation transversale du niveau d’un caractère dans la population. En particulier, la fiabilité d’estimations obtenues, à un coût donné, à l’aide de l’ÉGSDÉ est comparée à celle des estimations obtenues au même coût à l’aide de l’échantillonnage par grappes à un seul degré ordinaire (ÉGSDO). Nous avons été motivés par les problèmes rencontrés au cours de la conception statistique de l’Enquête de Shanghai sur la maladie d’Alzheimer et la démence (ESMAD), une étude épidémiologique de la prévalence et de l’incidence de la maladie d’Alzheimer et de la démence.

    Date de diffusion : 1992-06-15

Références (14)

Références (14) (14 of 14 results)

  • Produits techniques : 11-522-X201300014271
    Description :

    Ce document vise à présenter l'utilisation des dossiers administratifs dans le U.S. Census pour les logements collectifs. Le dénombrement des logements collectifs signifie la collecte de données dans des endroits difficiles d'accès, comme les établissements correctionnels, les établissements de soins infirmiers spécialisés et les casernes militaires. Nous examinons les avantages et les contraites de l'utilisation de diverses sources de dossier administratifs pour l'élaboration de la base de sondage des logements collectifs, en vue d'améliorer la couverture. Le présent document est un document d'accompagnement de la communication de Chun et Gan (2014) portant sur les utilisations possibles des dossiers administratifs dans le recensement des logements collectifs.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800011010
    Description :

    L'Enquête sur l'emploi, la rémunération et les heures de travail (EERH) est une enquête mensuelle qui utilise deux sources de données : un recensement des formulaires de retenues sur la paye (PD7) (données administratives) et une enquête auprès des établissements. Le présent document est axé sur le traitement des données administratives, de la réception hebdomadaire des données de l'Agence du revenu du Canada à la production d'estimations mensuelles par les responsables de l'EERH.

    Les méthodes de contrôle et d'imputation utilisées pour traiter les données administratives ont été révisées au cours des dernières années. Les objectifs de ce remaniement étaient principalement d'améliorer la qualité des données et l'uniformité avec une autre source de données administratives (T4), qui constitue une mesure repère pour les responsables du Système de comptabilité nationale de Statistique Canada. On visait en outre à s'assurer que le nouveau processus serait plus facile à comprendre et à modifier, au besoin. Par conséquent, un nouveau module de traitement a été élaboré pour contrôler et imputer les formulaires PD7, avant l'agrégation des données au niveau mensuel.

    Le présent document comporte un aperçu des processus actuel et nouveau, y compris une description des défis auxquels nous avons fait face pendant l'élaboration. L'amélioration de la qualité est démontrée à la fois au niveau conceptuel (grâce à des exemples de formulaires PD7 et à leur traitement au moyen de l'ancien et du nouveau systèmes) et quantitativement (en comparaison avec les données T4).

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200600110433
    Description :

    Le processus de création de fichiers de microdonnées à grande diffusion compte un certain nombre de composantes. L'un de ses éléments clés est la méthode novatrice MASSC mise au point par RTI International. Cependant, ce processus comporte d'autres composantes importantes, comme le traitement des variables d'identification non essentielles et des résultats extrêmes en guise de protection supplémentaire. Le contrôle de la divulgation statistique a pour but de contrer l'intrusion interne ainsi qu'externe. Les composantes du processus sont conçues en conséquence.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110397
    Description :

    En pratique, il arrive souvent que certaines données recueillies comportent une erreur de mesure. Parfois, des covariables (ou facteurs de risque) d'intérêt sont difficiles à observer avec précision en raison de l'emplacement physique ou du coût. D'autres fois, il est impossible de mesurer précisément les covariables à cause de leur nature. Dans d'autres situations, une covariable peut représenter la moyenne d'une certaine grandeur mesurable au cours du temps, et tout moyen pratique de mesurer cette grandeur comporte nécessairement une erreur de mesure. Lorsqu'on procède à des inférences statistiques dans de telles conditions, il est important de tenir compte des effets des covariables mesurées incorrectement; sinon, les résultats risques d'être incorrects, voire même trompeurs. Dans le présent article, nous discutons de plusieurs exemples d'erreur de mesure survenant dans des contextes distincts. Nous accordons une attention particulière aux données sur la survie en présence de covariables sujettes à une erreur de mesure. Nous discutons d'une méthode de simulation extrapolation pour la correction des effets de l'erreur de mesure. Enfin, nous présentons une étude par simulation.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019474
    Description :

    Les données manquantes sont une caractéristique fréquente des études longitudinales. Ces dernières années, de nombreuses études ont été consacrées à la mise au point de méthodes d'analyse des données longitudinales incomplètes. Une pratique courante est l'imputation par « report de la dernière observation » (RDO), selon laquelle les valeurs pour les réponses manquantes sont imputées en se servant des observations provenant de l'évaluation complétée la plus récente. La communication débutera par un examen de la performance de l'approche RDO, lorsque des équations d'estimation généralisées (EEG) sont employées comme méthode d'inférence.

    Date de diffusion : 2007-03-02

  • Produits techniques : 12-002-X20060019253
    Description :

    Avant que des résultats analytiques ne soient diffusés par les Centres de données de recherche (CDR), les analystes de ces centres doivent procéder à une analyse (ou à une vérification) des risques de divulgation. Lorsqu'ils examinent tout produit analytique, ils appliquent les lignes directrices de Statistique Canada sur le contrôle de divulgation comme moyen de sauvegarde de la confidentialité pour les répondants des enquêtes. Dans le cas d'ensembles de données comme ceux de l'Enquête auprès des peuples autochtones (EAPA), de l'Enquête sur la diversité ethnique (EDE), de l'Enquête sur la participation et les limitations d'activités (EPLA) et de l'Enquête longitudinale auprès des immigrants du Canada (ELIC), Statistique Canada a élaboré des lignes directrices complémentaires portant sur l'arrondissement des résultats analytiques pour encore améliorer cette sauvegarde. Dans le présent article, nous exposerons la raison d'être de ce surcroît de procédures applicables à ces ensembles et préciserons ce que sont les lignes directrices en matière d'arrondis. Plus important encore, nous proposerons plusieurs façons d'aider les chercheurs à se conformer aux protocoles en question avec plus d'efficacité et d'efficience.

    Date de diffusion : 2006-07-18

  • Produits techniques : 11-522-X20040018733
    Description :

    Une enquête auprès d'utilisateurs de drogues injectables exploite l'information obtenue des centres d'échange de seringues de même que des utilisateurs échantillonnés. Le cadre méthodologique permet d'en tirer divers estimés.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20030017705
    Description :

    Dans ce document, on élabore une méthode itérative à équations d'estimations pondérées (IEEP) pour évaluer les effets fixes et les composantes de la variance du modèle aléatoire à l'origine en utilisant des poids d'échantillonnage.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017715
    Description :

    Ce document présente un programme que l'Australian Bureau of Statistics (ABS) a conçu pour mettre en évidence la qualité des données de l'ABS et pour sensibiliser les utilisateurs quant à l'importance d'acquérir une connaissance sur la qualité des données.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016727
    Description :

    Les données tirées du recensement sont largement utilisées pour procéder à la répartition et au ciblage des ressources aux échelons national, régional et local. Au Royaume-Uni, un recensement de la population est mené tous les 10 ans. En s'éloignant de la date du recensement, les données du recensement deviennent périmées et moins pertinentes, ce qui rend la répartition des ressources moins équitable. Dans cette étude, on analyse les différentes méthodes pour résoudre ce problème.

    Plusieurs méthodes aréolaires ont été mises au point pour produire des estimations postcensitaires, y compris la technique d'estimation préservant la structure mise au point par Purcell et Kish (1980). Cette étude porte sur la méthode de modélisation linéaire variable pour produire des estimations postcensitaires. On teste la validité de la méthode au moyen de données simulées à partir du registre de population de la Finlande et on applique la technique aux données britanniques pour produire des estimations mises à jour pour plusieurs indicateurs du recensement de 1991.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016719
    Description :

    Dans cette étude, on examine les méthodes de modélisation utilisées pour les données sur la santé publique. Les spécialistes de la santé publique manifestent un regain d'intérêt pour l'étude des effets de l'environnement sur la santé. Idéalement, les études écologiques ou contextuelles explorent ces liens au moyen de données sur la santé publique étoffées de données sur les caractéristiques environnementales à l'aide de modèles multiniveaux ou hiérarchiques. Dans ces modèles, le premier niveau correspond aux données des personnes sur la santé et le deuxième, aux données des collectivités. La plupart des données sur la santé publique proviennent d'enquêtes à plan d'échantillonnage complexe qui obligent, lors de l'analyse, à tenir compte de la mise en grappes, de la non-réponse et de la post-stratification pour obtenir des estimations représentatives de la prévalence des comportements posant un risque pour la santé.

    Cette étude est basée sur le Behavioral Risk Factor Surveillance System (BRFSS). Il s'agit d'un système américain de surveillance des facteurs de risque pour la santé selon l'État exploité par les Centers for Disease Control and Prevention en vue d'évaluer chaque année les facteurs de risque pour la santé chez plus de 200 000 adultes. Les données du BRFSS sont maintenant produites à l'échelle de la région métropolitaine statistique (MSA pour metropolitan statistical area) et fournissent des données de qualité sur la santé pour les études des effets de l'environnement. Les exigences conjuguées du plan d'échantillonnage et des analyses à plusieurs niveaux compliquent encore davantage les analyses à l'échelle de la MSA combinant les données sur la santé et sur l'environnement.

    On compare trois méthodes de modélisation dans le cadre d'une étude sur l'activité physique et certains facteurs environnementaux à l'aide de données du BRFSS de 2000. Chaque méthode décrite ici est un moyen valide d'analyser des données d'enquête à plan d'échantillonnage complexe complétées de données environnementales, quoique chacune tienne compte de façon différente du plan d'échantillonnage et de la structure multiniveau des données. Ces méthodes conviennent donc à l'étude de questions légèrement différentes.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016717
    Description :

    Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X19990015640
    Description :

    Les auteurs décrivent comment SN se prépare à entrer dans l'ère nouvelle de la production de statistiques déclenchée par les progès technologiques. Le décloisonnement du traitement des données est une caractéristique fondamentale du virage vers cette ère nouvelle. Les auteurs expliquent comment les nouveaux outils techniques et méthodologiques influenceront les processus et leur organisation. Ils insistent tout spécialement sur la cohérence du contenu des statistiques et de leur présentation aux utilisateurs qui est l'un des avantages les plus importants qu'offrent ces nouveaux outils, mais aussi l'un des plus grands défis à relever.

    Date de diffusion : 2000-03-02

  • Produits techniques : 11-522-X19980015016
    Description :

    Des modèles d'ajustement des réponses binaires longitudinales sont explorés au moyen d'une étude par panel réalisée sur les intentions de vote. Un modèle logistique à plusieurs niveaux pour mesurer types répétés se révèle inapproprié en raison de la présence d'une proportion substantielle de répondants qui donnent une réponse constante au fil du temps. Un modèle de réponses binaires multidimensionnel se révèle mieux adapté aux données.

    Date de diffusion : 1999-10-22

Date de modification :