Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (28)

Tout (28) (25 of 28 results)

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20

  • Produits techniques : 11-522-X201700014741
    Description :

    Le mandat de Statistique Canada comprend la production de données statistiques en vue de faire la lumière sur les questions d’actualité touchant les entreprises. Le couplage des enregistrements de données d’entreprises est un aspect important de l’élaboration, de la production, de l’évaluation et de l’analyse de ces données statistiques. Comme le couplage d’enregistrements peut faire intrusion dans la vie privée, Statistique Canada n’y recourt que si l’intérêt public est manifeste et l’emporte sur les inconvénients de l’intrusion. Le couplage d’enregistrements connaît un renouveau déclenché par un usage plus important de données administratives par un grand nombre de programmes statistiques. Le couplage d’enregistrements de données d’entreprises pose de nombreux défis. Par exemple, plusieurs fichiers administratifs ne contiennent pas d’identificateurs communs, les données sont consignées dans des formats non normalisés, certaines données contiennent des erreurs typographiques, les fichiers de données administratives sont habituellement de grande taille, et enfin, l’évaluation de multiples paires d’enregistrements rend les comparaisons absolues difficiles, voire parfois impossibles. Étant donné l’importance et les défis du couplage d’enregistrements, Statistique Canada a élaboré une norme en vue d’aider les utilisateurs à optimiser leur processus de couplage d’enregistrements de données d’entreprises. Ainsi, ce processus comprend l’exploitation d’une stratégie de groupement des enregistrements qui réduit le nombre de paires d’enregistrements à comparer et à apparier, l’utilisation d’un logiciel interne de Statistique Canada pour procéder à des couplages déterministes et probabilistes, et la création de champs standardisés pour le nom et l’adresse des entreprises dans le Registre des entreprises de Statistique Canada. Le présent article donne un aperçu de la méthode de couplage d’enregistrements de données d’entreprises et examine divers projets économiques qui font appel au couplage d’enregistrements à Statistique Canada, notamment dans les domaines des Comptes nationaux, du commerce international, de l’agriculture et du Registre des entreprises.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201400214118
    Description :

    L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014266
    Description :

    L’utilisation de moniteurs et l’autodéclaration sont deux méthodes de mesure de l’énergie dépensée durant l’activité physique, la variance de l’erreur étant habituellement beaucoup plus faible dans le cas des moniteurs que dans celui de l’autodéclaration. La Physical Activity Measurement Survey a été conçue pour comparer les deux procédures en utilisant des observations répétées sur une même personne. Ces observations répétées permettent de calibrer la mesure par autodéclaration sur la mesure par moniteur, ce qui rend possible l’estimation des composantes des variances des erreurs de mesure. Les estimations des composantes de la variance de l’erreur de mesure de la dépense d’énergie selon le moniteur et selon l’autodéclaration sont présentées pour les femmes qui ont participé à la Physical Activity Measurement Survey.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201301011873
    Description :

    On a élaboré un modèle de simulation informatique de l'activité physique pour la population adulte canadienne à partir des données longitudinales de l'Enquête nationale sur la santé de la population et des données transversales de l'Enquête sur la santé dans les collectivités canadiennes. Ce modèle est basé sur la plateforme du Modèle de santé de la population (POHEM), élaboré par Statistique Canada. Le présent article donne un aperçu du POHEM et une description des ajouts qui y ont été faits pour créer le module de l'activité physique (POHEM-PA). Ces ajouts comprennent l'évolution du niveau dMactivité physique dans le temps et la relation entre les niveaux d'activité physique et l'espérance de vie ajustée sur la santé, l'espérance de vie et l'apparition de certains problèmes de santé chroniques. Des estimations tirées de projections obtenues par simulation sont comparées avec des données d'enquête représentatives à l'échelle nationale, fournissant ainsi une indication de la validité du POHEM-PA.

    Date de diffusion : 2013-10-16

  • Articles et rapports : 82-003-X201200111633
    Description :

    Le présent document explique la méthode servant à créer les géozones, qui représentent des seuils de caractéristiques de population fondés sur la région géographique, à partir des données du recensement, et qui peuvent servir à l'analyse des différences sociales ou économiques au chapitre de la santé et de l'utilisation des services de santé.

    Date de diffusion : 2012-03-21

  • Articles et rapports : 12-001-X201100211610
    Description :

    Dans cet article, l'auteur présente une discussion sur chacun des trois articles de la compilation spéciale du US Census Bureau.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 82-003-X201100211437
    Description :

    La présente étude vise principalement à examiner la cohérence interne des versions française et anglaise de l'échelle de soutien social de l'Étude des issues médicales pour un échantillon d'adultes d'un certain âge. En deuxième lieu, elle sert à effectuer une analyse factorielle confirmatoire afin de permettre une évaluation de la structure factorielle de chacune des versions. Enfin, elle a pour but de déterminer si les items de l'échelle s'appliquent uniformément aux participants francophones et aux participants anglophones.

    Date de diffusion : 2011-05-18

  • Articles et rapports : 82-003-X201100111404
    Description :

    La présente étude vise à évaluer trois échelles de comportement parental déclaré par l'enfant (nurturance, rejet et surveillance) utilisées dans l'Enquête nationale longitudinale sur les enfants et les jeunes.

    Date de diffusion : 2011-02-16

  • Articles et rapports : 12-001-X200900211039
    Description :

    La pondération par la propension à répondre est une méthode de rajustement pour tenir compte de la non-réponse totale dans les enquêtes. Une forme de mise en oeuvre de cette méthode consiste à diviser les poids d'échantillonnage par les estimations de la probabilité que les unités échantillonnées répondent à l'enquête. Habituellement, ces estimations sont obtenues par ajustement de modèles paramétriques, tels qu'une régression logistique. Les estimateurs corrigés résultants peuvent devenir biaisés si les modèles paramétriques sont spécifiés incorrectement. Afin d'éviter les erreurs de spécification du modèle, nous considérons l'estimation non paramétrique des probabilités de réponse par la régression par polynômes locaux. Nous étudions les propriétés asymptotiques de l'estimateur résultant sous quasi randomisation. Nous évaluons en pratique le comportement de la méthode proposée de correction de la non-réponse en nous servant de données de la NHANES.

    Date de diffusion : 2009-12-23

  • Produits techniques : 11-522-X200800010968
    Description :

    Statistique Canada a lancé un programme destiné à intensifier et à améliorer l'utilisation de la technologie d'imagerie pour le traitement des questionnaires d'enquête imprimés. Le but est d'en faire une méthode efficace, fiable et économique de saisie des données. L'objectif est de continuer de se servir de la reconnaissance optique de caractères (ROC) pour saisir les données des questionnaires, des documents et des télécopies reçus, tout en améliorant l'intégration du processus et l'assurance de la qualité/le contrôle de la qualité (CQ) du processus de saisie des données. Ces améliorations sont exposées dans le présent article.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110810
    Description :

    La post-stratification est souvent utilisée pour améliorer la précision des estimateurs d'enquêtes lorsqu'on dispose d'information auxiliaire catégorique de sources à l'extérieur de l'enquête. Dans les enquêtes sur les ressources naturelles, de tels renseignements sont souvent obtenus des données de télédétection, classés en catégories et affichés sous forme de tables de pixels. Ces tables peuvent être construites en fonction des modèles de classification adaptés aux données-échantillons. La post-stratification des données-échantillons fondée sur les catégories dérivées des données-échantillons (« post-stratification endogène ») contrevient à plusieurs hypothèses de la post-stratification standard, et est généralement considérée comme non valide en tant que méthode d'estimation fondée sur le plan. Dans la présentation, les propriétés de l'estimateur de post-stratification endogène sont dérivées dans le cas d'un modèle linéaire généralisé adapté à l'échantillon. La cohérence du plan de l'estimateur de post-stratification endogène est établie conformément à certaines conditions modérées. On établit la cohérence et la normalité asymptotique de l'estimateur de post-stratification endogène dans le cadre d'un modèle de superpopulation. Des exercices de simulation démontrent que l'effet pratique de l'adaptation d'un modèle aux données d'enquête avant la post-stratification est faible, même dans le cas des échantillons relativement petits.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110418
    Description :

    L'usage courant des modèles multiniveaux pour examiner les effets du contexte environnant sur les résultats en matière de santé témoigne de leur valeur en tant que méthode statistique d'analyse de données groupées. Cependant, l'application de la modélisation multiniveaux à des données provenant d'enquêtes à l'échelle de la population est souvent limitée par le petit nombre de cas par unité de deuxième niveau, si bien que l'on relève dans la littérature sur les effets du quartier une tendance récente à appliquer des méthodes d'analyse par grappes, ou classification automatique, pour contourner le problème de la dispersion des données. Dans le présent article, nous utilisons des simulations de Monte Carlo pour étudier les effets des tailles marginales de groupe et des méthodes d'analyse par grappes sur la validité des estimations des paramètres dans les modèles multiniveaux linéaires ainsi que non linéaires.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110446
    Description :

    Les immigrants sont avantagés sur le plan de la santé comparativement aux canadiens de naissance, mais ces avantages sont menacés par des situations à risque particulières. L'étude vise à explorer les issues de santé cardiovasculaire des quartiers de Montréal classés selon la proportion d'immigrants dans la population, au moyen d'une analyse en composantes principales. Les trois premières composantes représentent l'immigration, le degré de désavantage socio-économique et le degré de désavantage économique. L'incidence d'infarctus du myocarde est plus faible dans les quartiers avec forte immigration comparativement aux quartiers où prédominent les canadiens de naissance. Les taux de mortalité sont associés au degré de désavantage socio-économique tandis que la revascularisation est associée à la proportion de personnes âgées dans la population.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110441
    Description :

    Comment estime t on efficacement la taille de l'échantillon tout en établissant un consensus entre de nombreux chercheurs pour des projets polyvalents? Nous présentons un modèle s'appuyant sur un tableur ordinaire pour produire des estimations de la puissance analytique, de la précision et des coûts financiers selon divers scénarios d'échantillonnage, tel qu'il a été utilisé lors de l'élaboration de l'Enquête sur le tabagisme en Ontario. En plus des estimations des coûts, des formules complexes de calcul de la taille d'échantillon ont été imbriquées dans un tableur pour déterminer la puissance et la précision des analyses, en tenant compte des effets de plan et des cas perdus de vue au suivi définis par l'utilisateur. Un tableur ordinaire peut être combiné à des formules complexes afin de faciliter l'échange de connaissances entre les méthodologistes et les intervenants, et en fait, de démystifier la "boîte noire de la taille d'échantillon".

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X200700210495
    Description :

    Il s'agit d'obtenir des estimations fiables pour des domaines d'étude où les tailles d'échantillon peuvent être des plus modestes et pour lesquels la strate du plan d'échantillonnage ne coïncide pas avec le domaine. On ignore les tailles de population autant pour le domaine d'étude que pour la strate du plan d'échantillonnage. Dans le calcul des estimations paramétriques des domaines d'étude, le choix d'une taille d'échantillon aléatoire s'impose souvent. Nous proposons une nouvelle famille de modèles mixtes linéaires généralisés (MMLG) à effets aléatoires corrélés lorsqu'il y a plus d'un paramètre inconnu. Le modèle que nous proposons estimera tant la taille de population que le paramètre d'intérêt. Pour ce cadre, nous donnons des formules générales pour les distributions conditionnelles intégrales qu'exigent des simulations de Monte Carlo à chaîne de Markov (MCCM). Nous présentons aussi des équations de prévision et d'estimation bayésiennes pour les domaines d'étude. Nous nous servons enfin de l'enquête de 1998 sur la chasse aux dindons dans le Missouri, laquelle stratifie des échantillons en fonction du lieu de résidence du chasseur, et nous voulons obtenir des estimations au niveau du domaine, c'est à-dire du comté où le chasseur de dindons s'adonne effectivement à cette activité.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 12-001-X20070019850
    Description :

    De l'information auxiliaire est souvent utilisée pour améliorer la précision des estimateurs des moyennes et des totaux de population finie grâce à des techniques d'estimation par le ratio ou par la régression linéaire. Les estimateurs résultants ont de bonnes propriétés théoriques et pratiques, dont l'invariance, le calage et la convergence par rapport au plan de sondage. Cependant, il n'est pas toujours certain que les modèles de ratio et les modèles linéaires sont de bonnes approximations de la relation réelle entre les variables auxiliaires et la variable d'intérêt, ce qui cause une perte d'efficacité si le modèle n'est pas approprié. Dans le présent article, nous expliquons comment on peut étendre l'estimation par la régression afin d'intégrer des modèles de régression semi­paramétriques dans le cas de plans de sondage simples ainsi que plus complexes. Tout en retenant les bonnes propriétés théoriques et pratiques des modèles linéaires, les modèles semi­paramétriques reflètent mieux les relations complexes entre les variables, ce qui se traduit souvent par des gains importants d'efficacité. Nous illustrerons l'applicabilité de l'approche à des plans de sondage complexes comportant de nombreux types de variables auxiliaires en estimant plusieurs caractéristiques liées à l'acidification dans le cas d'une enquête sur les lacs du Nord­Est des États­Unis.

    Date de diffusion : 2007-06-28

  • Articles et rapports : 12-001-X20050029052
    Description :

    De nombreuses analyses statistiques, particulièrement l'analyse multiniveaux, requièrent l'estimation d'une matrice des variances-covariances d'échantillonnage. Dans le cas de problèmes univariés, des fonctions reliant la variance à la moyenne ont été utilisées pour obtenir des estimations de la variance, en regroupant l'information sur l'ensemble des unités ou des variables. Nous présentons des fonctions de variance et de corrélation pour des moyennes multivariées de questions d'enquête avec valeurs ordonnées, pour des données complètes, ainsi que pour des données avec non réponse structurée. Nous élaborons aussi des méthodes permettant d'évaluer l'ajustement du modèle et de calculer des estimateurs composites qui combinent des prédictions directes et fondées sur un modèle. Nous utilisons des données d'enquête provenant de la Consumer Assessments of Health Plans Study (CAHPS®) pour illustrer l'application de la méthodologie.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20040016993
    Description :

    L'estimateur à cellules de pondération corrige la non réponse totale par subdivision de l'échantillon en groupes homogènes (cellules) et application d'une correction par quotient aux répondants compris dans chaque cellule. Les études antérieures des propriétés statistiques des estimateurs à cellules de pondération se fondaient sur l'hypothèse que ces cellules correspondent à des cellules de population connues dont les caractéristiques sont homogènes. Dans le présent article, nous étudions les propriétés de l'estimateur à cellules de pondération sous un modèle de probabilité de réponse qui ne nécessite pas la spécification correcte de cellules de population homogènes. Nous supposons plutôt que la probabilité de réponse est une fonction lisse, mais par ailleurs non spécifiée, d'une variable auxiliaire connue. Sous ce modèle plus général, nous étudions la robustesse de l'estimateur à cellules de pondération à la spécification incorrecte du modèle. Nous montrons que, même si les cellules de population sont inconnues, l'estimateur est convergent par rapport au plan d'échantillonnage et au modèle de réponse. Nous décrivons l'effet du nombre de cellules de pondération sur les propriétés asymptotiques de l'estimateur. Au moyen d'expériences de simulation, nous explorons les propriétés de population finie de l'estimateur. Pour conclure, nous donnons certaines lignes directrices concernant le choix de la taille des cellules et de leur nombre pour l'application pratique de l'estimation fondée sur des cellules de pondération lorsqu'on ne peut spécifier ces cellules a priori.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20000025538
    Description :

    Cochran (1977, p.374) a proposé certains estimateurs par quotient ou par régression de la moyenne de population fondés sur la méthode de Hansen et Hurwitz (1946) consistant à sous-échantillonner les non-répondants en supposant que l'on connaît la moyenne de population de la variable auxiliaire. Le présent article décrit certains estimateurs par quotient ou par régression axés sur un échantillonnage double (à deux phases) applicables aux cas où l'on ne connaît pas la moyenne de population de la variable auxiliaire. On y compare aussi la performance de ces estimateurs à celle de l'estimateur proposé par Hansen et Hurwitz (1946).

    Date de diffusion : 2001-02-28

  • Produits techniques : 11-522-X19980015017
    Description :

    Les études longitudinales avec observations répétées sur des individus permettent de mieux caractériser les changements et de mieux évaluer les facteurs de risque éventuels. On possède toutefois peu d'expérience sur l'application de modèles perfectionnés à des données longitudinales avec plan d'échantillonnage complexe. Nous présentons ici les résultats d'une comparaison de différentes méthodes d'estimation de la variance applicables à des modèles à effets aléatoires évaluant l'évolution de la fonction cognitive chez les personnes âgées. Le plan d'échantillonnage consiste en un échantillon stratifié de personnes âgées de 65 ans et plus, prélevé dans le cadre d'une étude communautaire visant à examiner les facteurs de risque de la démence. Le modèle résume l'hétérogénéité de la population, en ce qui a trait au niveau global et au taux d'évolution de la fonction cognitive, en utilisant des effets aléatoires comme coordonnée à l'origine et comme pente. Nous discutons d'une méthode de régression non pondérée avec covariables représentant les variables de stratification, d'une méthode de régression pondérée et de la méthode bootstrap; nous présentons également quelques travaux préliminaires sur la méthode de répétition équilibrée et celle du jackknife.

    Date de diffusion : 1999-10-22

  • Articles et rapports : 12-001-X19990014710
    Description :

    La plupart des bureaux de la statistique utilisent des techniques non probabilistes pour choisir l'échantillon de produits dont les prix permettent de calculer les indices des prix à la consommation. Aux Pays-Bas, comme dans beacoup d'autres pays, ce genre de sondage raisonné se rapproche en quelque sorte de la sélection par seuil d'inclusion, une bonne partie de la population (normalement les produits suscitant le moins de dépenses) étant délibérément exclue des observations. Bien sûr, cette méthode donne lieu à des chiffres biaisés pour l'indice des prix. On peut se demander si un échangillonnage probabiliste donnerait de meilleurs résultats quant à l'erreur quadratique moyenne. Les auteurs ont considéré l'échantillonnage aléatoire simple, l'échantillonnage stratifié et l'échantillonnage systématique proportionnel aux dépenses. Ils ont mené des simulations de Monte Carlo à l'aide de données de lecture optique pour le café, les couches de bébés et le paper hygiénique afin d'évaluer le rendement des quatre plans d'échantillonnage. Il est assez surprenant de constater que la sélection par seuil d'inclusion est une bonne stratégie d'échantillonnage des produits pour l'indice des prix à la consommation.

    Date de diffusion : 1999-10-08

  • Articles et rapports : 12-001-X19970013101
    Description :

    Dans le travail ordinaire en statistique, l'échantillonnage est souvent exécuté en fonction d'un processus qui choisit des variables aléatoires telles sont indépendantes et distribuées de façon identique (IDI), de sorte qu'il faut avoir recours à des rajustements pour les utiliser dans le contexte d'une enquête complexe. Toutefois, au lieu de rajuster l'analyse, les auteurs ont adopté une formulation qui a ceci de nouveau qu'elle prélève un second échantillon dans l'échantillon original. Dans ce second échantillon, le premier ensemble de sélections est inversé de façon à fournir à terme un échantillon aléatoire simple. Bien entendu, il serait inefficace d'utiliser ce processus en deux étapes pour tirer un échantillon aléatoire simple unique d'une enquête complexe normalement beaucoup plus grande, et c'est pourquoi des échantillons aléatoires simples multiples sont prélevés, les auteurs ayant élaboré une façon de fonder sur eux des inférences. Les échantillons originaux ne peuvent pas tous être inversés, mais les auteurs abordent de nombreux cas spéciaux qui couvrent tout un éventail de possibilités.

    Date de diffusion : 1997-08-18

  • Articles et rapports : 12-001-X199400114432
    Description :

    Singh (1988) propose deux méthodes d’échantillonnage en vue d’estimer la moyenne d’une population en grappes chevauchantes lorsque la taille de la population est connue. Dans cet article, nous étudions des estimateurs par quotient appliqués dans ces deux méthodes en supposant que la taille réelle de la population est inconnue, ce qui est plus conforme à la réalité des enquêtes par sondage. Nous comparons l’efficacité des estimateurs appliqués dans l’une et l’autre méthodes et nous donnons un exemple numérique.

    Date de diffusion : 1994-06-15

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (20)

Analyses (20) (20 of 20 results)

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201400214118
    Description :

    L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 82-003-X201301011873
    Description :

    On a élaboré un modèle de simulation informatique de l'activité physique pour la population adulte canadienne à partir des données longitudinales de l'Enquête nationale sur la santé de la population et des données transversales de l'Enquête sur la santé dans les collectivités canadiennes. Ce modèle est basé sur la plateforme du Modèle de santé de la population (POHEM), élaboré par Statistique Canada. Le présent article donne un aperçu du POHEM et une description des ajouts qui y ont été faits pour créer le module de l'activité physique (POHEM-PA). Ces ajouts comprennent l'évolution du niveau dMactivité physique dans le temps et la relation entre les niveaux d'activité physique et l'espérance de vie ajustée sur la santé, l'espérance de vie et l'apparition de certains problèmes de santé chroniques. Des estimations tirées de projections obtenues par simulation sont comparées avec des données d'enquête représentatives à l'échelle nationale, fournissant ainsi une indication de la validité du POHEM-PA.

    Date de diffusion : 2013-10-16

  • Articles et rapports : 82-003-X201200111633
    Description :

    Le présent document explique la méthode servant à créer les géozones, qui représentent des seuils de caractéristiques de population fondés sur la région géographique, à partir des données du recensement, et qui peuvent servir à l'analyse des différences sociales ou économiques au chapitre de la santé et de l'utilisation des services de santé.

    Date de diffusion : 2012-03-21

  • Articles et rapports : 12-001-X201100211610
    Description :

    Dans cet article, l'auteur présente une discussion sur chacun des trois articles de la compilation spéciale du US Census Bureau.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 82-003-X201100211437
    Description :

    La présente étude vise principalement à examiner la cohérence interne des versions française et anglaise de l'échelle de soutien social de l'Étude des issues médicales pour un échantillon d'adultes d'un certain âge. En deuxième lieu, elle sert à effectuer une analyse factorielle confirmatoire afin de permettre une évaluation de la structure factorielle de chacune des versions. Enfin, elle a pour but de déterminer si les items de l'échelle s'appliquent uniformément aux participants francophones et aux participants anglophones.

    Date de diffusion : 2011-05-18

  • Articles et rapports : 82-003-X201100111404
    Description :

    La présente étude vise à évaluer trois échelles de comportement parental déclaré par l'enfant (nurturance, rejet et surveillance) utilisées dans l'Enquête nationale longitudinale sur les enfants et les jeunes.

    Date de diffusion : 2011-02-16

  • Articles et rapports : 12-001-X200900211039
    Description :

    La pondération par la propension à répondre est une méthode de rajustement pour tenir compte de la non-réponse totale dans les enquêtes. Une forme de mise en oeuvre de cette méthode consiste à diviser les poids d'échantillonnage par les estimations de la probabilité que les unités échantillonnées répondent à l'enquête. Habituellement, ces estimations sont obtenues par ajustement de modèles paramétriques, tels qu'une régression logistique. Les estimateurs corrigés résultants peuvent devenir biaisés si les modèles paramétriques sont spécifiés incorrectement. Afin d'éviter les erreurs de spécification du modèle, nous considérons l'estimation non paramétrique des probabilités de réponse par la régression par polynômes locaux. Nous étudions les propriétés asymptotiques de l'estimateur résultant sous quasi randomisation. Nous évaluons en pratique le comportement de la méthode proposée de correction de la non-réponse en nous servant de données de la NHANES.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200700210495
    Description :

    Il s'agit d'obtenir des estimations fiables pour des domaines d'étude où les tailles d'échantillon peuvent être des plus modestes et pour lesquels la strate du plan d'échantillonnage ne coïncide pas avec le domaine. On ignore les tailles de population autant pour le domaine d'étude que pour la strate du plan d'échantillonnage. Dans le calcul des estimations paramétriques des domaines d'étude, le choix d'une taille d'échantillon aléatoire s'impose souvent. Nous proposons une nouvelle famille de modèles mixtes linéaires généralisés (MMLG) à effets aléatoires corrélés lorsqu'il y a plus d'un paramètre inconnu. Le modèle que nous proposons estimera tant la taille de population que le paramètre d'intérêt. Pour ce cadre, nous donnons des formules générales pour les distributions conditionnelles intégrales qu'exigent des simulations de Monte Carlo à chaîne de Markov (MCCM). Nous présentons aussi des équations de prévision et d'estimation bayésiennes pour les domaines d'étude. Nous nous servons enfin de l'enquête de 1998 sur la chasse aux dindons dans le Missouri, laquelle stratifie des échantillons en fonction du lieu de résidence du chasseur, et nous voulons obtenir des estimations au niveau du domaine, c'est à-dire du comté où le chasseur de dindons s'adonne effectivement à cette activité.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 12-001-X20070019850
    Description :

    De l'information auxiliaire est souvent utilisée pour améliorer la précision des estimateurs des moyennes et des totaux de population finie grâce à des techniques d'estimation par le ratio ou par la régression linéaire. Les estimateurs résultants ont de bonnes propriétés théoriques et pratiques, dont l'invariance, le calage et la convergence par rapport au plan de sondage. Cependant, il n'est pas toujours certain que les modèles de ratio et les modèles linéaires sont de bonnes approximations de la relation réelle entre les variables auxiliaires et la variable d'intérêt, ce qui cause une perte d'efficacité si le modèle n'est pas approprié. Dans le présent article, nous expliquons comment on peut étendre l'estimation par la régression afin d'intégrer des modèles de régression semi­paramétriques dans le cas de plans de sondage simples ainsi que plus complexes. Tout en retenant les bonnes propriétés théoriques et pratiques des modèles linéaires, les modèles semi­paramétriques reflètent mieux les relations complexes entre les variables, ce qui se traduit souvent par des gains importants d'efficacité. Nous illustrerons l'applicabilité de l'approche à des plans de sondage complexes comportant de nombreux types de variables auxiliaires en estimant plusieurs caractéristiques liées à l'acidification dans le cas d'une enquête sur les lacs du Nord­Est des États­Unis.

    Date de diffusion : 2007-06-28

  • Articles et rapports : 12-001-X20050029052
    Description :

    De nombreuses analyses statistiques, particulièrement l'analyse multiniveaux, requièrent l'estimation d'une matrice des variances-covariances d'échantillonnage. Dans le cas de problèmes univariés, des fonctions reliant la variance à la moyenne ont été utilisées pour obtenir des estimations de la variance, en regroupant l'information sur l'ensemble des unités ou des variables. Nous présentons des fonctions de variance et de corrélation pour des moyennes multivariées de questions d'enquête avec valeurs ordonnées, pour des données complètes, ainsi que pour des données avec non réponse structurée. Nous élaborons aussi des méthodes permettant d'évaluer l'ajustement du modèle et de calculer des estimateurs composites qui combinent des prédictions directes et fondées sur un modèle. Nous utilisons des données d'enquête provenant de la Consumer Assessments of Health Plans Study (CAHPS®) pour illustrer l'application de la méthodologie.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20040016993
    Description :

    L'estimateur à cellules de pondération corrige la non réponse totale par subdivision de l'échantillon en groupes homogènes (cellules) et application d'une correction par quotient aux répondants compris dans chaque cellule. Les études antérieures des propriétés statistiques des estimateurs à cellules de pondération se fondaient sur l'hypothèse que ces cellules correspondent à des cellules de population connues dont les caractéristiques sont homogènes. Dans le présent article, nous étudions les propriétés de l'estimateur à cellules de pondération sous un modèle de probabilité de réponse qui ne nécessite pas la spécification correcte de cellules de population homogènes. Nous supposons plutôt que la probabilité de réponse est une fonction lisse, mais par ailleurs non spécifiée, d'une variable auxiliaire connue. Sous ce modèle plus général, nous étudions la robustesse de l'estimateur à cellules de pondération à la spécification incorrecte du modèle. Nous montrons que, même si les cellules de population sont inconnues, l'estimateur est convergent par rapport au plan d'échantillonnage et au modèle de réponse. Nous décrivons l'effet du nombre de cellules de pondération sur les propriétés asymptotiques de l'estimateur. Au moyen d'expériences de simulation, nous explorons les propriétés de population finie de l'estimateur. Pour conclure, nous donnons certaines lignes directrices concernant le choix de la taille des cellules et de leur nombre pour l'application pratique de l'estimation fondée sur des cellules de pondération lorsqu'on ne peut spécifier ces cellules a priori.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20000025538
    Description :

    Cochran (1977, p.374) a proposé certains estimateurs par quotient ou par régression de la moyenne de population fondés sur la méthode de Hansen et Hurwitz (1946) consistant à sous-échantillonner les non-répondants en supposant que l'on connaît la moyenne de population de la variable auxiliaire. Le présent article décrit certains estimateurs par quotient ou par régression axés sur un échantillonnage double (à deux phases) applicables aux cas où l'on ne connaît pas la moyenne de population de la variable auxiliaire. On y compare aussi la performance de ces estimateurs à celle de l'estimateur proposé par Hansen et Hurwitz (1946).

    Date de diffusion : 2001-02-28

  • Articles et rapports : 12-001-X19990014710
    Description :

    La plupart des bureaux de la statistique utilisent des techniques non probabilistes pour choisir l'échantillon de produits dont les prix permettent de calculer les indices des prix à la consommation. Aux Pays-Bas, comme dans beacoup d'autres pays, ce genre de sondage raisonné se rapproche en quelque sorte de la sélection par seuil d'inclusion, une bonne partie de la population (normalement les produits suscitant le moins de dépenses) étant délibérément exclue des observations. Bien sûr, cette méthode donne lieu à des chiffres biaisés pour l'indice des prix. On peut se demander si un échangillonnage probabiliste donnerait de meilleurs résultats quant à l'erreur quadratique moyenne. Les auteurs ont considéré l'échantillonnage aléatoire simple, l'échantillonnage stratifié et l'échantillonnage systématique proportionnel aux dépenses. Ils ont mené des simulations de Monte Carlo à l'aide de données de lecture optique pour le café, les couches de bébés et le paper hygiénique afin d'évaluer le rendement des quatre plans d'échantillonnage. Il est assez surprenant de constater que la sélection par seuil d'inclusion est une bonne stratégie d'échantillonnage des produits pour l'indice des prix à la consommation.

    Date de diffusion : 1999-10-08

  • Articles et rapports : 12-001-X19970013101
    Description :

    Dans le travail ordinaire en statistique, l'échantillonnage est souvent exécuté en fonction d'un processus qui choisit des variables aléatoires telles sont indépendantes et distribuées de façon identique (IDI), de sorte qu'il faut avoir recours à des rajustements pour les utiliser dans le contexte d'une enquête complexe. Toutefois, au lieu de rajuster l'analyse, les auteurs ont adopté une formulation qui a ceci de nouveau qu'elle prélève un second échantillon dans l'échantillon original. Dans ce second échantillon, le premier ensemble de sélections est inversé de façon à fournir à terme un échantillon aléatoire simple. Bien entendu, il serait inefficace d'utiliser ce processus en deux étapes pour tirer un échantillon aléatoire simple unique d'une enquête complexe normalement beaucoup plus grande, et c'est pourquoi des échantillons aléatoires simples multiples sont prélevés, les auteurs ayant élaboré une façon de fonder sur eux des inférences. Les échantillons originaux ne peuvent pas tous être inversés, mais les auteurs abordent de nombreux cas spéciaux qui couvrent tout un éventail de possibilités.

    Date de diffusion : 1997-08-18

  • Articles et rapports : 12-001-X199400114432
    Description :

    Singh (1988) propose deux méthodes d’échantillonnage en vue d’estimer la moyenne d’une population en grappes chevauchantes lorsque la taille de la population est connue. Dans cet article, nous étudions des estimateurs par quotient appliqués dans ces deux méthodes en supposant que la taille réelle de la population est inconnue, ce qui est plus conforme à la réalité des enquêtes par sondage. Nous comparons l’efficacité des estimateurs appliqués dans l’une et l’autre méthodes et nous donnons un exemple numérique.

    Date de diffusion : 1994-06-15

  • Articles et rapports : 12-001-X199300114471
    Description :

    Les plans d’échantillonnage binomial-Poisson et Poisson-Poisson sont présentés en vue d’une utilisation dans le domaine des échantillonnages effectués en forêt. Plusieurs estimateurs du total de la population sont examinés pour ces plans. Des comparaisons (par simulation) des propriétés de ces estimateurs ont été faites pour trois petites populations forestières. Une modification de l’estimateur courant utilisé pour l’échantillonnage de Poisson, ainsi qu’un nouvel estimateur appelé estimateur de Srivastava modifié, semblent être les plus efficaces. Le dernier estimateur affiche malheureusement un biais prononcé pour les trois populations.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X198700114513
    Description :

    Singh et Srivastava (1973) ont élaboré un estimateur linéaire non biaisé de moyennes de population qui pourrait être utilisé dans des sondages successifs à l’aide de plusieurs variables auxiliaires dont les moyennes de population connues ne changent pas d’une période à l’autre. Dans le présent document, trois estimateurs composites T_1, T_2 et T_3, utilisant chacun une variable auxiliaire dont la moyenne de population connue change d’une période à l’autre, sont présentés pour l’estimation du total de population de la période donnée. Les estimateurs proposés sont comparés à l’estimateur habituel, T_0, et à l’estimateur habituel de sondages successifs, T \prime, du total de population de la période donnée sans l’aide de l’information auxiliaire. Nous observons que l’utilisation conjuguée de l’information auxiliaire et d’une méthode par sondages successifs ne produit pas toujours uniformément un gain d’efficacité par rapport à T_0 ou T \prime. Toutefois, quand ils ont été appliqués à une enquête visant à estimer la taille moyenne des arbres dans des plantations de teck, les estimateurs T_1, T_2 et T_3 se sont avérés plus efficaces que T_0 ou que T \prime.

    Date de diffusion : 1987-06-15

  • Articles et rapports : 12-001-X198500214401
    Description :

    Ce document décrit une méthode de production d’estimations par âge et par sexe de l’état de la population des petites régions, à partir d’estimations de la population totale, de données sur les naissances et les décès et d’estimations chronologiques de la migration nette résiduelle. On y présente également une évaluation fondée sur les chiffres du recensement de 1981 concernant les divisions de recensement et les districts scolaires de la Colombie-Britannique.

    Date de diffusion : 1985-12-16

Références (8)

Références (8) (8 of 8 results)

  • Produits techniques : 11-522-X201700014741
    Description :

    Le mandat de Statistique Canada comprend la production de données statistiques en vue de faire la lumière sur les questions d’actualité touchant les entreprises. Le couplage des enregistrements de données d’entreprises est un aspect important de l’élaboration, de la production, de l’évaluation et de l’analyse de ces données statistiques. Comme le couplage d’enregistrements peut faire intrusion dans la vie privée, Statistique Canada n’y recourt que si l’intérêt public est manifeste et l’emporte sur les inconvénients de l’intrusion. Le couplage d’enregistrements connaît un renouveau déclenché par un usage plus important de données administratives par un grand nombre de programmes statistiques. Le couplage d’enregistrements de données d’entreprises pose de nombreux défis. Par exemple, plusieurs fichiers administratifs ne contiennent pas d’identificateurs communs, les données sont consignées dans des formats non normalisés, certaines données contiennent des erreurs typographiques, les fichiers de données administratives sont habituellement de grande taille, et enfin, l’évaluation de multiples paires d’enregistrements rend les comparaisons absolues difficiles, voire parfois impossibles. Étant donné l’importance et les défis du couplage d’enregistrements, Statistique Canada a élaboré une norme en vue d’aider les utilisateurs à optimiser leur processus de couplage d’enregistrements de données d’entreprises. Ainsi, ce processus comprend l’exploitation d’une stratégie de groupement des enregistrements qui réduit le nombre de paires d’enregistrements à comparer et à apparier, l’utilisation d’un logiciel interne de Statistique Canada pour procéder à des couplages déterministes et probabilistes, et la création de champs standardisés pour le nom et l’adresse des entreprises dans le Registre des entreprises de Statistique Canada. Le présent article donne un aperçu de la méthode de couplage d’enregistrements de données d’entreprises et examine divers projets économiques qui font appel au couplage d’enregistrements à Statistique Canada, notamment dans les domaines des Comptes nationaux, du commerce international, de l’agriculture et du Registre des entreprises.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014266
    Description :

    L’utilisation de moniteurs et l’autodéclaration sont deux méthodes de mesure de l’énergie dépensée durant l’activité physique, la variance de l’erreur étant habituellement beaucoup plus faible dans le cas des moniteurs que dans celui de l’autodéclaration. La Physical Activity Measurement Survey a été conçue pour comparer les deux procédures en utilisant des observations répétées sur une même personne. Ces observations répétées permettent de calibrer la mesure par autodéclaration sur la mesure par moniteur, ce qui rend possible l’estimation des composantes des variances des erreurs de mesure. Les estimations des composantes de la variance de l’erreur de mesure de la dépense d’énergie selon le moniteur et selon l’autodéclaration sont présentées pour les femmes qui ont participé à la Physical Activity Measurement Survey.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010968
    Description :

    Statistique Canada a lancé un programme destiné à intensifier et à améliorer l'utilisation de la technologie d'imagerie pour le traitement des questionnaires d'enquête imprimés. Le but est d'en faire une méthode efficace, fiable et économique de saisie des données. L'objectif est de continuer de se servir de la reconnaissance optique de caractères (ROC) pour saisir les données des questionnaires, des documents et des télécopies reçus, tout en améliorant l'intégration du processus et l'assurance de la qualité/le contrôle de la qualité (CQ) du processus de saisie des données. Ces améliorations sont exposées dans le présent article.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110810
    Description :

    La post-stratification est souvent utilisée pour améliorer la précision des estimateurs d'enquêtes lorsqu'on dispose d'information auxiliaire catégorique de sources à l'extérieur de l'enquête. Dans les enquêtes sur les ressources naturelles, de tels renseignements sont souvent obtenus des données de télédétection, classés en catégories et affichés sous forme de tables de pixels. Ces tables peuvent être construites en fonction des modèles de classification adaptés aux données-échantillons. La post-stratification des données-échantillons fondée sur les catégories dérivées des données-échantillons (« post-stratification endogène ») contrevient à plusieurs hypothèses de la post-stratification standard, et est généralement considérée comme non valide en tant que méthode d'estimation fondée sur le plan. Dans la présentation, les propriétés de l'estimateur de post-stratification endogène sont dérivées dans le cas d'un modèle linéaire généralisé adapté à l'échantillon. La cohérence du plan de l'estimateur de post-stratification endogène est établie conformément à certaines conditions modérées. On établit la cohérence et la normalité asymptotique de l'estimateur de post-stratification endogène dans le cadre d'un modèle de superpopulation. Des exercices de simulation démontrent que l'effet pratique de l'adaptation d'un modèle aux données d'enquête avant la post-stratification est faible, même dans le cas des échantillons relativement petits.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110418
    Description :

    L'usage courant des modèles multiniveaux pour examiner les effets du contexte environnant sur les résultats en matière de santé témoigne de leur valeur en tant que méthode statistique d'analyse de données groupées. Cependant, l'application de la modélisation multiniveaux à des données provenant d'enquêtes à l'échelle de la population est souvent limitée par le petit nombre de cas par unité de deuxième niveau, si bien que l'on relève dans la littérature sur les effets du quartier une tendance récente à appliquer des méthodes d'analyse par grappes, ou classification automatique, pour contourner le problème de la dispersion des données. Dans le présent article, nous utilisons des simulations de Monte Carlo pour étudier les effets des tailles marginales de groupe et des méthodes d'analyse par grappes sur la validité des estimations des paramètres dans les modèles multiniveaux linéaires ainsi que non linéaires.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110446
    Description :

    Les immigrants sont avantagés sur le plan de la santé comparativement aux canadiens de naissance, mais ces avantages sont menacés par des situations à risque particulières. L'étude vise à explorer les issues de santé cardiovasculaire des quartiers de Montréal classés selon la proportion d'immigrants dans la population, au moyen d'une analyse en composantes principales. Les trois premières composantes représentent l'immigration, le degré de désavantage socio-économique et le degré de désavantage économique. L'incidence d'infarctus du myocarde est plus faible dans les quartiers avec forte immigration comparativement aux quartiers où prédominent les canadiens de naissance. Les taux de mortalité sont associés au degré de désavantage socio-économique tandis que la revascularisation est associée à la proportion de personnes âgées dans la population.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110441
    Description :

    Comment estime t on efficacement la taille de l'échantillon tout en établissant un consensus entre de nombreux chercheurs pour des projets polyvalents? Nous présentons un modèle s'appuyant sur un tableur ordinaire pour produire des estimations de la puissance analytique, de la précision et des coûts financiers selon divers scénarios d'échantillonnage, tel qu'il a été utilisé lors de l'élaboration de l'Enquête sur le tabagisme en Ontario. En plus des estimations des coûts, des formules complexes de calcul de la taille d'échantillon ont été imbriquées dans un tableur pour déterminer la puissance et la précision des analyses, en tenant compte des effets de plan et des cas perdus de vue au suivi définis par l'utilisateur. Un tableur ordinaire peut être combiné à des formules complexes afin de faciliter l'échange de connaissances entre les méthodologistes et les intervenants, et en fait, de démystifier la "boîte noire de la taille d'échantillon".

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X19980015017
    Description :

    Les études longitudinales avec observations répétées sur des individus permettent de mieux caractériser les changements et de mieux évaluer les facteurs de risque éventuels. On possède toutefois peu d'expérience sur l'application de modèles perfectionnés à des données longitudinales avec plan d'échantillonnage complexe. Nous présentons ici les résultats d'une comparaison de différentes méthodes d'estimation de la variance applicables à des modèles à effets aléatoires évaluant l'évolution de la fonction cognitive chez les personnes âgées. Le plan d'échantillonnage consiste en un échantillon stratifié de personnes âgées de 65 ans et plus, prélevé dans le cadre d'une étude communautaire visant à examiner les facteurs de risque de la démence. Le modèle résume l'hétérogénéité de la population, en ce qui a trait au niveau global et au taux d'évolution de la fonction cognitive, en utilisant des effets aléatoires comme coordonnée à l'origine et comme pente. Nous discutons d'une méthode de régression non pondérée avec covariables représentant les variables de stratification, d'une méthode de régression pondérée et de la méthode bootstrap; nous présentons également quelques travaux préliminaires sur la méthode de répétition équilibrée et celle du jackknife.

    Date de diffusion : 1999-10-22

Date de modification :