Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Année de publication

1 facettes affichées. 1 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (25)

Tout (25) (25 of 25 results)

  • Articles et rapports : 12-001-X201200211752
    Description :

    La coca est une plante indigène de la forêt tropicale humide amazonienne, dont on extrait la cocaïne, un alcaloïde illégal. Les agriculteurs considèrent comme délicates les questions concernant la superficie de leurs aires de culture de la coca dans les régions éloignées où cette plante est cultivée au Pérou. Par conséquent, ils ont tendance à ne pas participer aux enquêtes, à ne pas répondre aux questions de nature délicate ou à sous-déclarer la superficie de leurs aires individuelles de culture de la coca. La mesure exacte et fiable des aires de culture de la coca est une source de préoccupations politiques et stratégiques, ce qui fait que les méthodologistes d'enquête doivent déterminer comment encourager la déclaration honnête de données et la réponse aux questions de nature délicate concernant la culture de la coca. Parmi les stratégies d'enquête appliquées dans notre étude de cas figuraient l'établissement d'un rapport de confiance avec les agriculteurs, l'assurance de la confidentialité, la correspondance entre les caractéristiques des intervieweurs et celles des répondants, la modification de la présentation des questions de nature délicate et l'absence d'isolement absolu des répondants au cours de l'enquête. Les résultats de l'enquête ont été validés au moyen de données recueillies par satellite. Ils semblent indiquer que les agriculteurs ont tendance à sous-déclarer la superficie de leurs aires de culture de la coca dans une proportion de 35 % à 40 %.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211754
    Description :

    La méthode d'ajustement sur le score de propension est souvent adoptée pour traiter le biais de sélection dans les sondages, y compris la non-réponse totale et le sous-dénombrement. Le score de propension est calculé en se servant de variables auxiliaires observées dans tout l'échantillon. Nous discutons de certaines propriétés asymptotiques des estimateurs ajustés sur le score de propension et dérivons des estimateurs optimaux fondés sur un modèle de régression pour la population finie. Un estimateur ajusté sur le score de propension optimal peut être réalisé en se servant d'un modèle de score de propension augmenté. Nous discutons de l'estimation de la variance et présentons les résultats de deux études par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211757
    Description :

    Les colinéarités entre les variables explicatives des modèles de régression linéaire affectent les estimations fondées sur des données d'enquête autant que celles fondées sur des données ne provenant pas d'enquêtes. Les effets indésirables sont des erreurs-types inutilement grandes, des statistiques t faussement faibles ou élevées et des estimations des paramètres de signe illogique. Les diagnostics de colinéarité disponibles ne conviennent généralement pas pour les données d'enquête, parce que les estimateurs de variance qui y sont intégrés ne tiennent pas compte correctement de la stratification, des grappes et des poids de sondage. Dans le présent article, nous élaborons des indices de conditionnement et des décompositions de variance pour diagnostiquer les problèmes de colinéarité dans des données provenant d'enquêtes complexes. Les diagnostics adaptés sont illustrés au moyen de données provenant d'une enquête sur les caractéristiques de l'état de santé.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211759
    Description :

    L'un des avantages de l'imputation multiple est qu'elle permet aux utilisateurs des données de faire des inférences valides en appliquant des méthodes classiques avec des règles de combinaison simples. Toutefois, les règles de combinaison établies pour les tests d'hypothèse multivariés échouent quand l'erreur d'échantillonnage est nulle. Le présent article propose des tests modifiés utilisables dans les analyses en population finie de données de recensement comportant de multiples imputations pour contrôler la divulgation et remplacer des données manquantes, et donne une évaluation de leurs propriétés fréquentistes par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211755
    Description :

    La question de la non-réponse dans les études longitudinales est abordée en évaluant l'exactitude des modèles de propension à répondre construits pour distinguer et prédire les divers types de non-réponse. Une attention particulière est accordée aux mesures sommaires dérivées des courbes de la fonction d'efficacité du receveur, ou courbes ROC (de l'anglais receiver operating characteristics), ainsi que des courbes de type logit sur rangs. Les concepts sont appliqués à des données provenant de la Millennium Cohort Study du Royaume-Uni. Selon les résultats, la capacité de faire la distinction entre les divers types de non-répondants et de les prévoir n'est pas grande. Les poids produits au moyen des modèles de propension à répondre ne donnent lieu qu'à de faibles corrections des transitions entre situations d'emploi. Des conclusions sont tirées quant aux possibilités d'intervention en vue de prévenir la non-réponse.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211758
    Description :

    Le présent article décrit l'élaboration de deux méthodes bayésiennes d'inférence au sujet des quantiles de variables d'intérêt continues d'une population finie sous échantillonnage avec probabilités inégales. La première de ces méthodes consiste à estimer les fonctions de répartition des variables étudiées continues en ajustant un certain nombre de modèles de régression probit avec splines pénalisées sur les probabilités d'inclusion. Les quantiles de population finie sont alors obtenus par inversion des fonctions de répartition estimées. Cette méthode demande considérablement de calculs. La deuxième méthode consiste à prédire les valeurs pour les unités non échantillonnées en supposant qu'il existe une relation variant de façon lisse entre la variable étudiée continue et la probabilité d'inclusion, en modélisant la fonction moyenne ainsi que de la fonction de variance en se servant de splines. Les deux estimateurs bayésiens fondés sur un modèle avec splines donnent un compromis désirable entre la robustesse et l'efficacité. Des études par simulation montrent que les deux méthodes produisent une racine carrée de l'erreur quadratique moyenne plus faible que l'estimateur pondéré par les poids de sondage et que les estimateurs par le ratio et par différence décrits dans Rao, Kovar et Mantel (RKM 1990), et qu'ils sont plus robustes à la spécification incorrecte du modèle que l'estimateur fondé sur un modèle de régression passant par l'origine décrit dans Chambers et Dunstan (1986). Lorsque la taille de l'échantillon est petite, les intervalles de crédibilité à 95 % des deux nouvelles méthodes ont une couverture plus proche du niveau nominal que l'estimateur pondéré par les poids de sondage.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211751
    Description :

    La qualité des enquêtes est un concept multidimensionnel issu de deux démarches de développement distinctes. La première démarche suit le paradigme de l'erreur d'enquête totale, qui repose sur quatre piliers dont émanent les principes qui guident la conception de l'enquête, sa mise en oeuvre, son évaluation et l'analyse des données. Nous devons concevoir les enquêtes de façon que l'erreur quadratique moyenne d'une estimation soit minimisée compte tenu du budget et d'autres contraintes. Il est important de tenir compte de toutes les sources connues d'erreur, de surveiller les principales d'entre elles durant la mise en oeuvre, d'évaluer périodiquement les principales sources d'erreur et les combinaisons de ces sources après l'achèvement de l'enquête, et d'étudier les effets des erreurs sur l'analyse des données. Dans ce contexte, on peut mesurer la qualité d'une enquête par l'erreur quadratique moyenne, la contrôler par des observations faites durant la mise en oeuvre et l'améliorer par des études d'évaluation. Le paradigme possède des points forts et des points faibles. L'un des points forts tient au fait que la recherche peut être définie en fonction des sources d'erreur et l'un des points faibles, au fait que la plupart des évaluations de l'erreur d'enquête totale sont incomplètes, en ce sens qu'il est impossible d'inclure les effets de toutes les sources. La deuxième démarche est influencée par des idées empruntées aux sciences de la gestion de la qualité. Ces sciences ont pour objet de permettre aux entreprises d'exceller dans la fourniture de produits et de services en se concentrant sur leurs clients et sur la concurrence. Ces idées ont eu une très grande influence sur de nombreux organismes statistiques. Elles ont notamment amené les fournisseurs de données à reconnaître qu'un produit de qualité ne peut pas être obtenu si la qualité des processus sous-jacents n'est pas suffisante et que des processus de qualité suffisante ne peuvent pas être obtenus sans une bonne qualité organisationnelle. Ces divers niveaux peuvent être contrôlés et évalués au moyen d'ententes sur le niveau de service, de sondages auprès des clients, d'analyses des paradonnées en recourant au contrôle statistique des processus et d'évaluations organisationnelles en se servant de modèles d'excellence opérationnelle ou d'autres ensembles de critères. À tous les niveaux, on peut rehausser la qualité en lançant des projets d'amélioration choisis selon des fonctions de priorité. L'objectif ultime de ces projets d'amélioration est que les processus concernés s'approchent progressivement d'un état où ils sont exempts d'erreur. Naturellement, il pourrait s'agir d'un objectif impossible à atteindre, mais auquel il faut tenter de parvenir. Il n'est pas raisonnable d'espérer obtenir des mesures continues de l'erreur d'enquête totale en se servant de l'erreur quadratique moyenne. Au lieu de cela, on peut espérer qu'une amélioration continue de la qualité par l'application des idées des sciences de la gestion ainsi que des méthodes statistiques permettra de minimiser les biais et d'autres problèmes que posent les processus d'enquête, afin que la variance devienne une approximation de l'erreur quadratique moyenne. Si nous y arrivons, nous aurons fait coïncider approximativement les deux démarches de développement.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211756
    Description :

    Nous proposons une nouvelle approche d'estimation sur petits domaines fondée sur la modélisation conjointe des moyennes et des variances. Le modèle et la méthodologie que nous proposons améliorent non seulement les estimateurs sur petits domaines, mais donnent aussi des estimateurs « lissés » des vraies variances d'échantillonnage. Le maximum de vraisemblance des paramètres du modèle est estimé au moyen de l'algorithme EM en raison de la forme non classique de la fonction de vraisemblance. Les intervalles de confiance des paramètres de petit domaine sont obtenus en adoptant une approche de la théorie de la décision plus générale que l'approche classique de minimisation de la perte quadratique. Les propriétés numériques de la méthode proposée sont étudiées au moyen d'études par simulation et comparées à celles de méthodes concurrentes proposées dans la littérature. Une justification théorique des propriétés effectives des estimateurs et intervalles de confiance résultants est également présentée.

    Date de diffusion : 2012-12-19

  • Produits techniques : 75F0002M2012003
    Description :

    La diffusion des données de 2010 de l'Enquête sur la dynamique du travail et du revenu (EDTR) a coïncidé avec une révision historique des résultats de 2006 à 2009. Les poids de l'enquête ont été mis à jour afin de tenir compte des nouvelles estimations démographiques fondées sur le Recensement de 2006, plutôt que sur le Recensement de 2001. Le présent document présente de façon sommaire les répercussions de cette révision sur les estimations d'enquête pour la période 2006-2009.

    Date de diffusion : 2012-11-01

  • Produits techniques : 12-002-X201200111642
    Description :

    En général, il est recommandé de recourir à l'estimation pondérée au moment d'analyser les données d'un fichier de microdonnées issues du questionnaire complet du recensement. Puisque de tels fichiers de données sont maintenant disponibles dans les CDR, il est nécessaire de donner aux chercheurs de ces centres plus d'information sur la façon de procéder à une estimation pondérée avec ces fichiers. Ce document a pour objectif de fournir cette information, plus particulièrement la façon avec laquelle les variables de pondération ont été dérivées pour les fichiers de microdonnées du recensement et la pondération qui devrait être utilisée pour différentes unités d'analyse. Dans le cas des recensements de 1996, 2001 et 2006, la même variable de pondération est appropriée peu importe si ce sont des personnes, des familles ou des ménages qui sont étudiés. Dans le cas du Recensement de 1991, les recommandations sont plus complexes : une variable de pondération différente de celle des personnes et des familles est requise pour les ménages, et d'autres restrictions s'appliquent pour obtenir la bonne valeur de pondération pour les familles.

    Date de diffusion : 2012-10-25

  • Produits techniques : 11-522-X2009000
    Description :

    Le Symposium 2009 était le 25e Symposium international sur les questions de méthodologie de Statistique Canada. Chaque année, le Symposium se penche sur un thème précis. En 2009, le thème était : « Les enquêtes longitudinales : de la conception à l'analyse ».

    Date de diffusion : 2012-10-03

  • Articles et rapports : 82-003-X201200311707
    Description :

    La présente étude compare la circonférence de la taille mesurée selon le protocole de l'Organisation mondiale de la Santé et selon celui des National Institutes of Health afin de déterminer si les résultats diffèrent de manière significative et si des équations peuvent être établies pour permettre de comparer la circonférence de la taille mesurée à deux endroits différents.

    Date de diffusion : 2012-09-20

  • Articles et rapports : 12-001-X201200111682
    Description :

    Les questions concernant la répartition de l'échantillon sont étudiées dans le contexte de l'estimation des moyennes de sous-population (strate ou domaine), ainsi que de la moyenne de population agrégée sous-échantillonnage aléatoire simple stratifié. Une méthode de programmation non linéaire est utilisée pour obtenir la répartition « optimale » de l'échantillon entre les strates qui minimise la taille totale d'échantillon sous la contrainte des tolérances spécifiées pour les coefficients de variation des estimateurs des moyennes de strate et de la moyenne de population. La taille totale d'échantillon résultante est alors utilisée pour déterminer les répartitions de l'échantillon par les méthodes de Costa, Satorra et Ventura (2004) s'appuyant sur une répartition intermédiaire ou de compromis et de Longford (2006) fondée sur des « priorités inférencielles » spécifiées. En outre, nous étudions la répartition de l'échantillon entre les strates quand sont également spécifiées des exigences de fiabilité pour des domaines qui recoupent les strates. Les propriétés des trois méthodes sont étudiées au moyen de données provenant de l'Enquête mensuelle sur le commerce de détail (EMCD) menée par Statistique Canada auprès d'établissements uniques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111684
    Description :

    De nombreuses enquêtes-entreprises fournissent des estimations du chiffre d'affaires mensuel pour les principaux codes de la Classification type des industries. Cela inclut les estimations des variations du niveau du chiffre d'affaires mensuel comparativement à 12 mois plus tôt. Comme des échantillons chevauchant sont souvent utilisés dans les enquêtes-entreprises, les estimations du chiffre d'affaires durant des mois consécutifs sont corrélées, ce qui complique le calcul de la variance des variations. Le présent article décrit une procédure générale d'estimation de la variance qui comprend des corrections annuelles des strates quand des établissements passent dans d'autres strates en raison de leur taille réelle. La procédure tient également compte du renouvellement des échantillons, ainsi que des nouvelles unités et des unités disparues. L'article se termine par un exemple de calcul de la variance de l'estimation du taux de croissance annuel du chiffre d'affaires mensuel des supermarchés des Pays-Bas.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111686
    Description :

    Nous présentons une approche fondée sur des équations d'estimation généralisées pour estimer le coefficient de corrélation de concordance et le coefficient kappa d'après des données d'enquête. Les estimations ainsi que leurs erreurs-types doivent tenir compte correctement du plan d'échantillonnage. Nous présentons des mesures pondérées du coefficient de corrélation de concordance et du coefficient kappa, ainsi que la variance de ces mesures tenant compte du plan d'échantillonnage. Nous utilisons la méthode de linéarisation par série de Taylor et la procédure du jackknife pour estimer les erreurs-types des estimations résultantes des paramètres. Des mesures anthropométriques et des données sur la santé buccodentaire provenant de la Third National Health and Nutrition Examination Survey sont utilisées pour illustrer cette méthodologie.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111683
    Description :

    Nous considérons diverses options de remplacement de la poststratification dans le cas de données croisées à deux dimensions pour lesquelles la fréquence d'au moins l'une des cellules du tableau à double entrée est trop faible pour permettre la poststratification en se basant sur cette classification double. Dans le jeu de données utilisé pour l'étude, la fréquence prévue dans la cellule la plus petite est de 0,36. Une approche consiste simplement à regrouper certaine cellules. Néanmoins, il est probable que cela détruise la structure de la classification double. Les approches de remplacement que nous proposons permettent de maintenir la classification à double entrée originale des données. Elles sont fondées sur l'étude du calage de Chang et Kott (2008). Nous choisissons des ajustements des pondérations qui dépendent des classifications marginales (mais non de la classification croisée complète) pour minimiser une fonction d'objectif correspondant aux différences entre les fréquences dans la population et dans les cellules du tableau à double entrée et leurs estimations sur échantillon. Selon la terminologie de Chang et Kott (2008), si les classifications par ligne et par colonne comprennent I et J cellules, respectivement, on obtient IJ variables de référence et I + J - 1 variables du modèle. Nous étudions les propriétés de ces estimateurs en créant des échantillons aléatoires simples pour la simulation d'après les données du Quarterly Census of Employment and Wages de 2005 tenues à jour par le Bureau of Labor Statistics. Nous procédons à la classification croisée de l'État et du groupe d'industries. Dans notre étude, comparativement à l'estimateur sans biais, les approches de calage introduisent un biais asymptotiquement négligeable, mais donnent une réduction de l'EQM pouvant aller jusqu'à 20 % pour un petit échantillon.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111681
    Description :

    La présente étude porte sur l'application de la théorie des graphes à l'élaboration et à l'essai d'instruments d'enquête. Une approche fondée sur la théorie des graphes présente plusieurs avantages par rapport aux approches conventionnelles au chapitre de la structure et des caractéristiques du système de spécifications des instruments de recherche, en particulier les instruments assistés par ordinateur et de vaste portée. La possibilité de vérifier la connectivité de tous les éléments constitue l'un de ces avantages, de même que la capacité de simuler un instrument. Une telle approche permet aussi de produire des mesures servant à décrire l'instrument, par exemple le nombre de chemins et de parcours. Le concept de la « base » est abordé dans le contexte des essais des logiciels. Ce terme désigne le plus petit ensemble de parcours, parmi tous ceux que comporte un instrument, qui couvre tous les appariements de liens et de noeuds. Ces parcours peuvent être utilisés à titre d'ensemble complet et économique de cas types pour faire l'essai des instruments.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111689
    Description :

    En cas de non-réponse totale d'une unité dans un échantillon tiré suivant les principes de l'échantillonnage probabiliste, une pratique courante consiste à diviser l'échantillon en groupes mutuellement exclusifs de manière qu'il soit raisonnable de supposer que toutes les unités échantillonnées dans un groupe ont la même probabilité de ne pas répondre. De cette façon, la réponse d'une unité peut être traitée comme une phase supplémentaire de l'échantillonnage probabiliste en se servant de l'inverse de la probabilité de réponse estimée d'une unité dans un groupe comme facteur de correction pour calculer les poids finaux pour les répondants du groupe. Si l'objectif est d'estimer la moyenne de population d'une variable d'enquête qui se comporte plus ou moins comme une variable aléatoire dont la moyenne est constante dans chaque groupe indépendamment des poids de sondage originaux, il est habituellement plus efficace d'intégrer les poids de sondage dans les facteurs de correction que de ne pas le faire. En fait, si la variable d'enquête se comportait exactement comme une telle variable aléatoire, l'estimation de la moyenne de population calculée en se servant des facteurs de correction pondérés selon le plan de sondage serait presque sans biais dans un certain sens (c'est-à-dire sous la combinaison du mécanisme d'échantillonnage probabiliste original et d'un modèle de prédiction), même si les unités échantillonnées dans un groupe n'ont pas toutes la même probabilité de répondre.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111680
    Description :

    Les données d'enquête peuvent être falsifiées par les intervieweurs, la fabrication de données étant la forme de falsification la plus flagrante. Même un petit nombre d'interviews contrefaites peuvent fausser gravement les résultats d'analyses empiriques subséquentes. Outre l'exécution de réinterviews, certaines approches statistiques ont été proposées pour repérer ce genre de comportement frauduleux. À l'aide d'un petit ensemble de données, le présent article illustre comment la classification automatique, qui n'est ordinairement pas employée dans ce contexte, pourrait être utilisée pour repérer les intervieweurs qui falsifient les tâches qui leur sont assignées. Plusieurs indicateurs sont combinés pour classer les intervieweurs « à risque » en se fondant uniquement sur les données recueillies. Cette classification multivariée semble supérieure à l'utilisation d'un seul indicateur tel que la loi de Benford.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111685
    Description :

    Les données d'enquêtes servent souvent à ajuster des modèles de régression linéaire. Les valeurs des covariables utilisées dans la modélisation n'étant toutefois pas contrôlées comme elles pourraient l'être dans une expérience, la colinéarité entre les covariables est un problème inévitable dans l'analyse des données d'enquêtes. Même si de nombreux livres et articles ont décrit le problème de la colinéarité et proposé des stratégies en vue de comprendre, d'évaluer et de traiter sa présence, la littérature sur les méthodes d'enquête n'a livré aucun outil diagnostique approprié pour évaluer son incidence sur l'estimation par la régression quand il est tenu compte de la complexité de l'enquête. Nous avons élaboré des facteurs d'inflation de la variance qui mesurent l'augmentation (« l'inflation ») de la variance des estimateurs des paramètres attribuable au fait que les variables explicatives ne sont pas orthogonales. Les facteurs d'inflation de la variance conviennent pour les estimateurs par la régression pondérée par les poids de sondage et tiennent compte des caractéristiques du plan de sondage complexe, par exemple, les pondérations, les grappes et les strates. Ces méthodes sont illustrées en utilisant un échantillon probabiliste provenant d'une enquête-ménage sur la santé et la nutrition.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 82-003-X201200111633
    Description :

    Le présent document explique la méthode servant à créer les géozones, qui représentent des seuils de caractéristiques de population fondés sur la région géographique, à partir des données du recensement, et qui peuvent servir à l'analyse des différences sociales ou économiques au chapitre de la santé et de l'utilisation des services de santé.

    Date de diffusion : 2012-03-21

  • Articles et rapports : 82-003-X201200111625
    Description :

    La présente étude compare les estimations de la prévalence de l'usage de la cigarette fondées sur des données autodéclarées aux estimations fondées sur les concentrations de cotinine urinaire. Les données proviennent de l'Enquête canadienne sur les mesures de la santé réalisée de 2007 à 2009, dans le cadre de laquelle ont été recueillies des données sur la situation d'usage du tabac autodéclarée et effectuées des mesures de la concentration de cotinine urinaire pour la première fois représentatives de la population nationale.

    Date de diffusion : 2012-02-15

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (22)

Analyses (22) (22 of 22 results)

  • Articles et rapports : 12-001-X201200211752
    Description :

    La coca est une plante indigène de la forêt tropicale humide amazonienne, dont on extrait la cocaïne, un alcaloïde illégal. Les agriculteurs considèrent comme délicates les questions concernant la superficie de leurs aires de culture de la coca dans les régions éloignées où cette plante est cultivée au Pérou. Par conséquent, ils ont tendance à ne pas participer aux enquêtes, à ne pas répondre aux questions de nature délicate ou à sous-déclarer la superficie de leurs aires individuelles de culture de la coca. La mesure exacte et fiable des aires de culture de la coca est une source de préoccupations politiques et stratégiques, ce qui fait que les méthodologistes d'enquête doivent déterminer comment encourager la déclaration honnête de données et la réponse aux questions de nature délicate concernant la culture de la coca. Parmi les stratégies d'enquête appliquées dans notre étude de cas figuraient l'établissement d'un rapport de confiance avec les agriculteurs, l'assurance de la confidentialité, la correspondance entre les caractéristiques des intervieweurs et celles des répondants, la modification de la présentation des questions de nature délicate et l'absence d'isolement absolu des répondants au cours de l'enquête. Les résultats de l'enquête ont été validés au moyen de données recueillies par satellite. Ils semblent indiquer que les agriculteurs ont tendance à sous-déclarer la superficie de leurs aires de culture de la coca dans une proportion de 35 % à 40 %.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211754
    Description :

    La méthode d'ajustement sur le score de propension est souvent adoptée pour traiter le biais de sélection dans les sondages, y compris la non-réponse totale et le sous-dénombrement. Le score de propension est calculé en se servant de variables auxiliaires observées dans tout l'échantillon. Nous discutons de certaines propriétés asymptotiques des estimateurs ajustés sur le score de propension et dérivons des estimateurs optimaux fondés sur un modèle de régression pour la population finie. Un estimateur ajusté sur le score de propension optimal peut être réalisé en se servant d'un modèle de score de propension augmenté. Nous discutons de l'estimation de la variance et présentons les résultats de deux études par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211757
    Description :

    Les colinéarités entre les variables explicatives des modèles de régression linéaire affectent les estimations fondées sur des données d'enquête autant que celles fondées sur des données ne provenant pas d'enquêtes. Les effets indésirables sont des erreurs-types inutilement grandes, des statistiques t faussement faibles ou élevées et des estimations des paramètres de signe illogique. Les diagnostics de colinéarité disponibles ne conviennent généralement pas pour les données d'enquête, parce que les estimateurs de variance qui y sont intégrés ne tiennent pas compte correctement de la stratification, des grappes et des poids de sondage. Dans le présent article, nous élaborons des indices de conditionnement et des décompositions de variance pour diagnostiquer les problèmes de colinéarité dans des données provenant d'enquêtes complexes. Les diagnostics adaptés sont illustrés au moyen de données provenant d'une enquête sur les caractéristiques de l'état de santé.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211759
    Description :

    L'un des avantages de l'imputation multiple est qu'elle permet aux utilisateurs des données de faire des inférences valides en appliquant des méthodes classiques avec des règles de combinaison simples. Toutefois, les règles de combinaison établies pour les tests d'hypothèse multivariés échouent quand l'erreur d'échantillonnage est nulle. Le présent article propose des tests modifiés utilisables dans les analyses en population finie de données de recensement comportant de multiples imputations pour contrôler la divulgation et remplacer des données manquantes, et donne une évaluation de leurs propriétés fréquentistes par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211755
    Description :

    La question de la non-réponse dans les études longitudinales est abordée en évaluant l'exactitude des modèles de propension à répondre construits pour distinguer et prédire les divers types de non-réponse. Une attention particulière est accordée aux mesures sommaires dérivées des courbes de la fonction d'efficacité du receveur, ou courbes ROC (de l'anglais receiver operating characteristics), ainsi que des courbes de type logit sur rangs. Les concepts sont appliqués à des données provenant de la Millennium Cohort Study du Royaume-Uni. Selon les résultats, la capacité de faire la distinction entre les divers types de non-répondants et de les prévoir n'est pas grande. Les poids produits au moyen des modèles de propension à répondre ne donnent lieu qu'à de faibles corrections des transitions entre situations d'emploi. Des conclusions sont tirées quant aux possibilités d'intervention en vue de prévenir la non-réponse.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211758
    Description :

    Le présent article décrit l'élaboration de deux méthodes bayésiennes d'inférence au sujet des quantiles de variables d'intérêt continues d'une population finie sous échantillonnage avec probabilités inégales. La première de ces méthodes consiste à estimer les fonctions de répartition des variables étudiées continues en ajustant un certain nombre de modèles de régression probit avec splines pénalisées sur les probabilités d'inclusion. Les quantiles de population finie sont alors obtenus par inversion des fonctions de répartition estimées. Cette méthode demande considérablement de calculs. La deuxième méthode consiste à prédire les valeurs pour les unités non échantillonnées en supposant qu'il existe une relation variant de façon lisse entre la variable étudiée continue et la probabilité d'inclusion, en modélisant la fonction moyenne ainsi que de la fonction de variance en se servant de splines. Les deux estimateurs bayésiens fondés sur un modèle avec splines donnent un compromis désirable entre la robustesse et l'efficacité. Des études par simulation montrent que les deux méthodes produisent une racine carrée de l'erreur quadratique moyenne plus faible que l'estimateur pondéré par les poids de sondage et que les estimateurs par le ratio et par différence décrits dans Rao, Kovar et Mantel (RKM 1990), et qu'ils sont plus robustes à la spécification incorrecte du modèle que l'estimateur fondé sur un modèle de régression passant par l'origine décrit dans Chambers et Dunstan (1986). Lorsque la taille de l'échantillon est petite, les intervalles de crédibilité à 95 % des deux nouvelles méthodes ont une couverture plus proche du niveau nominal que l'estimateur pondéré par les poids de sondage.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211751
    Description :

    La qualité des enquêtes est un concept multidimensionnel issu de deux démarches de développement distinctes. La première démarche suit le paradigme de l'erreur d'enquête totale, qui repose sur quatre piliers dont émanent les principes qui guident la conception de l'enquête, sa mise en oeuvre, son évaluation et l'analyse des données. Nous devons concevoir les enquêtes de façon que l'erreur quadratique moyenne d'une estimation soit minimisée compte tenu du budget et d'autres contraintes. Il est important de tenir compte de toutes les sources connues d'erreur, de surveiller les principales d'entre elles durant la mise en oeuvre, d'évaluer périodiquement les principales sources d'erreur et les combinaisons de ces sources après l'achèvement de l'enquête, et d'étudier les effets des erreurs sur l'analyse des données. Dans ce contexte, on peut mesurer la qualité d'une enquête par l'erreur quadratique moyenne, la contrôler par des observations faites durant la mise en oeuvre et l'améliorer par des études d'évaluation. Le paradigme possède des points forts et des points faibles. L'un des points forts tient au fait que la recherche peut être définie en fonction des sources d'erreur et l'un des points faibles, au fait que la plupart des évaluations de l'erreur d'enquête totale sont incomplètes, en ce sens qu'il est impossible d'inclure les effets de toutes les sources. La deuxième démarche est influencée par des idées empruntées aux sciences de la gestion de la qualité. Ces sciences ont pour objet de permettre aux entreprises d'exceller dans la fourniture de produits et de services en se concentrant sur leurs clients et sur la concurrence. Ces idées ont eu une très grande influence sur de nombreux organismes statistiques. Elles ont notamment amené les fournisseurs de données à reconnaître qu'un produit de qualité ne peut pas être obtenu si la qualité des processus sous-jacents n'est pas suffisante et que des processus de qualité suffisante ne peuvent pas être obtenus sans une bonne qualité organisationnelle. Ces divers niveaux peuvent être contrôlés et évalués au moyen d'ententes sur le niveau de service, de sondages auprès des clients, d'analyses des paradonnées en recourant au contrôle statistique des processus et d'évaluations organisationnelles en se servant de modèles d'excellence opérationnelle ou d'autres ensembles de critères. À tous les niveaux, on peut rehausser la qualité en lançant des projets d'amélioration choisis selon des fonctions de priorité. L'objectif ultime de ces projets d'amélioration est que les processus concernés s'approchent progressivement d'un état où ils sont exempts d'erreur. Naturellement, il pourrait s'agir d'un objectif impossible à atteindre, mais auquel il faut tenter de parvenir. Il n'est pas raisonnable d'espérer obtenir des mesures continues de l'erreur d'enquête totale en se servant de l'erreur quadratique moyenne. Au lieu de cela, on peut espérer qu'une amélioration continue de la qualité par l'application des idées des sciences de la gestion ainsi que des méthodes statistiques permettra de minimiser les biais et d'autres problèmes que posent les processus d'enquête, afin que la variance devienne une approximation de l'erreur quadratique moyenne. Si nous y arrivons, nous aurons fait coïncider approximativement les deux démarches de développement.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211756
    Description :

    Nous proposons une nouvelle approche d'estimation sur petits domaines fondée sur la modélisation conjointe des moyennes et des variances. Le modèle et la méthodologie que nous proposons améliorent non seulement les estimateurs sur petits domaines, mais donnent aussi des estimateurs « lissés » des vraies variances d'échantillonnage. Le maximum de vraisemblance des paramètres du modèle est estimé au moyen de l'algorithme EM en raison de la forme non classique de la fonction de vraisemblance. Les intervalles de confiance des paramètres de petit domaine sont obtenus en adoptant une approche de la théorie de la décision plus générale que l'approche classique de minimisation de la perte quadratique. Les propriétés numériques de la méthode proposée sont étudiées au moyen d'études par simulation et comparées à celles de méthodes concurrentes proposées dans la littérature. Une justification théorique des propriétés effectives des estimateurs et intervalles de confiance résultants est également présentée.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 82-003-X201200311707
    Description :

    La présente étude compare la circonférence de la taille mesurée selon le protocole de l'Organisation mondiale de la Santé et selon celui des National Institutes of Health afin de déterminer si les résultats diffèrent de manière significative et si des équations peuvent être établies pour permettre de comparer la circonférence de la taille mesurée à deux endroits différents.

    Date de diffusion : 2012-09-20

  • Articles et rapports : 12-001-X201200111682
    Description :

    Les questions concernant la répartition de l'échantillon sont étudiées dans le contexte de l'estimation des moyennes de sous-population (strate ou domaine), ainsi que de la moyenne de population agrégée sous-échantillonnage aléatoire simple stratifié. Une méthode de programmation non linéaire est utilisée pour obtenir la répartition « optimale » de l'échantillon entre les strates qui minimise la taille totale d'échantillon sous la contrainte des tolérances spécifiées pour les coefficients de variation des estimateurs des moyennes de strate et de la moyenne de population. La taille totale d'échantillon résultante est alors utilisée pour déterminer les répartitions de l'échantillon par les méthodes de Costa, Satorra et Ventura (2004) s'appuyant sur une répartition intermédiaire ou de compromis et de Longford (2006) fondée sur des « priorités inférencielles » spécifiées. En outre, nous étudions la répartition de l'échantillon entre les strates quand sont également spécifiées des exigences de fiabilité pour des domaines qui recoupent les strates. Les propriétés des trois méthodes sont étudiées au moyen de données provenant de l'Enquête mensuelle sur le commerce de détail (EMCD) menée par Statistique Canada auprès d'établissements uniques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111684
    Description :

    De nombreuses enquêtes-entreprises fournissent des estimations du chiffre d'affaires mensuel pour les principaux codes de la Classification type des industries. Cela inclut les estimations des variations du niveau du chiffre d'affaires mensuel comparativement à 12 mois plus tôt. Comme des échantillons chevauchant sont souvent utilisés dans les enquêtes-entreprises, les estimations du chiffre d'affaires durant des mois consécutifs sont corrélées, ce qui complique le calcul de la variance des variations. Le présent article décrit une procédure générale d'estimation de la variance qui comprend des corrections annuelles des strates quand des établissements passent dans d'autres strates en raison de leur taille réelle. La procédure tient également compte du renouvellement des échantillons, ainsi que des nouvelles unités et des unités disparues. L'article se termine par un exemple de calcul de la variance de l'estimation du taux de croissance annuel du chiffre d'affaires mensuel des supermarchés des Pays-Bas.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111686
    Description :

    Nous présentons une approche fondée sur des équations d'estimation généralisées pour estimer le coefficient de corrélation de concordance et le coefficient kappa d'après des données d'enquête. Les estimations ainsi que leurs erreurs-types doivent tenir compte correctement du plan d'échantillonnage. Nous présentons des mesures pondérées du coefficient de corrélation de concordance et du coefficient kappa, ainsi que la variance de ces mesures tenant compte du plan d'échantillonnage. Nous utilisons la méthode de linéarisation par série de Taylor et la procédure du jackknife pour estimer les erreurs-types des estimations résultantes des paramètres. Des mesures anthropométriques et des données sur la santé buccodentaire provenant de la Third National Health and Nutrition Examination Survey sont utilisées pour illustrer cette méthodologie.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111683
    Description :

    Nous considérons diverses options de remplacement de la poststratification dans le cas de données croisées à deux dimensions pour lesquelles la fréquence d'au moins l'une des cellules du tableau à double entrée est trop faible pour permettre la poststratification en se basant sur cette classification double. Dans le jeu de données utilisé pour l'étude, la fréquence prévue dans la cellule la plus petite est de 0,36. Une approche consiste simplement à regrouper certaine cellules. Néanmoins, il est probable que cela détruise la structure de la classification double. Les approches de remplacement que nous proposons permettent de maintenir la classification à double entrée originale des données. Elles sont fondées sur l'étude du calage de Chang et Kott (2008). Nous choisissons des ajustements des pondérations qui dépendent des classifications marginales (mais non de la classification croisée complète) pour minimiser une fonction d'objectif correspondant aux différences entre les fréquences dans la population et dans les cellules du tableau à double entrée et leurs estimations sur échantillon. Selon la terminologie de Chang et Kott (2008), si les classifications par ligne et par colonne comprennent I et J cellules, respectivement, on obtient IJ variables de référence et I + J - 1 variables du modèle. Nous étudions les propriétés de ces estimateurs en créant des échantillons aléatoires simples pour la simulation d'après les données du Quarterly Census of Employment and Wages de 2005 tenues à jour par le Bureau of Labor Statistics. Nous procédons à la classification croisée de l'État et du groupe d'industries. Dans notre étude, comparativement à l'estimateur sans biais, les approches de calage introduisent un biais asymptotiquement négligeable, mais donnent une réduction de l'EQM pouvant aller jusqu'à 20 % pour un petit échantillon.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111681
    Description :

    La présente étude porte sur l'application de la théorie des graphes à l'élaboration et à l'essai d'instruments d'enquête. Une approche fondée sur la théorie des graphes présente plusieurs avantages par rapport aux approches conventionnelles au chapitre de la structure et des caractéristiques du système de spécifications des instruments de recherche, en particulier les instruments assistés par ordinateur et de vaste portée. La possibilité de vérifier la connectivité de tous les éléments constitue l'un de ces avantages, de même que la capacité de simuler un instrument. Une telle approche permet aussi de produire des mesures servant à décrire l'instrument, par exemple le nombre de chemins et de parcours. Le concept de la « base » est abordé dans le contexte des essais des logiciels. Ce terme désigne le plus petit ensemble de parcours, parmi tous ceux que comporte un instrument, qui couvre tous les appariements de liens et de noeuds. Ces parcours peuvent être utilisés à titre d'ensemble complet et économique de cas types pour faire l'essai des instruments.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111689
    Description :

    En cas de non-réponse totale d'une unité dans un échantillon tiré suivant les principes de l'échantillonnage probabiliste, une pratique courante consiste à diviser l'échantillon en groupes mutuellement exclusifs de manière qu'il soit raisonnable de supposer que toutes les unités échantillonnées dans un groupe ont la même probabilité de ne pas répondre. De cette façon, la réponse d'une unité peut être traitée comme une phase supplémentaire de l'échantillonnage probabiliste en se servant de l'inverse de la probabilité de réponse estimée d'une unité dans un groupe comme facteur de correction pour calculer les poids finaux pour les répondants du groupe. Si l'objectif est d'estimer la moyenne de population d'une variable d'enquête qui se comporte plus ou moins comme une variable aléatoire dont la moyenne est constante dans chaque groupe indépendamment des poids de sondage originaux, il est habituellement plus efficace d'intégrer les poids de sondage dans les facteurs de correction que de ne pas le faire. En fait, si la variable d'enquête se comportait exactement comme une telle variable aléatoire, l'estimation de la moyenne de population calculée en se servant des facteurs de correction pondérés selon le plan de sondage serait presque sans biais dans un certain sens (c'est-à-dire sous la combinaison du mécanisme d'échantillonnage probabiliste original et d'un modèle de prédiction), même si les unités échantillonnées dans un groupe n'ont pas toutes la même probabilité de répondre.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111680
    Description :

    Les données d'enquête peuvent être falsifiées par les intervieweurs, la fabrication de données étant la forme de falsification la plus flagrante. Même un petit nombre d'interviews contrefaites peuvent fausser gravement les résultats d'analyses empiriques subséquentes. Outre l'exécution de réinterviews, certaines approches statistiques ont été proposées pour repérer ce genre de comportement frauduleux. À l'aide d'un petit ensemble de données, le présent article illustre comment la classification automatique, qui n'est ordinairement pas employée dans ce contexte, pourrait être utilisée pour repérer les intervieweurs qui falsifient les tâches qui leur sont assignées. Plusieurs indicateurs sont combinés pour classer les intervieweurs « à risque » en se fondant uniquement sur les données recueillies. Cette classification multivariée semble supérieure à l'utilisation d'un seul indicateur tel que la loi de Benford.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111685
    Description :

    Les données d'enquêtes servent souvent à ajuster des modèles de régression linéaire. Les valeurs des covariables utilisées dans la modélisation n'étant toutefois pas contrôlées comme elles pourraient l'être dans une expérience, la colinéarité entre les covariables est un problème inévitable dans l'analyse des données d'enquêtes. Même si de nombreux livres et articles ont décrit le problème de la colinéarité et proposé des stratégies en vue de comprendre, d'évaluer et de traiter sa présence, la littérature sur les méthodes d'enquête n'a livré aucun outil diagnostique approprié pour évaluer son incidence sur l'estimation par la régression quand il est tenu compte de la complexité de l'enquête. Nous avons élaboré des facteurs d'inflation de la variance qui mesurent l'augmentation (« l'inflation ») de la variance des estimateurs des paramètres attribuable au fait que les variables explicatives ne sont pas orthogonales. Les facteurs d'inflation de la variance conviennent pour les estimateurs par la régression pondérée par les poids de sondage et tiennent compte des caractéristiques du plan de sondage complexe, par exemple, les pondérations, les grappes et les strates. Ces méthodes sont illustrées en utilisant un échantillon probabiliste provenant d'une enquête-ménage sur la santé et la nutrition.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 82-003-X201200111633
    Description :

    Le présent document explique la méthode servant à créer les géozones, qui représentent des seuils de caractéristiques de population fondés sur la région géographique, à partir des données du recensement, et qui peuvent servir à l'analyse des différences sociales ou économiques au chapitre de la santé et de l'utilisation des services de santé.

    Date de diffusion : 2012-03-21

  • Articles et rapports : 82-003-X201200111625
    Description :

    La présente étude compare les estimations de la prévalence de l'usage de la cigarette fondées sur des données autodéclarées aux estimations fondées sur les concentrations de cotinine urinaire. Les données proviennent de l'Enquête canadienne sur les mesures de la santé réalisée de 2007 à 2009, dans le cadre de laquelle ont été recueillies des données sur la situation d'usage du tabac autodéclarée et effectuées des mesures de la concentration de cotinine urinaire pour la première fois représentatives de la population nationale.

    Date de diffusion : 2012-02-15

Références (3)

Références (3) (3 results)

  • Produits techniques : 75F0002M2012003
    Description :

    La diffusion des données de 2010 de l'Enquête sur la dynamique du travail et du revenu (EDTR) a coïncidé avec une révision historique des résultats de 2006 à 2009. Les poids de l'enquête ont été mis à jour afin de tenir compte des nouvelles estimations démographiques fondées sur le Recensement de 2006, plutôt que sur le Recensement de 2001. Le présent document présente de façon sommaire les répercussions de cette révision sur les estimations d'enquête pour la période 2006-2009.

    Date de diffusion : 2012-11-01

  • Produits techniques : 12-002-X201200111642
    Description :

    En général, il est recommandé de recourir à l'estimation pondérée au moment d'analyser les données d'un fichier de microdonnées issues du questionnaire complet du recensement. Puisque de tels fichiers de données sont maintenant disponibles dans les CDR, il est nécessaire de donner aux chercheurs de ces centres plus d'information sur la façon de procéder à une estimation pondérée avec ces fichiers. Ce document a pour objectif de fournir cette information, plus particulièrement la façon avec laquelle les variables de pondération ont été dérivées pour les fichiers de microdonnées du recensement et la pondération qui devrait être utilisée pour différentes unités d'analyse. Dans le cas des recensements de 1996, 2001 et 2006, la même variable de pondération est appropriée peu importe si ce sont des personnes, des familles ou des ménages qui sont étudiés. Dans le cas du Recensement de 1991, les recommandations sont plus complexes : une variable de pondération différente de celle des personnes et des familles est requise pour les ménages, et d'autres restrictions s'appliquent pour obtenir la bonne valeur de pondération pour les familles.

    Date de diffusion : 2012-10-25

  • Produits techniques : 11-522-X2009000
    Description :

    Le Symposium 2009 était le 25e Symposium international sur les questions de méthodologie de Statistique Canada. Chaque année, le Symposium se penche sur un thème précis. En 2009, le thème était : « Les enquêtes longitudinales : de la conception à l'analyse ».

    Date de diffusion : 2012-10-03

Date de modification :