Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

41 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

41 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

41 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

41 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (61)

Tout (61) (25 of 61 results)

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201700614829
    Description :

    Le POHEM-IMC est un outil de microsimulation comprenant un modèle de l’IMC chez les adultes et un modèle des antécédents en matière d’IMC pendant l’enfance. Cet aperçu décrit l’élaboration de modèles de prédiction de l’IMC chez les adultes et des antécédents en matière d’IMC pendant l’enfance, et compare les estimations de l’IMC projetées aux estimations issues de données d’enquête représentatives de la population canadienne pour en établir la validité.

    Date de diffusion : 2017-06-21

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Produits techniques : 11-522-X201700014717
    Description :

    Les fichiers comprenant des données couplées du Système d’information sur les étudiants postsecondaires (SIEP) de Statistique Canada et des données fiscales peuvent servir à examiner les trajectoires des étudiants qui poursuivent des études postsecondaires (EPS) et leurs résultats sur le marché du travail par la suite. D’une part, les données administratives sur les étudiants couplées de façon longitudinale peuvent fournir des renseignements agrégés sur les trajectoires des étudiants pendant leurs études postsecondaires, comme les taux de persévérance, les taux de diplomation, la mobilité, etc. D’autre part, les données fiscales peuvent compléter le SIEP et fournir des renseignements sur les résultats au chapitre de l’emploi, comme la rémunération moyenne et médiane ou la progression de la rémunération selon le secteur d’emploi (industrie), le domaine d’études, le niveau de scolarité et/ou d’autres données démographiques, année après année suivant l’obtention du diplôme. Deux études longitudinales pilotes ont été menées au moyen de données administratives sur les étudiants postsecondaires d’établissements des Maritimes, qui ont été couplées de façon longitudinale et avec le fichier de données fiscales de Statistique Canada (le fichier sur la famille T1) pour les années pertinentes. Cet article met d’abord l’accent sur la qualité des renseignements compris dans les données administratives et sur la méthode utilisée pour mener ces études longitudinales et calculer des indicateurs. En deuxième lieu, elle portera sur certaines limites liées à l’utilisation de données administratives, plutôt que de données d’enquête, pour définir certains concepts.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014711
    Description :

    Après le Recensement de 2010, le U.S. Census Bureau a mené deux projets de recherche distincts, en vue d’apparier des données d’enquête et des bases de données. Dans le cadre d’une étude, on a procédé à un appariement avec la base de données du tiers Accurint, et dans un autre cas, avec les fichiers du National Change of Address (NCOA) du U.S. Postal Service. Dans ces deux projets, nous avons évalué l’erreur de réponse dans les dates de déménagement déclarées en comparant les dates de déménagement autodéclarées et les enregistrements de la base de données. Nous avons fait face aux mêmes défis dans le cadre des deux projets. Le présent document aborde notre expérience de l’utilisation des « mégadonnées », en tant que source de comparaison pour les données d’enquête, ainsi que les leçons que nous avons apprises pour des projets futurs similaires à ceux que nous avons menés.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114200
    Description :

    Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500314143
    Description :

    La présente étude évalue le caractère représentatif de l’échantillon regroupé d’immigrants qui ont participé à l’Enquête canadienne sur les mesures de la santé menée en 2007-2009 et en 2009-2011, en comparant celui-ci avec les répartitions sociodémographiques propres au Recensement de 2006 et à l’Enquête nationale auprès des ménages de 2011 et avec certains indicateurs – de l’état de santé et des comportements influant sur la santé – autodéclarés de l’Enquête sur la santé dans les collectivités canadiennes menée en 2009-2010.

    Date de diffusion : 2015-03-18

  • Articles et rapports : 12-001-X201400214113
    Description :

    Les enquêtes par panel à renouvellement servent à calculer des estimations des flux bruts entre deux périodes consécutives de mesure. Le présent article examine une procédure générale pour estimer les flux bruts lorsque l’enquête par panel à renouvellement a été générée à partir d’un plan de sondage complexe avec non-réponse aléatoire. Une approche à pseudo-maximum de vraisemblance est envisagée dans le contexte d’un modèle à deux degrés de chaînes de Markov pour le classement des personnes dans les catégories de l’enquête et pour la modélisation de la non-réponse.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014284
    Description :

    La diminution des taux de réponse observée par plusieurs instituts nationaux de statistique, leur volonté de limiter le fardeau de même que l’importance des contraintes budgétaires auxquelles ils font face favorisent une utilisation accrue des données administratives pour la production de renseignements statistiques. Les sources de données administratives qu’ils sont amenés à considérer doivent être évaluées afin d’en déterminer l’adéquation à l’utilisation, et ce en tenant compte de plusieurs aspects. Une démarche d’évaluation des sources de données administratives en vue de leur utilisation comme intrant à des processus de production de renseignements statistiques a récemment été élaborée à Statistique Canada. Celle-ci comprend essentiellement deux phases. La première phase ne nécessite que l’accès aux métadonnées associées aux données administratives considérées alors que la deuxième est effectuée à partir d’une version des données permettant l’évaluation. La démarche et l’outil d’évaluation sont présentés dans cet article.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014264
    Description :

    Bien que les milieux humides occupent seulement 6,4% de la superficie de notre planète, ils sont primordiaux à la survie des espèces terrestres. Ces écosystèmes requièrent une attention toute particulière au Canada puisque près de 25% de leur superficie mondiale se retrouve en sol canadien. Environnement Canada (EC) possède des méga-bases de données où sont rassemblées toutes sortes d’informations sur les milieux humides provenant de diverses sources. Avant que les informations contenues dans ces bases de données ne puissent être utilisées pour soutenir quelque initiative environnementale que ce soit, elles se devaient d’abord d’être répertoriées puis évaluées quant à leur qualité. Dans cet exposé, nous présentons un aperçu du projet pilote mené conjointement par EC et Statistique Canada afin d’évaluer la qualité des informations contenues dans ces bases de données, elles qui présentent à la fois certains des attributs propres aux données volumineuses (« Big Data »), aux données administratives et aux données d’enquête.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014255
    Description :

    Le Centre d’information de réseau brésilien (NIC.br) a conçu et mené un projet pilote pour recueillir des données sur le Web, afin de produire des statistiques concernant les caractéristiques des pages Web. Les études des caractéristiques et des dimensions du Web exigent la collecte et l’analyse de données dans un environnement dynamique et complexe. L’idée de base est de recueillir des données sur un échantillon de pages Web, automatiquement, en utilisant le logiciel appelé moteur de recherche Web. Le présent article vise à diffuser les méthodes et les résultats de cette étude, ainsi qu’à démontrer les progrès actuels liés aux techniques d’échantillonnage dans un environnement dynamique.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201401014098
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 82-003-X201301011873
    Description :

    On a élaboré un modèle de simulation informatique de l'activité physique pour la population adulte canadienne à partir des données longitudinales de l'Enquête nationale sur la santé de la population et des données transversales de l'Enquête sur la santé dans les collectivités canadiennes. Ce modèle est basé sur la plateforme du Modèle de santé de la population (POHEM), élaboré par Statistique Canada. Le présent article donne un aperçu du POHEM et une description des ajouts qui y ont été faits pour créer le module de l'activité physique (POHEM-PA). Ces ajouts comprennent l'évolution du niveau dMactivité physique dans le temps et la relation entre les niveaux d'activité physique et l'espérance de vie ajustée sur la santé, l'espérance de vie et l'apparition de certains problèmes de santé chroniques. Des estimations tirées de projections obtenues par simulation sont comparées avec des données d'enquête représentatives à l'échelle nationale, fournissant ainsi une indication de la validité du POHEM-PA.

    Date de diffusion : 2013-10-16

  • Articles et rapports : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211603
    Description :

    De nombreuses enquêtes par sondage comprennent des questions suscitant une réponse binaire (par exemple, obèse, non obèse) pour un certain nombre de petits domaines. Une inférence est requise au sujet de la probabilité d'une réponse positive (par exemple obèse) dans chaque domaine, la probabilité étant la même pour tous les individus dans chaque domaine et différente entre les domaines. Étant donné le peu de données dans les domaines, les estimateurs directs ne sont pas fiables et il est nécessaire d'utiliser des données provenant d'autres domaines pour améliorer l'inférence pour un domaine particulier. Essentiellement, il est supposé a priori que les domaines sont similaires, si bien que le choix d'un modèle hiérarchique bayésien, le modèle bêta-binomial standard, est naturel. L'innovation tient au fait qu'un praticien peut disposer d'information a priori supplémentaire qui est nécessaire au sujet d'une combinaison linéaire des probabilités. Par exemple, une moyenne pondérée des probabilités est un paramètre, et l'information peut être obtenue au sujet de ce paramètre, ce qui rend le paradigme bayésien approprié. Nous avons modifié le modèle bêta-binomial standard pour petits domaines afin d'y intégrer l'information a priori sur la combinaison linéraire des probabilités, que nous appelons une contrainte. Donc, il existe trois cas. Le practicien a) ne spécifie pas de contrainte, b) spécifie une contrainte et le paramètre entièrement et c) spécifie une contrainte et l'information qui peut être utilisée pour construire une loi a priori pour le paramètre. L'échantillonneur de Gibbs « griddy » est utilisé pour ajuster les modèles. Pour illustrer notre méthode, nous prenons l'exemple de l'obésité chez les enfants dans la National Health and Nutrition Examination Survey dans laquelle les petits domaines sont formés par croisement de l'école (cycle secondaire inférieur ou supérieur), de l'etnicité (blanche, noire, mexicaine) et du sexe (masculin, féminin). Nous procédons à une étude en simulation pour évaluer certaines caractéristiques statistiques de notre méthode. Nous avons montré que le gain de précision au-delà de (a) est dans l'ordre où (b) est plus grand que (c).

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100111443
    Description :

    Les enquêtes téléphoniques à base de sondage double deviennent fréquentes aux États-Unis en raison de l'incomplétude de la liste de numéros de téléphone fixe causée par l'adoption progressive du téléphone mobile. Le présent article traite des erreurs non dues à l'échantillonnage dans les enquêtes téléphoniques à base de sondage double. Alors que la plupart des publications sur les bases de sondage doubles ne tiennent pas compte des erreurs non dues à l'échantillonnage, nous constatons que ces dernières peuvent, dans certaines conditions, causer des biais importants dans les enquêtes téléphoniques à base de sondage double. Nous examinons en particulier les biais dus à la non-réponse et à l'erreur de mesure dans ces enquêtes. En vue de réduire le biais résultant de ces erreurs, nous proposons des méthodes d'échantillonnage à base de sondage double et de pondération. Nous montrons que le facteur de composition utilisé pour combiner les estimations provenant de deux bases de sondage joue un rôle important dans la réduction du biais de non-réponse.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201000111244
    Description :

    Nous étudions le problème de la sélection de modèles non paramétriques pour l'estimation sur petits domaines, auquel beaucoup d'attention a été accordée récemment. Nous élaborons une méthode fondée sur le concept de la méthode de l'enclos (fence method) de Jiang, Rao, Gu et Nguyen (2008) pour sélectionner la fonction moyenne pour les petits domaines parmi une classe de splines d'approximation. Les études par simulations montrent que la nouvelle méthode donne des résultats impressionnants, même si le nombre de petits domaines est assez faible. Nous appliquons la méthode à un ensemble de données hospitalières sur les échecs de greffe pour choisir un modèle non paramétrique de type Fay­Herriot.

    Date de diffusion : 2010-06-29

  • Produits techniques : 11-522-X200800010988
    Description :

    La collecte des données en ligne a commencé en 1995. Il s'agissait alors d'une solution de rechange pour mener certains types de recherche auprès des consommateurs, mais elle a pris de l'ampleur en 2008. Cette croissance a surtout été observée dans les études qui utilisent des méthodes d'échantillonnage non probabiliste. Bien que l'échantillonnage en ligne ait acquis de la crédibilité pour ce qui est de certaines applications de recherche, de sérieuses questions demeurent concernant le bien-fondé des échantillons prélevés en ligne dans le cas des recherches exigent des mesures volumétriques précises du comportement de la population des États-Unis, notamment en ce qui a trait aux voyages. Dans le présent exposé, nous passons en revue la documentation et comparons les résultats d'études fondées sur des échantillons probabilistes et des échantillons prélevés en ligne pour comprendre les différences entre ces deux méthodes d'échantillonnage. Nous montrons aussi que les échantillons prélevés en ligne sous-estiment d'importants types de voyages, même après pondération en fonction de données démographiques et géographiques.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010993
    Description :

    Jusqu'à maintenant, il fallait des années d'expérience en conception de questionnaires afin d'estimer le temps requis, en moyenne, par les répondants pour remplir le questionnaire ITAO d'une nouvelle enquête. Cet exposé porte sur une nouvelle méthode qui produit des estimations du temps requis pour remplir le questionnaire à l'étape de l'élaboration. La méthode s'appuie sur les données Blaise de vérification à rebours et sur des enquêtes antérieures. Elle a été élaborée, mise à l'essai et soumise à une vérification de l'exactitude dans le cadre de quelques grandes enquêtes.

    Tout d'abord, les données de vérification à rebours servent à déterminer le temps moyen qu'ont pris les répondants dans les enquêtes antérieures pour répondre à des types particuliers de questions. Il s'agit, entre autres, de questions exigeant des réponses par oui ou par non, des réponses indiquées sur une échelle, ou de type « cochez tout ce qui s'applique ». Ensuite, pour un questionnaire donné, les parcours des sous-groupes de la population sont représentés pour déterminer les séries de questions auxquelles ont répondu différents types de répondants, et chronométrés pour déterminer la durée maximale de l'interview. Enfin, le temps global prévu pour remplir le questionnaire est calculé en fonction de l'estimation de la proportion de la population qui devrait répondre à chacune des questions.

    Jusqu'à présent, nous avons utilisé les paradonnées pour estimer avec exactitude le temps requis, en moyenne, par les répondants pour terminer l'interview. Toutefois, la méthode que nous avons mise au point peut également servir à déterminer le temps de réponse requis pour des répondants particuliers.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010970
    Description :

    RTI International mène une étude longitudinale sur l'éducation. L'un des volets de l'étude consistait à recueillir des relevés de notes et des catalogues de cours auprès des écoles secondaires fréquentées par les personnes comprises dans l'échantillon. Il fallait aussi saisir et coder les renseignements tirés de ces documents. Le défi était de taille puisque les relevés et les catalogues, dont le contenu et la présentation variaient grandement, ont été recueillis auprès de différents types d'écoles, dont des écoles publiques, privées et religieuses de tout le pays. La difficulté consistait à concevoir un système perfectionné pouvant être utilisé simultanément par de nombreux utilisateurs. RTI a mis au point un système de saisie et de codage des données tirées des relevés de notes et des catalogues de cours d'études secondaires. Doté de toutes les caractéristiques d'un système de saisie et de codage haut de gamme, évolué, multi-utilisateur, multitâche, convivial et d'entretien peu coûteux, le système est basé sur le Web et possède trois grandes fonctions : la saisie et le codage des données des relevés et des catalogues, le contrôle de la qualité des données à l'étape de la saisie (par les opérateurs) et le contrôle de la qualité des données à l'étape du codage (par les gestionnaires). Compte tenu de la nature complexe de la saisie et du codage des données des relevés et des catalogues, le système a été conçu pour être souple et pour permettre le transport des données saisies et codées dans tout le système afin de réduire le temps de saisie. Il peut aussi guider logiquement les utilisateurs dans toutes les pages liées à un type d'activité, afficher l'information nécessaire pour faciliter la saisie et suivre toutes les activités de saisie, de codage et de contrôle de la qualité. Les données de centaines de catalogues et de milliers de relevés de notes ont été saisies, codées et vérifiées à l'aide du système. La présente communication aborde les besoins et la conception du système, les problèmes de mise en oeuvre et les solutions adoptées, ainsi que les leçons tirées de cette expérience.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010968
    Description :

    Statistique Canada a lancé un programme destiné à intensifier et à améliorer l'utilisation de la technologie d'imagerie pour le traitement des questionnaires d'enquête imprimés. Le but est d'en faire une méthode efficace, fiable et économique de saisie des données. L'objectif est de continuer de se servir de la reconnaissance optique de caractères (ROC) pour saisir les données des questionnaires, des documents et des télécopies reçus, tout en améliorant l'intégration du processus et l'assurance de la qualité/le contrôle de la qualité (CQ) du processus de saisie des données. Ces améliorations sont exposées dans le présent article.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011004
    Description :

    L'idée de réduire le fardeau de réponse n'est pas nouvelle. Statistics Sweden cherche par plusieurs moyens à réduire le fardeau de réponse et les coûts administratifs liés à la collecte de données auprès d'entreprises et d'organisations. En vertu de la loi, Statistics Sweden est tenu de réduire le fardeau de réponse des entreprises; cette tâche constitue donc une priorité. L'État a décidé de réduire les coûts administratifs des enquêtes auprès des entreprises de 25 % d'ici 2010. Cet objectif vaut également pour la collecte de données à des fins statistiques. Les enquêtes visées sont celles auxquelles la participation est obligatoire en vertu de la loi, ainsi que bon nombre d'autres enquêtes pour lesquelles il faut mesurer et réduire le fardeau de réponse. Afin de mesurer, d'analyser et de réduire le fardeau de réponse, Statistics Sweden a mis au point le Registre des fournisseurs de données concernant les entreprises et les organisations (le registre ULR), dont l'objectif est double : mesurer et analyser le fardeau de réponse au niveau agrégé et fournir à chaque entreprise des renseignements sur les enquêtes auxquelles elle participe.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 12-001-X200800210761
    Description :

    La stratification optimale est la méthode qui consiste à choisir les meilleures bornes qui rendent les strates intérieurement homogènes, étant donné la répartition de l'échantillon. Afin de rendre les strates intérieurement homogènes, celles ci doivent être construites de façon que les variances de strate de la caractéristique étudiée soient aussi faibles que possible. Un moyen efficace d'y arriver, si l'on connaît la distribution de la principale variable étudiée, consiste à créer des strates en découpant l'étendue de la distribution à des points appropriés. Si la distribution des fréquences de la variable étudiée est inconnue, on peut l'approximer en se fondant sur l'expérience passée ou sur certains renseignements a priori obtenus au cours d'une étude récente. Dans le présent article, le problème de la détermination des bornes optimales de strate (BOS) est considéré comme étant le problème de la détermination des largeurs optimales de strate (LOS). Il est formulé comme un problème de programmation mathématique (PPM) consistant à minimiser la variance du paramètre de population estimé sous la répartition de Neyman en imposant que la somme des largeurs des strates soit égale à l'étendue totale de la distribution. La variable étudiée est considérée comme suivant un loi continue dont la densité de probabilité est triangulaire ou normale standard. Les PPM formulés, qui s'avèrent être des problèmes de décision à plusieurs degrés, peuvent alors être résolus en utilisant la méthode de programmation dynamique proposée par Bühler et Deutler (1975). Des exemples numériques sont présentés pour illustrer les calculs. Les résultats obtenus sont également comparés à ceux donnés par la méthode de Dalenius et Hodges (1959) dans le cas d'une distribution normale.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200800110611
    Description :

    En échantillonnage de populations finies, on dispose souvent d'information a priori sous la forme de renseignements partiels sur une variable auxiliaire, dont on connaît, par exemple, la moyenne. Dans de tels cas, on utilise fréquemment l'estimateur par le ratio et l'estimateur par la régression pour estimer la moyenne de population de la caractéristique d'intérêt. La loi a posteriori de Pólya a été établie à titre d'approche bayésienne non informative de l'échantillonnage. Son application est indiquée quand on ne dispose que de peu d'information a priori, voire aucune, au sujet de la population. Ici, nous montrons que cette loi peut être étendue afin d'y intégrer divers types d'information a priori partielle au sujet des variables auxiliaires. Nous verrons que cette approche produit généralement des méthodes ayant de bonnes propriétés fréquentistes, même dans certains cas où les méthodes fréquentistes classiques sont difficiles à appliquer.

    Date de diffusion : 2008-06-26

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (36)

Analyses (36) (25 of 36 results)

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201700614829
    Description :

    Le POHEM-IMC est un outil de microsimulation comprenant un modèle de l’IMC chez les adultes et un modèle des antécédents en matière d’IMC pendant l’enfance. Cet aperçu décrit l’élaboration de modèles de prédiction de l’IMC chez les adultes et des antécédents en matière d’IMC pendant l’enfance, et compare les estimations de l’IMC projetées aux estimations issues de données d’enquête représentatives de la population canadienne pour en établir la validité.

    Date de diffusion : 2017-06-21

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114200
    Description :

    Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500314143
    Description :

    La présente étude évalue le caractère représentatif de l’échantillon regroupé d’immigrants qui ont participé à l’Enquête canadienne sur les mesures de la santé menée en 2007-2009 et en 2009-2011, en comparant celui-ci avec les répartitions sociodémographiques propres au Recensement de 2006 et à l’Enquête nationale auprès des ménages de 2011 et avec certains indicateurs – de l’état de santé et des comportements influant sur la santé – autodéclarés de l’Enquête sur la santé dans les collectivités canadiennes menée en 2009-2010.

    Date de diffusion : 2015-03-18

  • Articles et rapports : 12-001-X201400214113
    Description :

    Les enquêtes par panel à renouvellement servent à calculer des estimations des flux bruts entre deux périodes consécutives de mesure. Le présent article examine une procédure générale pour estimer les flux bruts lorsque l’enquête par panel à renouvellement a été générée à partir d’un plan de sondage complexe avec non-réponse aléatoire. Une approche à pseudo-maximum de vraisemblance est envisagée dans le contexte d’un modèle à deux degrés de chaînes de Markov pour le classement des personnes dans les catégories de l’enquête et pour la modélisation de la non-réponse.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 82-003-X201401014098
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 82-003-X201301011873
    Description :

    On a élaboré un modèle de simulation informatique de l'activité physique pour la population adulte canadienne à partir des données longitudinales de l'Enquête nationale sur la santé de la population et des données transversales de l'Enquête sur la santé dans les collectivités canadiennes. Ce modèle est basé sur la plateforme du Modèle de santé de la population (POHEM), élaboré par Statistique Canada. Le présent article donne un aperçu du POHEM et une description des ajouts qui y ont été faits pour créer le module de l'activité physique (POHEM-PA). Ces ajouts comprennent l'évolution du niveau dMactivité physique dans le temps et la relation entre les niveaux d'activité physique et l'espérance de vie ajustée sur la santé, l'espérance de vie et l'apparition de certains problèmes de santé chroniques. Des estimations tirées de projections obtenues par simulation sont comparées avec des données d'enquête représentatives à l'échelle nationale, fournissant ainsi une indication de la validité du POHEM-PA.

    Date de diffusion : 2013-10-16

  • Articles et rapports : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211603
    Description :

    De nombreuses enquêtes par sondage comprennent des questions suscitant une réponse binaire (par exemple, obèse, non obèse) pour un certain nombre de petits domaines. Une inférence est requise au sujet de la probabilité d'une réponse positive (par exemple obèse) dans chaque domaine, la probabilité étant la même pour tous les individus dans chaque domaine et différente entre les domaines. Étant donné le peu de données dans les domaines, les estimateurs directs ne sont pas fiables et il est nécessaire d'utiliser des données provenant d'autres domaines pour améliorer l'inférence pour un domaine particulier. Essentiellement, il est supposé a priori que les domaines sont similaires, si bien que le choix d'un modèle hiérarchique bayésien, le modèle bêta-binomial standard, est naturel. L'innovation tient au fait qu'un praticien peut disposer d'information a priori supplémentaire qui est nécessaire au sujet d'une combinaison linéaire des probabilités. Par exemple, une moyenne pondérée des probabilités est un paramètre, et l'information peut être obtenue au sujet de ce paramètre, ce qui rend le paradigme bayésien approprié. Nous avons modifié le modèle bêta-binomial standard pour petits domaines afin d'y intégrer l'information a priori sur la combinaison linéraire des probabilités, que nous appelons une contrainte. Donc, il existe trois cas. Le practicien a) ne spécifie pas de contrainte, b) spécifie une contrainte et le paramètre entièrement et c) spécifie une contrainte et l'information qui peut être utilisée pour construire une loi a priori pour le paramètre. L'échantillonneur de Gibbs « griddy » est utilisé pour ajuster les modèles. Pour illustrer notre méthode, nous prenons l'exemple de l'obésité chez les enfants dans la National Health and Nutrition Examination Survey dans laquelle les petits domaines sont formés par croisement de l'école (cycle secondaire inférieur ou supérieur), de l'etnicité (blanche, noire, mexicaine) et du sexe (masculin, féminin). Nous procédons à une étude en simulation pour évaluer certaines caractéristiques statistiques de notre méthode. Nous avons montré que le gain de précision au-delà de (a) est dans l'ordre où (b) est plus grand que (c).

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100111443
    Description :

    Les enquêtes téléphoniques à base de sondage double deviennent fréquentes aux États-Unis en raison de l'incomplétude de la liste de numéros de téléphone fixe causée par l'adoption progressive du téléphone mobile. Le présent article traite des erreurs non dues à l'échantillonnage dans les enquêtes téléphoniques à base de sondage double. Alors que la plupart des publications sur les bases de sondage doubles ne tiennent pas compte des erreurs non dues à l'échantillonnage, nous constatons que ces dernières peuvent, dans certaines conditions, causer des biais importants dans les enquêtes téléphoniques à base de sondage double. Nous examinons en particulier les biais dus à la non-réponse et à l'erreur de mesure dans ces enquêtes. En vue de réduire le biais résultant de ces erreurs, nous proposons des méthodes d'échantillonnage à base de sondage double et de pondération. Nous montrons que le facteur de composition utilisé pour combiner les estimations provenant de deux bases de sondage joue un rôle important dans la réduction du biais de non-réponse.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201000111244
    Description :

    Nous étudions le problème de la sélection de modèles non paramétriques pour l'estimation sur petits domaines, auquel beaucoup d'attention a été accordée récemment. Nous élaborons une méthode fondée sur le concept de la méthode de l'enclos (fence method) de Jiang, Rao, Gu et Nguyen (2008) pour sélectionner la fonction moyenne pour les petits domaines parmi une classe de splines d'approximation. Les études par simulations montrent que la nouvelle méthode donne des résultats impressionnants, même si le nombre de petits domaines est assez faible. Nous appliquons la méthode à un ensemble de données hospitalières sur les échecs de greffe pour choisir un modèle non paramétrique de type Fay­Herriot.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200800210761
    Description :

    La stratification optimale est la méthode qui consiste à choisir les meilleures bornes qui rendent les strates intérieurement homogènes, étant donné la répartition de l'échantillon. Afin de rendre les strates intérieurement homogènes, celles ci doivent être construites de façon que les variances de strate de la caractéristique étudiée soient aussi faibles que possible. Un moyen efficace d'y arriver, si l'on connaît la distribution de la principale variable étudiée, consiste à créer des strates en découpant l'étendue de la distribution à des points appropriés. Si la distribution des fréquences de la variable étudiée est inconnue, on peut l'approximer en se fondant sur l'expérience passée ou sur certains renseignements a priori obtenus au cours d'une étude récente. Dans le présent article, le problème de la détermination des bornes optimales de strate (BOS) est considéré comme étant le problème de la détermination des largeurs optimales de strate (LOS). Il est formulé comme un problème de programmation mathématique (PPM) consistant à minimiser la variance du paramètre de population estimé sous la répartition de Neyman en imposant que la somme des largeurs des strates soit égale à l'étendue totale de la distribution. La variable étudiée est considérée comme suivant un loi continue dont la densité de probabilité est triangulaire ou normale standard. Les PPM formulés, qui s'avèrent être des problèmes de décision à plusieurs degrés, peuvent alors être résolus en utilisant la méthode de programmation dynamique proposée par Bühler et Deutler (1975). Des exemples numériques sont présentés pour illustrer les calculs. Les résultats obtenus sont également comparés à ceux donnés par la méthode de Dalenius et Hodges (1959) dans le cas d'une distribution normale.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200800110611
    Description :

    En échantillonnage de populations finies, on dispose souvent d'information a priori sous la forme de renseignements partiels sur une variable auxiliaire, dont on connaît, par exemple, la moyenne. Dans de tels cas, on utilise fréquemment l'estimateur par le ratio et l'estimateur par la régression pour estimer la moyenne de population de la caractéristique d'intérêt. La loi a posteriori de Pólya a été établie à titre d'approche bayésienne non informative de l'échantillonnage. Son application est indiquée quand on ne dispose que de peu d'information a priori, voire aucune, au sujet de la population. Ici, nous montrons que cette loi peut être étendue afin d'y intégrer divers types d'information a priori partielle au sujet des variables auxiliaires. Nous verrons que cette approche produit généralement des méthodes ayant de bonnes propriétés fréquentistes, même dans certains cas où les méthodes fréquentistes classiques sont difficiles à appliquer.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 12-001-X200800110606
    Description :

    Aux États Unis, les données provenant des sondages électoraux sont habituellement présentées dans des tableaux de contingence à double entrée et de nombreux sondages sont réalisés avant qu'ait lieu l'élection réelle en novembre. Par exemple, pour l'élection du gouverneur de l'État de l'Ohio en 1998, trois sondages (Buckeye State Poll) ont eu lieu, un en janvier, un en avril et un en octobre; la première catégorie des tableaux représente les candidats (par exemple Fisher, Taft et autre) et la deuxième représente l'intention courante de vote (votera vraisemblablement ou ne votera vraisemblablement pas pour le gouverneur de l'Ohio). Le nombre d'électeurs indécis est important dans l'une ou dans les deux catégories pour les trois sondages et nous utilisons une méthode bayésienne pour les répartir entre les trois candidats. Nous pouvons ainsi modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité, et nous utilisons un modèle Dirichlet Multinomial pour estimer les probabilités de cellule qui nous aideront à prédire le gagnant. Nous proposons un modèle de non réponse non ignorable variable en fonction du temps pour les trois tableaux. Ici, un modèle de non réponse non ignorable est centré sur un modèle de non réponse ignorable afin d'induire une certaine souplesse et une certaine incertitude au sujet de l'ignorabilité ou de la non ignorabilité. Nous considérons également deux autres modèles concurrents, à savoir un modèle de non réponse ignorable et un modèle de non réponse non ignorable. Ces deux derniers modèles reposent sur l'hypothèse d'un processus stochastique commun pour obtenir un renforcement par emprunt de données au cours du temps. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles. Nous construisons aussi un paramètre qui peut éventuellement être utilisé pour prédire le gagnant parmi les candidats à l'élection de novembre.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 12-001-X20070019856
    Description :

    Le concept de « plan d'échantillonnage proportionnel à la taille le plus proche » proposé par Gabler (1987) est utilisé en vue d'obtenir un plan d'échantillonnage contrôlé optimal assurant que les probabilités de sélection des échantillons non privilégiés soient nulles. L'estimation de la variance pour un plan d'échantillonnage contrôlé optimal à l'aide de la forme de Yates Grundy de l'estimateur d'Horvitz-Thompson est discutée. La variance d'échantillonnage réelle de la méthode proposée est comparée à celle des méthodes existantes de sélection contrôlée et non contrôlée sous grande entropie. L'utilité de la méthode proposée est démontrée au moyen d'exemples.

    Date de diffusion : 2007-06-28

  • Articles et rapports : 12-001-X20050029048
    Description :

    Le problème que nous considérons nécessite l'analyse de données catégoriques provenant d'un seul tableau à double entrée avec classification partielle (c'est à dire avec non réponses partielle et totale). Nous supposons qu'il s'agit de la seule information disponible. Une méthode bayésienne nous permet de modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité. Nous construisons un modèle de non réponse non ignorable que nous obtenons par extension du modèle de non réponse ignorable au moyen d'une loi a priori dépendante des données; l'extension au modèle de non réponse non ignorable rend le modèle de non réponse ignorable plus robuste. Nous utilisons un modèle Dirichlet Multinomial, corrigé pour la non réponse, pour estimer les probabilités de cellule et un facteur de Bayes pour vérifier l'hypothèse d'association. Nous illustrons notre méthode à l'aide de données sur la densité minérale osseuse et sur le revenu familial. Une analyse de sensibilité nous permet d'évaluer l'effet du choix de la loi a priori dépendante des données. Nous comparons les modèles de non réponse ignorable et non ignorable au moyen d'une étude par simulation et constatons qu'il existe des différences subtiles entre ces modèles.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050018089
    Description :

    Nous utilisons des modèles hiérarchiques bayésiens pour analyser les données sur l'indice de masse corporelle (IMC) des enfants et des adolescents en présence de non réponse non-ignorable, c'est-à-dire informative, tirées de la troisième National Health and Nutrition Examination Survey (NHANES III). Notre objectif est de prédire l'IMC moyen en population finie et la proportion de répondants pour les domaines formés par l'âge, la race et le sexe (covariables dans les modèles de régression) pour chacun des 35 grands comtés, en tenant compte des non répondants. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles (deux modèles de sélection et deux modèles de mélange de schémas d'observation) aux données sur l'IMC provenant de la NHANES III. Au moyen d'une mesure de déviance et d'une étude de validation croisée, nous montrons que le modèle de sélection sous non réponse non-ignorable est le meilleur des quatre modèles. Nous montrons aussi que l'inférence au sujet de l'IMC n'est pas trop sensible au choix du modèle. Nous obtenons une amélioration en incluant une régression spline dans le modèle de sélection pour tenir compte de l'évolution de la relation entre l'IMC et l'âge.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20040016998
    Description :

    Au Canada, l'Enquête sur la population active (EPA) n'a pas au départ de caractère longitudinal, mais comme les ménages répondants demeurent normalement dans l'échantillon six mois de suite, il est possible de reconstituer des fragments longitudinaux sur six mois à partir des enregistrements mensuels des membres des ménages. De telles microdonnées longitudinales, qui consistent dans l'ensemble en millions de mois-personnes de données individuelles et familiales, servent à analyser par mois la dynamique du marché du travail, et ce, sur des périodes relativement longues de 25 ans et plus.

    Nous employons ces données pour estimer des fonctions de probabilité décrivant les passages entre les situations d'emploi, à savoir le travail indépendant, le travail rémunéré et l'absence d'emploi. Avec les données sur l'occupation des emplois et le dernier jour travaillé des gens qui n'ont pas d'emploi, jointes aux données sur la date de réponse à l'enquête, on peut élaborer des modèles comportant des termes de saisonnalité et de cycle macroéconomique, ainsi que de durée de dépendance pour chaque type de passage. Ajoutons que les données de l'EPA permettent d'inclure des variables de l'activité du conjoint et de la composition de la famille dans les modèles de probabilité comme covariables à variation temporelle. Les équations estimées de probabilité ont été intégrées au modèle de microsimulation LifePaths. Dans ce cadre, nous avons pu par ces équations, simuler l'activité à vie de cohortes de naissances passées, présentes et futures. Nous avons validé les résultats de cette simulation par rapprochement avec les profils d'âge de la période 1976 2001 pour les rapports emploi/population de l'EPA.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20020026428
    Description :

    L'analyse des données d'enquête de différentes régions géographiques dont les données de chaque région sont polychotomiques se fait facilement au moyen de modèles bayesiens hiérarchiques, même s'il y a des cellules présentant des petits nombres pour certaines de ces régions. Cela pose toutefois un problème quand les données d'enquête sont incomplètes en raison de la non-réponse, en particulier quand les caractéristiques des répondants diffèrent de celles des non-répondants. En présence de non-réponse, on applique la méthode de sélection pour l'estimation parce qu'elle permet de procéder à des inférences à l'égard de tous les paramètres. En fait, on décrit un modèle bayesien hiérarchique pour l'analyse des données de la non-réponse multinomiale dont on ne peut faire abstraction dans diverses régions géographiques, puisque certaines données peuvent être de petite taille. Comme modèle, on utilise une densité à priori Dirichlet pour les probabilités multinomiales et une densité à priori bêta pour les probabilités de réponse. Ainsi, on peut faire un emprunt d'information auprès des grandes régions, dans le but d'améliorer la fiabilité des estimations des paramètres du modèle qui s'appliquent aux petites régions. Comme la densité conjointe à posteriori de tous les paramètres est complexe, l'inférence se fonde sur l'échantillonnage et on utilise la méthode de Monte Carlo à chaînes de Markov. On applique la méthode pour obtenir une analyse des données sur l'indice de masse corporelle (IMC) tirées de la troisième édition de la National Health and Nutrition Examination Survey (NHANES III). Pour faciliter la compréhension, l'IMC est classé selon 3 niveaux naturels pour chacun des 8 domaines regroupant âge-race-sexe et des 34 comtés. On évalue le rendement du modèle à partir des données de la NHANES III et d'exemples simulés qui montrent que le modèle fonctionne passablement bien.

    Date de diffusion : 2003-01-29

  • Articles et rapports : 12-001-X20010015851
    Description :

    Nous appelons téléenquête les enquêtes pour lesquelles le mode principal ou unique de collecte des données repose sur un moyen électronique de télécommunications y compris le téléphone et d'autres dispositifs technologiques plus avancés, comme le courrier électronique, Internet, la vidéophone ou la télécopie. Nous examinons, brièvement, les débuts des enquêtes par téléphone et, plus en détail, les progrès récents dans les domaines du plan de sondage et de l'estimation, de la couverture et de la non-réponse, ainsi que de l'évaluation de la qualité des données. Ces progrès méthodologiques ont fait de l'enquête téléphonique le mode principal de collecte des données dans le domaine des enquêtes par sondage au cours du dernier quart de siècle. D'autres moyens de télécommunication de pointe deviennent rapidement des compléments importants, voire même des concurrents, du service téléphonique fixe et sont déjà utilisés de diverses façons pour réaliser les enquêtes par sondage. Nous examinons leur potentiel pour les opérations d'enquête et l'effet que pourraient avoir les progrès technologiques actuels et futurs dans le secteur des télécommunications sur les pratiques d'enquête et leurs conséquences méthodologiques.

    Date de diffusion : 2001-08-22

  • Articles et rapports : 12-001-X20000015178
    Description :

    Par observation longitudinale, on entend la mesure répétée d'une même unité lors de plusieurs cycles d'enquête réalisés à intervalle fixe ou variable. On peut donc considérer chaque vecteur d'observations comme une série chronologique, couvrant habituellement une courte periode. L'analyse des données recueillies sur toutes les unités permet d'ajuster des modèles de série chronologique d'ordre faible, malgré le peu de longueur des séries individuelles.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X19980024352
    Description :

    L'Enquête nationale sur la santé de la population (ENSP) est l'une des trois principales enquêtes-ménages longitudinales que mène Statistique Canada à une grande échelle auprès de la population canadienne. Depuis vingt ans, tous les deux ans, on a suivi un panel constitué d'environ 17 000 personnes. Les données provenant de l'enquête sont utilisées pour des analyses longitudinales, même si l'un des objectifs important est la production d'estimations transversales. Pour chaque cycle, les panélistes fournissent des renseignements détaillés sur leur santé (S) pendant qu'au même moment, pour augmenter l'échantillon transversal, des données socio-démographiques et quelques renseignements sur la santé sont recueillis (G) auprès de tous les membres des ménages. Cette stratégie de collecte présente différents schémas de réponse pour les panélistes après deux cycles: GS-GS, GS-G*, GS-**, G*-GS, G*-G* et G*-**, où * indique une portion de données manquantes. Le présent article explique la méthodologie élaborée pour traiter ces types de non-réponse longitudinale de même que la non-réponse d'une perspective transversale. L'utilisation de facteurs de pondération pour la non-réponse et la création de cellules d'ajustement pour la pondération à l'aide de l'algorithme CHAID sont expliquées ici.

    Date de diffusion : 1999-01-14

  • Articles et rapports : 12-001-X19970023615
    Description :

    Le présent article montre l'utilité d'un plan de sondage à plusieurs degrés pour obtenir le dénombrement total des établissements de santé et de la population de clients éventuels dans une région. La plan décrit a été utilisé pour effectuer une enquête à l'échelle de l'État d'Uttar Pradesh, en Inde, au milieu de 1995. Il comprend la sélection d'un échantillon aréolaire en grappes à plusieurs degrés où l'unité primaire d'échantillonnage est soit un îlot urbain, soit un village rural. On a fait le relevé cartographique, dressé la liste et sélectionné tous les points de fourniture de services de santé, qu'il s'agisse d'établissements autonomes ou d'agents de distribution, situés dans les unités primaires d'échantillonnage ou assignés officiellement à ces dernières. On a tiré un échantillon systématique de ménages et interviewé toutes les femmes faisant partie de ces ménages qui satisfaisaient les critères prédéterminés d'admissibilité. On a appliqué des poids d'échantillonnage aux établissements ainsi qu'aux personnes. Pour les établissements, les poids sont corrigés pour tenir compte du fait que certains établissements desservent plusieurs unités secondaires d'échantillonnage. Pour les personnes, on a corrigé les poids pour tenir compte des taux de réponse à l'enquête. L'estimation par sondage du nombre total d'^établissements publics concorde bien avec les totaux publiés. Pareillement, l'estimation de la population de clientes calculée d'après l'enquête concorde avec le chiffre total du Recensement de 1991.

    Date de diffusion : 1998-03-12

Références (25)

Références (25) (25 of 25 results)

  • Produits techniques : 11-522-X201700014717
    Description :

    Les fichiers comprenant des données couplées du Système d’information sur les étudiants postsecondaires (SIEP) de Statistique Canada et des données fiscales peuvent servir à examiner les trajectoires des étudiants qui poursuivent des études postsecondaires (EPS) et leurs résultats sur le marché du travail par la suite. D’une part, les données administratives sur les étudiants couplées de façon longitudinale peuvent fournir des renseignements agrégés sur les trajectoires des étudiants pendant leurs études postsecondaires, comme les taux de persévérance, les taux de diplomation, la mobilité, etc. D’autre part, les données fiscales peuvent compléter le SIEP et fournir des renseignements sur les résultats au chapitre de l’emploi, comme la rémunération moyenne et médiane ou la progression de la rémunération selon le secteur d’emploi (industrie), le domaine d’études, le niveau de scolarité et/ou d’autres données démographiques, année après année suivant l’obtention du diplôme. Deux études longitudinales pilotes ont été menées au moyen de données administratives sur les étudiants postsecondaires d’établissements des Maritimes, qui ont été couplées de façon longitudinale et avec le fichier de données fiscales de Statistique Canada (le fichier sur la famille T1) pour les années pertinentes. Cet article met d’abord l’accent sur la qualité des renseignements compris dans les données administratives et sur la méthode utilisée pour mener ces études longitudinales et calculer des indicateurs. En deuxième lieu, elle portera sur certaines limites liées à l’utilisation de données administratives, plutôt que de données d’enquête, pour définir certains concepts.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014711
    Description :

    Après le Recensement de 2010, le U.S. Census Bureau a mené deux projets de recherche distincts, en vue d’apparier des données d’enquête et des bases de données. Dans le cadre d’une étude, on a procédé à un appariement avec la base de données du tiers Accurint, et dans un autre cas, avec les fichiers du National Change of Address (NCOA) du U.S. Postal Service. Dans ces deux projets, nous avons évalué l’erreur de réponse dans les dates de déménagement déclarées en comparant les dates de déménagement autodéclarées et les enregistrements de la base de données. Nous avons fait face aux mêmes défis dans le cadre des deux projets. Le présent document aborde notre expérience de l’utilisation des « mégadonnées », en tant que source de comparaison pour les données d’enquête, ainsi que les leçons que nous avons apprises pour des projets futurs similaires à ceux que nous avons menés.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014284
    Description :

    La diminution des taux de réponse observée par plusieurs instituts nationaux de statistique, leur volonté de limiter le fardeau de même que l’importance des contraintes budgétaires auxquelles ils font face favorisent une utilisation accrue des données administratives pour la production de renseignements statistiques. Les sources de données administratives qu’ils sont amenés à considérer doivent être évaluées afin d’en déterminer l’adéquation à l’utilisation, et ce en tenant compte de plusieurs aspects. Une démarche d’évaluation des sources de données administratives en vue de leur utilisation comme intrant à des processus de production de renseignements statistiques a récemment été élaborée à Statistique Canada. Celle-ci comprend essentiellement deux phases. La première phase ne nécessite que l’accès aux métadonnées associées aux données administratives considérées alors que la deuxième est effectuée à partir d’une version des données permettant l’évaluation. La démarche et l’outil d’évaluation sont présentés dans cet article.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014264
    Description :

    Bien que les milieux humides occupent seulement 6,4% de la superficie de notre planète, ils sont primordiaux à la survie des espèces terrestres. Ces écosystèmes requièrent une attention toute particulière au Canada puisque près de 25% de leur superficie mondiale se retrouve en sol canadien. Environnement Canada (EC) possède des méga-bases de données où sont rassemblées toutes sortes d’informations sur les milieux humides provenant de diverses sources. Avant que les informations contenues dans ces bases de données ne puissent être utilisées pour soutenir quelque initiative environnementale que ce soit, elles se devaient d’abord d’être répertoriées puis évaluées quant à leur qualité. Dans cet exposé, nous présentons un aperçu du projet pilote mené conjointement par EC et Statistique Canada afin d’évaluer la qualité des informations contenues dans ces bases de données, elles qui présentent à la fois certains des attributs propres aux données volumineuses (« Big Data »), aux données administratives et aux données d’enquête.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014255
    Description :

    Le Centre d’information de réseau brésilien (NIC.br) a conçu et mené un projet pilote pour recueillir des données sur le Web, afin de produire des statistiques concernant les caractéristiques des pages Web. Les études des caractéristiques et des dimensions du Web exigent la collecte et l’analyse de données dans un environnement dynamique et complexe. L’idée de base est de recueillir des données sur un échantillon de pages Web, automatiquement, en utilisant le logiciel appelé moteur de recherche Web. Le présent article vise à diffuser les méthodes et les résultats de cette étude, ainsi qu’à démontrer les progrès actuels liés aux techniques d’échantillonnage dans un environnement dynamique.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010988
    Description :

    La collecte des données en ligne a commencé en 1995. Il s'agissait alors d'une solution de rechange pour mener certains types de recherche auprès des consommateurs, mais elle a pris de l'ampleur en 2008. Cette croissance a surtout été observée dans les études qui utilisent des méthodes d'échantillonnage non probabiliste. Bien que l'échantillonnage en ligne ait acquis de la crédibilité pour ce qui est de certaines applications de recherche, de sérieuses questions demeurent concernant le bien-fondé des échantillons prélevés en ligne dans le cas des recherches exigent des mesures volumétriques précises du comportement de la population des États-Unis, notamment en ce qui a trait aux voyages. Dans le présent exposé, nous passons en revue la documentation et comparons les résultats d'études fondées sur des échantillons probabilistes et des échantillons prélevés en ligne pour comprendre les différences entre ces deux méthodes d'échantillonnage. Nous montrons aussi que les échantillons prélevés en ligne sous-estiment d'importants types de voyages, même après pondération en fonction de données démographiques et géographiques.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010993
    Description :

    Jusqu'à maintenant, il fallait des années d'expérience en conception de questionnaires afin d'estimer le temps requis, en moyenne, par les répondants pour remplir le questionnaire ITAO d'une nouvelle enquête. Cet exposé porte sur une nouvelle méthode qui produit des estimations du temps requis pour remplir le questionnaire à l'étape de l'élaboration. La méthode s'appuie sur les données Blaise de vérification à rebours et sur des enquêtes antérieures. Elle a été élaborée, mise à l'essai et soumise à une vérification de l'exactitude dans le cadre de quelques grandes enquêtes.

    Tout d'abord, les données de vérification à rebours servent à déterminer le temps moyen qu'ont pris les répondants dans les enquêtes antérieures pour répondre à des types particuliers de questions. Il s'agit, entre autres, de questions exigeant des réponses par oui ou par non, des réponses indiquées sur une échelle, ou de type « cochez tout ce qui s'applique ». Ensuite, pour un questionnaire donné, les parcours des sous-groupes de la population sont représentés pour déterminer les séries de questions auxquelles ont répondu différents types de répondants, et chronométrés pour déterminer la durée maximale de l'interview. Enfin, le temps global prévu pour remplir le questionnaire est calculé en fonction de l'estimation de la proportion de la population qui devrait répondre à chacune des questions.

    Jusqu'à présent, nous avons utilisé les paradonnées pour estimer avec exactitude le temps requis, en moyenne, par les répondants pour terminer l'interview. Toutefois, la méthode que nous avons mise au point peut également servir à déterminer le temps de réponse requis pour des répondants particuliers.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010970
    Description :

    RTI International mène une étude longitudinale sur l'éducation. L'un des volets de l'étude consistait à recueillir des relevés de notes et des catalogues de cours auprès des écoles secondaires fréquentées par les personnes comprises dans l'échantillon. Il fallait aussi saisir et coder les renseignements tirés de ces documents. Le défi était de taille puisque les relevés et les catalogues, dont le contenu et la présentation variaient grandement, ont été recueillis auprès de différents types d'écoles, dont des écoles publiques, privées et religieuses de tout le pays. La difficulté consistait à concevoir un système perfectionné pouvant être utilisé simultanément par de nombreux utilisateurs. RTI a mis au point un système de saisie et de codage des données tirées des relevés de notes et des catalogues de cours d'études secondaires. Doté de toutes les caractéristiques d'un système de saisie et de codage haut de gamme, évolué, multi-utilisateur, multitâche, convivial et d'entretien peu coûteux, le système est basé sur le Web et possède trois grandes fonctions : la saisie et le codage des données des relevés et des catalogues, le contrôle de la qualité des données à l'étape de la saisie (par les opérateurs) et le contrôle de la qualité des données à l'étape du codage (par les gestionnaires). Compte tenu de la nature complexe de la saisie et du codage des données des relevés et des catalogues, le système a été conçu pour être souple et pour permettre le transport des données saisies et codées dans tout le système afin de réduire le temps de saisie. Il peut aussi guider logiquement les utilisateurs dans toutes les pages liées à un type d'activité, afficher l'information nécessaire pour faciliter la saisie et suivre toutes les activités de saisie, de codage et de contrôle de la qualité. Les données de centaines de catalogues et de milliers de relevés de notes ont été saisies, codées et vérifiées à l'aide du système. La présente communication aborde les besoins et la conception du système, les problèmes de mise en oeuvre et les solutions adoptées, ainsi que les leçons tirées de cette expérience.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010968
    Description :

    Statistique Canada a lancé un programme destiné à intensifier et à améliorer l'utilisation de la technologie d'imagerie pour le traitement des questionnaires d'enquête imprimés. Le but est d'en faire une méthode efficace, fiable et économique de saisie des données. L'objectif est de continuer de se servir de la reconnaissance optique de caractères (ROC) pour saisir les données des questionnaires, des documents et des télécopies reçus, tout en améliorant l'intégration du processus et l'assurance de la qualité/le contrôle de la qualité (CQ) du processus de saisie des données. Ces améliorations sont exposées dans le présent article.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011004
    Description :

    L'idée de réduire le fardeau de réponse n'est pas nouvelle. Statistics Sweden cherche par plusieurs moyens à réduire le fardeau de réponse et les coûts administratifs liés à la collecte de données auprès d'entreprises et d'organisations. En vertu de la loi, Statistics Sweden est tenu de réduire le fardeau de réponse des entreprises; cette tâche constitue donc une priorité. L'État a décidé de réduire les coûts administratifs des enquêtes auprès des entreprises de 25 % d'ici 2010. Cet objectif vaut également pour la collecte de données à des fins statistiques. Les enquêtes visées sont celles auxquelles la participation est obligatoire en vertu de la loi, ainsi que bon nombre d'autres enquêtes pour lesquelles il faut mesurer et réduire le fardeau de réponse. Afin de mesurer, d'analyser et de réduire le fardeau de réponse, Statistics Sweden a mis au point le Registre des fournisseurs de données concernant les entreprises et les organisations (le registre ULR), dont l'objectif est double : mesurer et analyser le fardeau de réponse au niveau agrégé et fournir à chaque entreprise des renseignements sur les enquêtes auxquelles elle participe.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200600110446
    Description :

    Les immigrants sont avantagés sur le plan de la santé comparativement aux canadiens de naissance, mais ces avantages sont menacés par des situations à risque particulières. L'étude vise à explorer les issues de santé cardiovasculaire des quartiers de Montréal classés selon la proportion d'immigrants dans la population, au moyen d'une analyse en composantes principales. Les trois premières composantes représentent l'immigration, le degré de désavantage socio-économique et le degré de désavantage économique. L'incidence d'infarctus du myocarde est plus faible dans les quartiers avec forte immigration comparativement aux quartiers où prédominent les canadiens de naissance. Les taux de mortalité sont associés au degré de désavantage socio-économique tandis que la revascularisation est associée à la proportion de personnes âgées dans la population.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110392
    Description :

    Nous suivons une méthode bayésienne robuste pour analyser des données pouvant présenter un biais de non-réponse et un biais de sélection non ignorables. Nous utilisons un modèle de régression logistique robuste pour établir le lien entre les indicateurs de réponse (variable aléatoire de Bernoulli) et les covariables, dont nous disposons pour tous les membres de la population finie. Ce lien permet d'expliquer l'écart entre les répondants et les non-répondants de l'échantillon. Nous obtenons ce modèle robuste en élargissant le modèle de régression logistique conventionnel à un mélange de lois de Student, ce qui nous fournit des scores de propension (probabilité de sélection) que nous utilisons pour construire des cellules d'ajustement. Nous introduisons les valeurs des non-répondants en tirant un échantillon aléatoire à partir d'un estimateur à noyau de la densité, formé d'après les valeurs des répondants à l'intérieur des cellules d'ajustement. La prédiction fait appel à une régression linéaire spline, fondée sur les rangs, de la variable de réponse sur les covariables selon le domaine, en échantillonnant les erreurs à partir d'un autre estimateur à noyau de la densité, ce qui rend notre méthode encore plus robuste. Nous utilisons des méthodes de Monte-Carlo par chaînes de Markov (MCMC) pour ajuster notre modèle. Dans chaque sous-domaine, nous obtenons la loi a posteriori d'un quantile de la variable de réponse à l'intérieur de chaque sous-domaine en utilisant les statistiques d'ordre sur l'ensemble des individus (échantillonnés et non échantillonnés). Nous comparons notre méthode robuste à des méthodes paramétriques proposées récemment.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110404
    Description :

    Les efforts des programmes d'enquête en vue de réduire les coûts et le fardeau de réponse se sont traduits par une utilisation croissante de l'information disponible dans les bases de données administratives. Le couplage des données provenant de ces deux sources est un moyen d'exploiter leur nature complémentaire et de maximiser leur utilité respective. Le présent article décrit diverses méthodes suivies pour procéder au couplage des enregistrements des bases de données de l'Enquête sur la santé dans les collectivités canadiennes (ESCC) et de l'Information santé orientée vers la personne (ISOP). Les fichiers résultant de certaines de ces méthodes de couplage sont utilisés pour analyser les facteurs de risque d'hospitalisation pour une maladie cardiaque. La sensibilité de l'analyse est évaluée en fonction des diverses approches de couplage.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019477
    Description :

    Une base de données intégrée sur les traumatismes est obtenue par couplage probabiliste des données en se basant sur un sous ensemble de variables clés ou de leurs dérivées, c'est-à-dire les noms (prénom, nom de famille et surnom), l'âge, le sexe, la date de naissance, le numéro de téléphone, date du traumatisme, le numéro d'identification unique et le diagnostic. Pour évaluer la qualité des couplages produits, on calcule les taux de résultats faussement positifs et de résultats faussement négatifs. Cependant, ces taux n'indiquent pas si les bases de données utilisées pour le couplage présentent un sous dénombrement des traumatismes (biais). En outre, il importe qu'un chercheur s'intéressant aux traumatismes ait une idée de la marge d'erreur des chiffres générés par intégration de diverses bases de données, comparable à celle que l'on obtiendrait dans le cas d'un sondage, par exemple.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20040018752
    Description :

    Ce document évoque un certain nombre d'applications possibles d'un échantillonnage permanent de ménages prêts à répondre dans le cas des enquêtes menées auprès de groupes démographiques difficiles à joindre.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018753
    Description :

    Pour l'estimation des ménages à faible revenu, un échantillon est tiré dans un nombre limité d'aires géographiques. Ce document présente le plan de sondage à base duale de même que des scénarios envisagés et certains résultats menant aux choix effectués.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20030017721
    Description :

    Dans ce document, on examine un modèle de régression pour estimer les composantes de la variance pour un plan d'échantillonnage à deux degrés.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017729
    Description :

    Dans ce document, on décrit la création des échantillons et on analyse les facteurs ayant une incidence directe sur l'étendue de la collecte des données dans la première application du recensement intégré (RI).

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017716
    Description :

    Dans ce document, on examine de quelle façon le risque et la qualité peuvent être utilisés pour faciliter les prises de décisions concernant l'investissement à l'Office for National Statistics (ONS) au Royaume-Uni. Le document porte aussi sur la construction d'un tableau pour fournir des mesures des points forts et des points faibles des entrées et des sorties statistiques.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016744
    Description :

    Une trajectoire de développement décrit l'évolution d'un comportement au fil des âges ou du temps. Cet article donne une vue d'ensemble d'une méthode semi paramétrique fondée sur le groupement pour analyser les trajectoires de développement. Cette méthode offre une autre solution que celle consistant à supposer que l'on a affaire à une population homogène de trajectoires, comme cela est le cas dans les modèles types de croissance.

    Quatre capacités seront décrites, à savoir 1) la capacité de reconnaître des groupes distincts de trajectoires plutôt que d'en supposer l'existence, 2) la capacité d'estimer la proportion de la population qui suit chacun de ces groupes de trajectoires, 3) la capacité d'établir le lien entre la probabilité d'appartenir à un groupe ou caractéristiques et les circonstances individuelles et 4) la capacité d'utiliser les probabilités d'appartenir à un groupe à diverses autres fins, telles que la création de profils des membres des groupes.

    En outre, on décrit des extensions importantes de la méthode, c'est à dire la capacité d'ajouter des covariables variant en fonction du temps aux modèles de trajectoire, et la capacité d'estimer des modèles à trajectoire collective de comportements distincts, mais associés. La première fournit la capacité statistique de vérifier si un facteur contemporain, tel qu'une intervention expérimentale ou un événement non expérimental comme la grossesse, fait dévier une trajectoire préexistante. La seconde permet d'étudier le déroulement de comportements distincts mais associés, tels que les comportements problématiques durant l'enfance et la toxicomanie à l'adolescence.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016732
    Description :

    L'analyse de la relation dose-réponse joue depuis longtemps un rôle important en toxicologie. Plus récemment, on l'a employée pour évaluer les campagnes publiques d'éducation. Les données qui sont recueillies durant de telles évaluations proviennent le plus souvent d'enquêtes ménages à plan d'échantillonnage type présentant la complexité habituelle de l'échantillonnage à plusieurs degrés, de la stratification et de la variabilité des probabilités de sélection. Lors d'une évaluation récente, on a développé un système présentant les caractéristiques suivantes : une catégorisation des doses à trois ou quatre niveaux; une cotation de la propension à sélectionner la dose; et un nouveau test de Jonckheere-Terpstra fondé sur le jackknife pour une relation dose-réponse monotone. Ce système permet de produire rapidement, pour les relations dose-réponse monotones, des tests qui sont corrigés à la fois pour le plan d'échantillonnage et pour les variables confusionnelles. Dans cet article, on se concentre sur les résultats d'une simulation de Monte Carlo des propriétés du test de Jonckheere-Terpstra fondé sur le jackknife.

    En outre, il n'existe aucun contrôle expérimental sur les dosages et il faut envisager l'existence éventuelle de variables confusionnelles. Les régressions types figurant dans WESVAR et SUDAAN pourraient être utilisées pour déterminer s'il existe une relation dose-réponse linéaire en tenant compte de l'effet des variables confusionnelles. Par contre, cette démarche ne semble pas très indiquée pour déceler les relations dose-réponse non linéaires et non monotones, et son application est longue si le nombre possible de variables étudiées est grand.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016739
    Description :

    L'Enquête sur la population active (EPA) n'a pas été conçue comme une enquête longitudinale. Cependant, puisque les ménages répondants font habituellement partie de l'échantillon durant six mois consécutifs, il est possible de reconstruire des fragments de données longitudinales sur six mois à partir des enregistrements mensuels établis pour les membres des ménages. Ces données longitudinales - qui, regroupées, représentent des millions de mois personnes de données de niveaux individuel et familial - sont utiles pour l'analyse de la dynamique mensuelle du marché du travail sur des périodes relativement longues, de 20 années et plus.

    On utilise ces données pour estimer les fonctions de hasard décrivant les transitions entre les états sur le marché du travail : travailleur indépendant, travailleur rémunéré et chômeur. Les données sur la période d'occupation de l'emploi, pour les employés, et sur la date de cessation du dernier emploi, pour les chômeurs - conjuguées à la date de réponse à l'enquête - permettent d'inclure dans le modèle estimé des termes reflétant la saisonnalité et les cycles macroéconomiques, ainsi que la dépendance à l'égard de la durée de chaque type de transition. En outre, les données de l'EPA permettent d'inclure les variables d'activité du conjoint ou de la conjointe sur le marché du travail et de composition de la famille dans les modèles de hasard à titre de covariables variant avec le temps. Les équations de hasard estimées ont été incluses dans le modèle de microsimulation socioéconomique LifePaths. Dans ces conditions, on peut se servir des équations pour simuler l'activité sur le marché du travail au cours de la vie d'après les données sur les cohortes de naissance passées, présentes et futures. Les résultats des simulations transversales ont été utilisées pour valider ces modèles par comparaison aux données du recensement allant de 1971 à 1996.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20010016235
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Les casiers judiciaires réunis par le FBI dans le cadre du Uniform Crime Reporting Program (UCR) sont la source des statistiques nationales sur la criminalité. Les vérifications entreprises récemment en vue de réviser les dossiers du UCR ont soulevé des questions quant à la manière de traiter les erreurs décelées. Celles-ci portent sur la méthode de repérage et sur la procédure de correction une fois les erreurs relevées. Ce document est axé sur la méthode d'échantillonnage de même que sur l'établissement d'un facteur de correction statistique et de solutions de rechange. On marque une distinction entre le redressement et l'estimation de l'échantillon ayant trait aux données d'un organisme, puis on recommande d'utiliser le redressement de l'échantillon, considérant que c'est le moyen le plus précis de traiter les erreurs.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X20010016289
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    La demande croissante de déclaration électronique dans les enquêtes auprès des établissements a mis en évidence la nécessité de faciliter l'utilisation des formules électroniques. Nous commençons à peine à en comprendre les conséquences sur le plan de la conception de ces formules. Les interviews cognitives et les tests d'utilisation sont analogues par la convergence des buts de ces deux catégories d'essais, l'objectif étant d'élaborer un instrument final sur papier ou sur support électronique qui réduit tant le fardeau de réponse que l'erreur de mesure. Les tests cognitifs ont grandement influé sur la conception de formules sur papier et sont aussi applicables à l'élaboration de formules électroniques. Les tests d'utilisation étendent l'application des méthodes existantes des tests cognitifs à un examen de l'interaction qui se crée entre le répondant et la formule électronique qu'il utilise.

    Le prochain recensement économique en 2002 aux États-Unis donnera aux entreprises la possibilité de faire leur déclaration sur formule électronique. Le Census Bureau est en train d'élaborer un guide de rédaction des formules électroniques qui énoncera des normes de conception de telles formules. Les normes qui figurent dans ce guide sont fondées sur les principes de facilité d'utilisation, les résultats de tests d'utilisation et de tests cognitifs et les règles de conception d'interface utilisateur graphique (IUG). Le présent document met en lumière les grandes questions de conception de formules électroniques qui ont été soulevées pendant l'élaboration du guide de rédaction et expose comment les tests d'utilisation et les interviews cognitives ont permis de les résoudre.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X19990015660
    Description :

    Les situations qui nécessitent le couplage des enregistrements d'un ou de plusieurs fichiers sont très diverses. Dans le cas d'un seul fichier, le but du couplage est de repérer les enregistrements en double. Dans le cas de deux fichiers, il consiste à déceler les unités qui sont les mêmes dans les deux fichiers et donc de créer des paires d'enregistrements correspondants. Souvent, les enregistrements qu'il faut coupler ne contiennent aucun identificateur unique. Le couplage hiérarchique des enregistrements, le couplage probabiliste des enregistrements et l'appariement statistique sont trois méthodes applicables dans ces conditions. Nous décrivons les principales différences entre ces méthodes. Puis, nous discutons du choix des variables d'appariement, de la préparation des fichiers en prévision du couplage et de la façon dont les paires sont reconnues. Nous donnons aussi quelques conseils et quelques trucs utilisés pour coupler des fichiers. Enfin, nous présentons deux exemples : le couplage probabiliste d'enregistrements réalisé dans le cadre de la contre-vérification des données du recensement et le couplage hiérarchique des enregistrements du fichier maître des numéros d'entreprise (NE) à ceux du fichier de l'univers statistique (FUS) d'unités déclarantes non constituées en société (T1).

    Date de diffusion : 2000-03-02

Date de modification :