Statistiques par sujet – Plan de sondage

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (265)

Tout (265) (25 of 265 results)

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 18-001-X2016001
    Description :

    Bien que le couplage d’enregistrements des données d’entreprises ne soit pas un sujet complètement nouveau, il n’en demeure pas moins que le grand public et de nombreux utilisateurs de données en méconnaissent les programmes et méthodes générales mises en œuvre par les agences de la statistique à travers le monde.

    Ce rapport fait un rapide tour d’horizon des principaux programmes, pratiques d’usages et enjeux sur le couplage d’enregistrements des agences de la statistique à travers le monde ayant répondu à un mini-sondage sur ce sujet. Le document montre que les pratiques d’appariements sont similaires entre agences de la statistique, mais que les principales différences résident dans les processus d’accès aux données et dans les politiques règlementaires qui encadrent les autorisations de couplage d’enregistrements ainsi que leur diffusion.

    Date de diffusion : 2016-10-27

  • Revues et périodiques : 89-648-X
    Description :

    Les documents de cette collection sont basés sur les données tirées de l'Étude longitudinale et internationale sur les adultes, une enquête longitudinale portant sur une variété de sujets relatifs au bien-être des canadiens et mesurant l'interaction qui existe entre les aspects importants de la vie des gens. L'enquête couvre plusieurs sujets tels que le travail, la santé, l'éducation et la formation des adultes, le revenu et les gains, de même que la dynamique familiale. Des rapports sur le contenu, les concepts, la méthodologie et la qualité des données de l'enquête sont également disponibles.

    Date de diffusion : 2016-08-18

  • Articles et rapports : 89-648-X2016001
    Description :

    Les couplages entre les données des enquêtes et les données administratives sont une pratique de plus en plus répandue, d’une part parce qu’ils réduisent le fardeau de réponse des répondants, et d’autre part parce qu’ils permettent d’obtenir des données à un coût relativement faible. Le couplage rétrospectif, soit le couplage de données administratives des années antérieures avec celles de l’année de l’enquête, cumule ces avantages en offrant des années supplémentaires de données. Le présent document porte sur l’Étude longitudinale et internationale des adultes (ELIA), qui a été couplée avec les données fiscales rétrospectives sur les déclarations de revenus des particuliers (T1) et les données tirées des fichiers des entrepreneurs (T4), entre autres documents non cités ici. Il présente les tendances des taux de couplage rétrospectif, compare la cohérence des données administratives entre les fichiers T1 et T4, présente la possibilité d’utiliser les données pour créer des panels équilibrés et emploie les données des T1 pour produire des profils des gains en fonction de l’âge par sexe. Les résultats démontrent que le taux de couplage rétrospectif est supérieur (plus de 90 % dans la plupart des cas) et stable dans le temps chez les répondants susceptibles de produire une déclaration de revenus, et que les sources administratives des T1 et T4 montrent des revenus concordants. En outre, les données administratives de couplage de l’ELIA permettent de créer de longs panels équilibrés couvrant plus de 30 années (au moment de rédiger la présente étude).

    Date de diffusion : 2016-08-18

  • Produits techniques : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014745
    Description :

    Au moment de la conception des enquêtes, un certain nombre de paramètres, comme la propension à la prise de contact, la propension à la participation et les coûts par unité d’échantillonnage, jouent un rôle décisif. Dans le cas des enquêtes permanentes, ces paramètres de conception d’enquête sont habituellement estimés à partir de l’expérience antérieure et mis à jour graduellement, au fur et à mesure des nouvelles expériences. Dans les nouvelles enquêtes, ces paramètres sont estimés à partir de l’opinion des experts et de l’expérience acquise dans des enquêtes similaires. Même si les instituts de sondage ont une expertise et une expérience relativement bonnes, l’énoncé, l’estimation et la mise à jour des paramètres de conception d’enquête se font rarement de façon systématique. Dans la présentation, nous proposons un cadre bayésien qui permet de prendre en compte et de mettre à jour les connaissances acquises et les opinions des experts concernant les paramètres. Ce cadre est établi dans le contexte de plans de collecte adaptatifs, dans lesquels les différentes unités de population peuvent être traitées différemment compte tenu des objectifs de qualité et de coût. Pour ce type d’enquête, l’exactitude des paramètres de conception devient encore plus cruciale pour prendre des décisions efficaces. Le cadre permet une analyse bayésienne du rendement d’une enquête pendant la collecte des données et entre les vagues. Nous démontrons l’analyse bayésienne au moyen d’une étude de simulation réaliste.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500214229
    Description :

    L’estimation autopondérée au moyen de méthodes d’échantillonnage avec probabilités égales (epsem pour equal probability selection methods) est souhaitable pour des raisons d’efficacité relativement à la variance. Habituellement, pour obtenir la propriété epsem pour des plans de sondage à deux degrés (et à une phase) en vue d’estimer des paramètres au niveau de la population, on utilise le chiffre de population de chaque unité primaire d’échantillonnage (UPE) comme mesure de taille pour la sélection des UPE, ainsi que l’attribution d’une taille d’échantillon égale aux UPE sous échantillonnage aléatoire simple (EAS) des unités élémentaires. Cependant, si l’on souhaite des estimations autopondérées pour les paramètres correspondant à de multiples domaines sous une répartition préétablie de l’échantillon entre les domaines, Folsom, Potter et Williams (1987) ont montré que l’on peut utiliser une mesure composite de taille pour sélectionner les UPE afin d’obtenir des plans epsem quand on suppose qu’outre les chiffres de population des UPE au niveau des domaines (c’est à dire la répartition de la population entre les domaines dans les UPE), les identificateurs de domaines pour les unités élémentaires sont également disponibles dans la base de sondage. Le terme depsem-A sera utilisé pour désigner ce genre de plan de sondage à deux degrés (et à une phase) pour obtenir l’estimation epsem au niveau du domaine. Folsom et coll. ont également considéré des plans d’échantillonnage à deux phases et à deux degrés quand les chiffres de population des UPE au niveau des domaines sont inconnus, mais que les dénombrements d’UPE entières sont connus. Pour ces plans (que nous désignerons depsem-B) avec les UPE sélectionnées avec probabilité proportionnelle à la mesure de taille habituelle (c’est à dire la population totale de l’UPE) au premier degré, toutes les unités élémentaires dans chaque UPE sélectionnée font d’abord l’objet d’une présélection en vue de les classer par domaine à la première phase de collecte des données, avant la sélection par EAS au deuxième degré d’échantillonnage. Des échantillons stratifiés par domaine sont ensuite sélectionnés dans les UPE en appliquant des taux d’échantillonnage de domaine choisis de manière appropriée pour que les tailles d’échantillon de domaine obtenues soient celles souhaitées et que le plan d’échantillonnage résultant soit autopondéré. Dans le présent article, nous commençons par donner une justification simple des mesures composites de taille pour le plan depsem-A et des taux d’échantillonnage de domaine pour le plan depsem-B. Puis, pour les plans depsem-A et -B, nous proposons des généralisations, premièrement aux cas pour lesquels les identificateurs de domaine pour les unités élémentaires ne sont pas disponibles dans la base de sondage et les chiffres de population des UPE au niveau des domaines ne sont connus qu’approximativement à partir d’autres sources, et deuxièmement, aux cas pour lesquels les mesures de taille des UPE sont préétablies en se basant sur d’autres considérations pratiques et souhaitables de suréchantillonnage ou de sous-échantillonnage de certains domaines. Nous présentons aussi une généralisation supplémentaire en présence de sous-échantillonnage des unités élémentaires et de non-réponse dans certaines UPE à la première phase, avant la sélection des unités élémentaires de deuxième phase dans les domaines à l’intérieur de chaque UPE sélectionnée. Cette dernière généralisation du plan depsem-B est illustrée pour un échantillon aréolaire de logements.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214230
    Description :

    Le présent article décrit l’élaboration de méthodes de répartition pour des enquêtes par sondage avec stratification quand l’utilisation d’estimateurs sur petits domaines composites est une priorité et que les domaines servent de strates. Longford (2006) a proposé pour cette situation un critère objectif fondé sur une combinaison pondérée des erreurs quadratiques moyennes des moyennes de petit domaine et d’une moyenne globale. Ici, nous redéfinissons cette approche dans un cadre assisté par modèle, ce qui permet l’utilisation de variables explicatives et une interprétation plus naturelle des résultats en utilisant un paramètre de corrélation intraclasse. Nous considérons aussi plusieurs utilisations de la répartition exponentielle et permettons l’application d’autres contraintes, telle une valeur maximale de la racine carrée relative de l’erreur quadratique moyenne, aux estimateurs de strate. Nous constatons qu’une répartition exponentielle simple peut donner des résultats très près d’être aussi bons que le plan optimal, même quand l’objectif est de minimiser le critère de Longford (2006).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214237
    Description :

    La bonne conception d’une enquête téléphonique par composition aléatoire (CA) à partir d’une base de sondage double requiert de choisir entre de nombreuses options, en faisant la part des différences de coût, de précision, et de couverture, afin d’optimiser la réalisation des objectifs de l’étude. L’un des éléments à prendre en considération est celui de savoir s’il faut présélectionner les ménages équipés de téléphones mobiles et n’interroger que ceux utilisant exclusivement des téléphones mobiles (ménages EXM), donc écarter ceux qui se servent d’un téléphone fixe ainsi que d’un téléphone mobile (ménages F-et-M), ou s’il faut, au contraire, interroger toutes les unités de l’échantillon de ménages équipés de téléphones mobiles. Nous présentons un cadre pour comparer les avantages et les inconvénients de ces deux options, ainsi qu’une méthode pour sélectionner le plan de sondage optimal. Nous établissons la répartition optimale de la taille de l’échantillon entre les deux bases de sondage et en discutons, et nous abordons le choix de la valeur optimale du paramètre de composition p pour le domaine des usagers d’un téléphone fixe ainsi que d’un téléphone mobile (F-et-M). Nous illustrons nos méthodes en les appliquant à la National Immunization Survey commanditée par les Centers for Disease Control and Prevention.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214090
    Description :

    Lorsqu'on s'intéresse à une population finie, il arrive qu'il soit nécessaire de tirer des échantillons dans plusieurs bases de sondage pour représenter l'ensemble des individus. Nous nous intéressons ici au cas de deux échantillons sélectionnés selon un plan à deux degrés, avec un premier degré de tirage commun. Nous appliquons les méthodes de Hartley (1962), Bankier (1986), et Kalton et Anderson (1986), et nous montrons que ces méthodes peuvent être appliquées conditionnellement au premier degré de tirage. Nous comparons également la performance de plusieurs estimateurs dans le cadre d'une étude par simulations. Nos résultats suggèrent que le choix d'un estimateur en présence de bases de sondage multiples se fasse de façon prudente, et qu'un estimateur simple est parfois préférable même s'il n'utilise qu'une partie de l'information collectée.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014286
    Description :

    L’Etude Longitudinale Française depuis l’Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion en maternité. Cette cohorte, consacrée au suivi des enfants, de la naissance à l’âge adulte, aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l’un des 25 jours répartis parmi les quatre saisons, ont été sélectionnés. Cet échantillon est le résultat d’un plan de sondage non standard que nous appellons échantillonnage produit. Il se présente pour cette enquête sous la forme du croisement de deux échantillonnages indépendants: celui des maternités et celui des jours. Si l’on peut facilement imaginer un effet grappe dû à l’échantillonnage de maternités, on peut symétriquement imaginer un effet grappe dû à l’échantillonnage des jours. La dimension temporelle du plan ne pourra alors être négligée si les estimations recherchées sont susceptibles de variations journalières ou saisonnières. Si ce plan non standard peut être vu comme un plan à deux phases bien particulier, il s’avère nécessaire de le définir dans un cadre plus adapté. Après une comparaison entre le plan produit et un plan classique à deux degrés, seront proposés des estimateurs de variance adaptés à ce plan de sondage. Une étude par simulations illustrera nos propos.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014276
    Description :

    En France, les contraintes budgétaires rendent plus difficile l’embauche d’enquêteurs occasionnels pour prendre en compte des problèmes de collecte. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée. Pour les enquêtes Insee, réalisées à partir d’un échantillon maître, les difficultés apparaissent lors de l’absence prolongée d’un enquêteur sur l’ensemble de la durée de la collecte d’une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l’enquête, ce qui génère de fait un biais. Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en oeuvre en fonction du moment où le problème est diagnostiqué. Si l’ « abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en oeuvre. Elle consiste à interroger un minimum de ménages dans chaque zone de collecte au détriment d’autres zones pour lesquelles aucun problème de collecte n’est a priori diagnostiqué. Il s’agit donc de minimiser la dispersion des poids sous contrainte de respect de la charge de collecte. Si l’ « abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en oeuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d’un échantillon par rapport à la population de base. L’objectif de cette priorisation en cours de collecte est de s’approcher le plus possible au final d’une équi-probabilité de réponse des répondants. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d’analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d’intensifier les efforts de collecte sur les groupes précédemment identifiés. Lors de la présentation orale, les deux points avaient été évoqués succinctement. Toutefois, cet article ne traite que du premier point évoqué ci-dessus, à savoir la « sous-allocation ». La priorisation est en cours de mise en oeuvre pour la première fois à l’Insee pour l’enquête Patrimoine et elle donnera lieu à un article spécifique qui sera rédigé par A. Rebecq.

    Date de diffusion : 2014-10-31

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Articles et rapports : 89-648-X2013001
    Description :

    À l'automne 2008, Statistique Canada, en collaboration avec Ressources humaines et Développement social Canada (RHDSC) et le milieu universitaire canadien, a réalisé, sur le terrain, l'Enquête pilote par panel auprès des ménages canadiens (EPMC pilote). Le présent document décrit l'historique du projet, les mesures prises pour élaborer l'enquête pilote et les résultats d'une série d'analyses des données recueillies.

    Date de diffusion : 2013-01-24

  • Articles et rapports : 89-648-X2013002
    Description :

    L'appariement de données est une pratique répandue qui permet de réduire le fardeau de réponse des répondants, en plus d'améliorer la qualité de l'information recueillie auprès de ces derniers lorsque la méthode de couplage n'introduit pas de biais. Néanmoins, le couplage rétrospectif, qui consiste à coupler des enregistrements externes en provenance d'années antérieures à l'année de la première vague d'une enquête, est relativement peu connu et n'avait jamais été réalisé à Statistique Canada jusqu'à maintenant. La présente étude décrit la façon dont les enregistrements de l'Enquête pilote Vivre au Canada ont été couplés aux données fiscales rétrospectives sur le revenu et le travail (feuillet T1 et T4). Elle présente par ailleurs l'évolution du taux de couplage lorsque l'on recule dans le temps, de même qu'une comparaison des gains d'emploi tirés du fichier des particuliers à ceux tirés du fichier des entreprises. Afin de montrer les nouvelles possibilités d'analyse offertes par ce type d'appariement, l'étude réalise en dernier lieu un profil de gains selon l'âge et le sexe pour différentes cohortes basées sur l'année de naissance.

    Date de diffusion : 2013-01-24

  • Articles et rapports : 12-001-X201200111684
    Description :

    De nombreuses enquêtes-entreprises fournissent des estimations du chiffre d'affaires mensuel pour les principaux codes de la Classification type des industries. Cela inclut les estimations des variations du niveau du chiffre d'affaires mensuel comparativement à 12 mois plus tôt. Comme des échantillons chevauchant sont souvent utilisés dans les enquêtes-entreprises, les estimations du chiffre d'affaires durant des mois consécutifs sont corrélées, ce qui complique le calcul de la variance des variations. Le présent article décrit une procédure générale d'estimation de la variance qui comprend des corrections annuelles des strates quand des établissements passent dans d'autres strates en raison de leur taille réelle. La procédure tient également compte du renouvellement des échantillons, ainsi que des nouvelles unités et des unités disparues. L'article se termine par un exemple de calcul de la variance de l'estimation du taux de croissance annuel du chiffre d'affaires mensuel des supermarchés des Pays-Bas.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111682
    Description :

    Les questions concernant la répartition de l'échantillon sont étudiées dans le contexte de l'estimation des moyennes de sous-population (strate ou domaine), ainsi que de la moyenne de population agrégée sous-échantillonnage aléatoire simple stratifié. Une méthode de programmation non linéaire est utilisée pour obtenir la répartition « optimale » de l'échantillon entre les strates qui minimise la taille totale d'échantillon sous la contrainte des tolérances spécifiées pour les coefficients de variation des estimateurs des moyennes de strate et de la moyenne de population. La taille totale d'échantillon résultante est alors utilisée pour déterminer les répartitions de l'échantillon par les méthodes de Costa, Satorra et Ventura (2004) s'appuyant sur une répartition intermédiaire ou de compromis et de Longford (2006) fondée sur des « priorités inférencielles » spécifiées. En outre, nous étudions la répartition de l'échantillon entre les strates quand sont également spécifiées des exigences de fiabilité pour des domaines qui recoupent les strates. Les propriétés des trois méthodes sont étudiées au moyen de données provenant de l'Enquête mensuelle sur le commerce de détail (EMCD) menée par Statistique Canada auprès d'établissements uniques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211608
    Description :

    Les plans de sondage et les estimateurs des enquêtes à base de sondage unique utilisés à l'heure actuelle par les organismes gouvernementaux américains ont été élaborés en réponse à des problèmes pratiques. Les programmes d'enquêtes-ménages fédéraux doivent faire face aujourd'hui à la diminution des taux de réponse et de la couverture des bases de sondage, à la hausse des coûts de collecte des données et à l'accroissement de la demande de statistiques pour des petits domaines. Les enquêtes à bases de sondage multiples, dans lesquelles des échantillons indépendants sont tirés de bases de sondage distinctes, peuvent être utilisées en vue de relever certains de ces défis. La combinaison d'une liste et d'une base de sondage aréolaire ou l'utilisation de deux bases de sondage pour échantillonner les ménages ayant une ligne de téléphone fixe et ceux ayant une ligne de téléphone mobile en sont des exemples. Nous passons en revue les estimateurs ponctuels et les ajustements de la pondération qui peuvent être utilisés pour analyser les données d'enquête à bases de sondage multiples au moyen de logiciels standard et nous résumons la construction des poids de rééchantillonnage pour l'estimation de la variance. Étant donné leur complexité croissante, les enquêtes à bases de sondage multiples obligent à résoudre des difficultés qui ne se posent pas dans le cas des enquêtes à base de sondage simple. Nous étudions le biais dû à l'erreur de classification dans les enquêtes à bases de sondage multiples et proposons une méthode pour corriger ce biais quand les probabilités d'erreur de classification sont connues. Enfin, nous discutons des travaux de recherche nécessaires en ce qui concerne les erreurs non dues à l'échantillonnage dans les enquêtes à bases de sondage multiples.

    Date de diffusion : 2011-12-21

Données (1)

Données (1) (1 result)

  • Tableau : 53-500-X
    Description :

    Dans ce rapport, on présente les résultats d'une enquête pilote menée par Statistique Canada pour mesurer la consommation de carburant des véhicules sur route immatriculés au Canada. Cette étude a été réalisée au moyen de l'Enquête sur les véhicules au Canada (EVC), qui permet de recueillir des données sur les activités routières tels que les distances parcourues, le nombre de passagers et la raison de chaque déplacement.

    Date de diffusion : 2004-10-21

Analyses (159)

Analyses (159) (25 of 159 results)

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 18-001-X2016001
    Description :

    Bien que le couplage d’enregistrements des données d’entreprises ne soit pas un sujet complètement nouveau, il n’en demeure pas moins que le grand public et de nombreux utilisateurs de données en méconnaissent les programmes et méthodes générales mises en œuvre par les agences de la statistique à travers le monde.

    Ce rapport fait un rapide tour d’horizon des principaux programmes, pratiques d’usages et enjeux sur le couplage d’enregistrements des agences de la statistique à travers le monde ayant répondu à un mini-sondage sur ce sujet. Le document montre que les pratiques d’appariements sont similaires entre agences de la statistique, mais que les principales différences résident dans les processus d’accès aux données et dans les politiques règlementaires qui encadrent les autorisations de couplage d’enregistrements ainsi que leur diffusion.

    Date de diffusion : 2016-10-27

  • Revues et périodiques : 89-648-X
    Description :

    Les documents de cette collection sont basés sur les données tirées de l'Étude longitudinale et internationale sur les adultes, une enquête longitudinale portant sur une variété de sujets relatifs au bien-être des canadiens et mesurant l'interaction qui existe entre les aspects importants de la vie des gens. L'enquête couvre plusieurs sujets tels que le travail, la santé, l'éducation et la formation des adultes, le revenu et les gains, de même que la dynamique familiale. Des rapports sur le contenu, les concepts, la méthodologie et la qualité des données de l'enquête sont également disponibles.

    Date de diffusion : 2016-08-18

  • Articles et rapports : 89-648-X2016001
    Description :

    Les couplages entre les données des enquêtes et les données administratives sont une pratique de plus en plus répandue, d’une part parce qu’ils réduisent le fardeau de réponse des répondants, et d’autre part parce qu’ils permettent d’obtenir des données à un coût relativement faible. Le couplage rétrospectif, soit le couplage de données administratives des années antérieures avec celles de l’année de l’enquête, cumule ces avantages en offrant des années supplémentaires de données. Le présent document porte sur l’Étude longitudinale et internationale des adultes (ELIA), qui a été couplée avec les données fiscales rétrospectives sur les déclarations de revenus des particuliers (T1) et les données tirées des fichiers des entrepreneurs (T4), entre autres documents non cités ici. Il présente les tendances des taux de couplage rétrospectif, compare la cohérence des données administratives entre les fichiers T1 et T4, présente la possibilité d’utiliser les données pour créer des panels équilibrés et emploie les données des T1 pour produire des profils des gains en fonction de l’âge par sexe. Les résultats démontrent que le taux de couplage rétrospectif est supérieur (plus de 90 % dans la plupart des cas) et stable dans le temps chez les répondants susceptibles de produire une déclaration de revenus, et que les sources administratives des T1 et T4 montrent des revenus concordants. En outre, les données administratives de couplage de l’ELIA permettent de créer de longs panels équilibrés couvrant plus de 30 années (au moment de rédiger la présente étude).

    Date de diffusion : 2016-08-18

  • Articles et rapports : 12-001-X201500214229
    Description :

    L’estimation autopondérée au moyen de méthodes d’échantillonnage avec probabilités égales (epsem pour equal probability selection methods) est souhaitable pour des raisons d’efficacité relativement à la variance. Habituellement, pour obtenir la propriété epsem pour des plans de sondage à deux degrés (et à une phase) en vue d’estimer des paramètres au niveau de la population, on utilise le chiffre de population de chaque unité primaire d’échantillonnage (UPE) comme mesure de taille pour la sélection des UPE, ainsi que l’attribution d’une taille d’échantillon égale aux UPE sous échantillonnage aléatoire simple (EAS) des unités élémentaires. Cependant, si l’on souhaite des estimations autopondérées pour les paramètres correspondant à de multiples domaines sous une répartition préétablie de l’échantillon entre les domaines, Folsom, Potter et Williams (1987) ont montré que l’on peut utiliser une mesure composite de taille pour sélectionner les UPE afin d’obtenir des plans epsem quand on suppose qu’outre les chiffres de population des UPE au niveau des domaines (c’est à dire la répartition de la population entre les domaines dans les UPE), les identificateurs de domaines pour les unités élémentaires sont également disponibles dans la base de sondage. Le terme depsem-A sera utilisé pour désigner ce genre de plan de sondage à deux degrés (et à une phase) pour obtenir l’estimation epsem au niveau du domaine. Folsom et coll. ont également considéré des plans d’échantillonnage à deux phases et à deux degrés quand les chiffres de population des UPE au niveau des domaines sont inconnus, mais que les dénombrements d’UPE entières sont connus. Pour ces plans (que nous désignerons depsem-B) avec les UPE sélectionnées avec probabilité proportionnelle à la mesure de taille habituelle (c’est à dire la population totale de l’UPE) au premier degré, toutes les unités élémentaires dans chaque UPE sélectionnée font d’abord l’objet d’une présélection en vue de les classer par domaine à la première phase de collecte des données, avant la sélection par EAS au deuxième degré d’échantillonnage. Des échantillons stratifiés par domaine sont ensuite sélectionnés dans les UPE en appliquant des taux d’échantillonnage de domaine choisis de manière appropriée pour que les tailles d’échantillon de domaine obtenues soient celles souhaitées et que le plan d’échantillonnage résultant soit autopondéré. Dans le présent article, nous commençons par donner une justification simple des mesures composites de taille pour le plan depsem-A et des taux d’échantillonnage de domaine pour le plan depsem-B. Puis, pour les plans depsem-A et -B, nous proposons des généralisations, premièrement aux cas pour lesquels les identificateurs de domaine pour les unités élémentaires ne sont pas disponibles dans la base de sondage et les chiffres de population des UPE au niveau des domaines ne sont connus qu’approximativement à partir d’autres sources, et deuxièmement, aux cas pour lesquels les mesures de taille des UPE sont préétablies en se basant sur d’autres considérations pratiques et souhaitables de suréchantillonnage ou de sous-échantillonnage de certains domaines. Nous présentons aussi une généralisation supplémentaire en présence de sous-échantillonnage des unités élémentaires et de non-réponse dans certaines UPE à la première phase, avant la sélection des unités élémentaires de deuxième phase dans les domaines à l’intérieur de chaque UPE sélectionnée. Cette dernière généralisation du plan depsem-B est illustrée pour un échantillon aréolaire de logements.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214230
    Description :

    Le présent article décrit l’élaboration de méthodes de répartition pour des enquêtes par sondage avec stratification quand l’utilisation d’estimateurs sur petits domaines composites est une priorité et que les domaines servent de strates. Longford (2006) a proposé pour cette situation un critère objectif fondé sur une combinaison pondérée des erreurs quadratiques moyennes des moyennes de petit domaine et d’une moyenne globale. Ici, nous redéfinissons cette approche dans un cadre assisté par modèle, ce qui permet l’utilisation de variables explicatives et une interprétation plus naturelle des résultats en utilisant un paramètre de corrélation intraclasse. Nous considérons aussi plusieurs utilisations de la répartition exponentielle et permettons l’application d’autres contraintes, telle une valeur maximale de la racine carrée relative de l’erreur quadratique moyenne, aux estimateurs de strate. Nous constatons qu’une répartition exponentielle simple peut donner des résultats très près d’être aussi bons que le plan optimal, même quand l’objectif est de minimiser le critère de Longford (2006).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214237
    Description :

    La bonne conception d’une enquête téléphonique par composition aléatoire (CA) à partir d’une base de sondage double requiert de choisir entre de nombreuses options, en faisant la part des différences de coût, de précision, et de couverture, afin d’optimiser la réalisation des objectifs de l’étude. L’un des éléments à prendre en considération est celui de savoir s’il faut présélectionner les ménages équipés de téléphones mobiles et n’interroger que ceux utilisant exclusivement des téléphones mobiles (ménages EXM), donc écarter ceux qui se servent d’un téléphone fixe ainsi que d’un téléphone mobile (ménages F-et-M), ou s’il faut, au contraire, interroger toutes les unités de l’échantillon de ménages équipés de téléphones mobiles. Nous présentons un cadre pour comparer les avantages et les inconvénients de ces deux options, ainsi qu’une méthode pour sélectionner le plan de sondage optimal. Nous établissons la répartition optimale de la taille de l’échantillon entre les deux bases de sondage et en discutons, et nous abordons le choix de la valeur optimale du paramètre de composition p pour le domaine des usagers d’un téléphone fixe ainsi que d’un téléphone mobile (F-et-M). Nous illustrons nos méthodes en les appliquant à la National Immunization Survey commanditée par les Centers for Disease Control and Prevention.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214090
    Description :

    Lorsqu'on s'intéresse à une population finie, il arrive qu'il soit nécessaire de tirer des échantillons dans plusieurs bases de sondage pour représenter l'ensemble des individus. Nous nous intéressons ici au cas de deux échantillons sélectionnés selon un plan à deux degrés, avec un premier degré de tirage commun. Nous appliquons les méthodes de Hartley (1962), Bankier (1986), et Kalton et Anderson (1986), et nous montrons que ces méthodes peuvent être appliquées conditionnellement au premier degré de tirage. Nous comparons également la performance de plusieurs estimateurs dans le cadre d'une étude par simulations. Nos résultats suggèrent que le choix d'un estimateur en présence de bases de sondage multiples se fasse de façon prudente, et qu'un estimateur simple est parfois préférable même s'il n'utilise qu'une partie de l'information collectée.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 89-648-X2013001
    Description :

    À l'automne 2008, Statistique Canada, en collaboration avec Ressources humaines et Développement social Canada (RHDSC) et le milieu universitaire canadien, a réalisé, sur le terrain, l'Enquête pilote par panel auprès des ménages canadiens (EPMC pilote). Le présent document décrit l'historique du projet, les mesures prises pour élaborer l'enquête pilote et les résultats d'une série d'analyses des données recueillies.

    Date de diffusion : 2013-01-24

  • Articles et rapports : 89-648-X2013002
    Description :

    L'appariement de données est une pratique répandue qui permet de réduire le fardeau de réponse des répondants, en plus d'améliorer la qualité de l'information recueillie auprès de ces derniers lorsque la méthode de couplage n'introduit pas de biais. Néanmoins, le couplage rétrospectif, qui consiste à coupler des enregistrements externes en provenance d'années antérieures à l'année de la première vague d'une enquête, est relativement peu connu et n'avait jamais été réalisé à Statistique Canada jusqu'à maintenant. La présente étude décrit la façon dont les enregistrements de l'Enquête pilote Vivre au Canada ont été couplés aux données fiscales rétrospectives sur le revenu et le travail (feuillet T1 et T4). Elle présente par ailleurs l'évolution du taux de couplage lorsque l'on recule dans le temps, de même qu'une comparaison des gains d'emploi tirés du fichier des particuliers à ceux tirés du fichier des entreprises. Afin de montrer les nouvelles possibilités d'analyse offertes par ce type d'appariement, l'étude réalise en dernier lieu un profil de gains selon l'âge et le sexe pour différentes cohortes basées sur l'année de naissance.

    Date de diffusion : 2013-01-24

  • Articles et rapports : 12-001-X201200111684
    Description :

    De nombreuses enquêtes-entreprises fournissent des estimations du chiffre d'affaires mensuel pour les principaux codes de la Classification type des industries. Cela inclut les estimations des variations du niveau du chiffre d'affaires mensuel comparativement à 12 mois plus tôt. Comme des échantillons chevauchant sont souvent utilisés dans les enquêtes-entreprises, les estimations du chiffre d'affaires durant des mois consécutifs sont corrélées, ce qui complique le calcul de la variance des variations. Le présent article décrit une procédure générale d'estimation de la variance qui comprend des corrections annuelles des strates quand des établissements passent dans d'autres strates en raison de leur taille réelle. La procédure tient également compte du renouvellement des échantillons, ainsi que des nouvelles unités et des unités disparues. L'article se termine par un exemple de calcul de la variance de l'estimation du taux de croissance annuel du chiffre d'affaires mensuel des supermarchés des Pays-Bas.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111682
    Description :

    Les questions concernant la répartition de l'échantillon sont étudiées dans le contexte de l'estimation des moyennes de sous-population (strate ou domaine), ainsi que de la moyenne de population agrégée sous-échantillonnage aléatoire simple stratifié. Une méthode de programmation non linéaire est utilisée pour obtenir la répartition « optimale » de l'échantillon entre les strates qui minimise la taille totale d'échantillon sous la contrainte des tolérances spécifiées pour les coefficients de variation des estimateurs des moyennes de strate et de la moyenne de population. La taille totale d'échantillon résultante est alors utilisée pour déterminer les répartitions de l'échantillon par les méthodes de Costa, Satorra et Ventura (2004) s'appuyant sur une répartition intermédiaire ou de compromis et de Longford (2006) fondée sur des « priorités inférencielles » spécifiées. En outre, nous étudions la répartition de l'échantillon entre les strates quand sont également spécifiées des exigences de fiabilité pour des domaines qui recoupent les strates. Les propriétés des trois méthodes sont étudiées au moyen de données provenant de l'Enquête mensuelle sur le commerce de détail (EMCD) menée par Statistique Canada auprès d'établissements uniques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211608
    Description :

    Les plans de sondage et les estimateurs des enquêtes à base de sondage unique utilisés à l'heure actuelle par les organismes gouvernementaux américains ont été élaborés en réponse à des problèmes pratiques. Les programmes d'enquêtes-ménages fédéraux doivent faire face aujourd'hui à la diminution des taux de réponse et de la couverture des bases de sondage, à la hausse des coûts de collecte des données et à l'accroissement de la demande de statistiques pour des petits domaines. Les enquêtes à bases de sondage multiples, dans lesquelles des échantillons indépendants sont tirés de bases de sondage distinctes, peuvent être utilisées en vue de relever certains de ces défis. La combinaison d'une liste et d'une base de sondage aréolaire ou l'utilisation de deux bases de sondage pour échantillonner les ménages ayant une ligne de téléphone fixe et ceux ayant une ligne de téléphone mobile en sont des exemples. Nous passons en revue les estimateurs ponctuels et les ajustements de la pondération qui peuvent être utilisés pour analyser les données d'enquête à bases de sondage multiples au moyen de logiciels standard et nous résumons la construction des poids de rééchantillonnage pour l'estimation de la variance. Étant donné leur complexité croissante, les enquêtes à bases de sondage multiples obligent à résoudre des difficultés qui ne se posent pas dans le cas des enquêtes à base de sondage simple. Nous étudions le biais dû à l'erreur de classification dans les enquêtes à bases de sondage multiples et proposons une méthode pour corriger ce biais quand les probabilités d'erreur de classification sont connues. Enfin, nous discutons des travaux de recherche nécessaires en ce qui concerne les erreurs non dues à l'échantillonnage dans les enquêtes à bases de sondage multiples.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211609
    Description :

    Le présent article propose un examen et une évaluation de l'échantillonnage équilibré par la méthode du cube. Il débute par une définition de la notion d'échantillon équilibré et d'échantillonnage équilibré, suivie par un court historique du concept d'équilibrage. Après un exposé succinct de la théorie de la méthode du cube, l'accent est mis sur les aspects pratiques de l'échantillonnage équilibré, c'est-à-dire l'intérêt de la méthode comparativement à d'autres méthodes d'échantillonnage et au calage, le domaine d'application, la précision de l'équilibrage, le choix des variables auxiliaires et les moyens de mettre la méthode en oeuvre.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211610
    Description :

    Dans cet article, l'auteur présente une discussion sur chacun des trois articles de la compilation spéciale du US Census Bureau.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211607
    Description :

    Le présent article décrit les progrès récents dans le domaine des stratégies d'échantillonnage adaptatif et présente de nouvelles variantes de ces stratégies. Les progrès récents comprennent les plans d'échantillonnage à marche aléatoire ciblée et l'échantillonnage adaptatif « en toile ». Ces plans conviennent particulièrement bien pour l'échantillonnage par réseau; par exemple pour obtenir un échantillon de personnes appartenant à une population humaine cachée en suivant les liens sociaux partant d'un groupe de personnes échantillonnées pour trouver d'autres membres de la population cachée à ajouter à l'échantillon. Chacun de ces plans peut également être transposé à des conditions spatiales pour produire de nouvelles stratégies d'échantillonnage adaptatif spatial souples, applicables à des populations réparties non uniformément. Les variantes de ces stratégies d'échantillonnage comprennent celles où les liens du réseau ou les liens spatiaux ont des poids inégaux et sont suivis avec des probabilités inégales.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 89-648-X2011001
    Description :

    En janvier 2006, un congrès sur les enquêtes longitudinales organisé par Statistique Canada, le Conseil de recherches en sciences humaines du Canada (CRSH) et les Instituts de recherche en santé du Canada (IRSC) a permis de conclure que le Canada n'a pas d'enquête longitudinale lui permettant de recueillir des renseignements sur de multiples sujets tels que la famille, le capital humain, la santé de la main-d'oeuvre et le suivi des répondants pour une longue période dans le temps. Suite à ce congrès, du financement provenant du Fonds du Groupe de données pour la recherche sur les politiques (GDRP) a été accordé afin de soutenir l'enquête pilote pour la nouvelle Enquête par panel auprès des ménages canadiens (EPMC-Pilote). Des consultations concernant le plan et le contenu ont eu lieu avec des experts universitaires et politiques en 2007 et 2008, et une enquête pilote a été menée à l'automne 2008. Les objectifs de l'enquête pilote étaient 1) de soumettre un questionnaire à un test, évaluer la longueur de l'interview et examiner la qualité des données; 2) d'évaluer plusieurs caractéristiques du plan; et 3) de vérifier la réaction des répondants et des interviewers sur le terrain à propos de l'enquête. L'enquête pilote a été menée avec un taux de réponse de 76 %, et un temps d'entrevue moyen de 64 minutes par ménages. Plusieurs innovations dans les caractéristiques du plan ont été évaluées, et se sont avérées viables. La réponse à l'enquête provenant des répondants ou des interviewers a été positive. Cet article met en évidence ces résultats ainsi que d'autres résultats tirés de l'EPMC-Pilote.

    Date de diffusion : 2011-09-14

  • Articles et rapports : 12-001-X201100111447
    Description :

    Ce document présente un programme R pour la stratification d'une population d'enquête à l'aide d'une variable unidimensionnelle X et pour le calcul de tailles d'échantillon dans les strates. Nous y employons des méthodes non itératives pour délimiter les strates, comme la méthode de la fonction cumulative de la racine carrée des fréquences et la méthode géométrique. Nous pouvons élaborer des plans optimaux où les bornes de strates minimisent soit le CV de l'estimateur simple par dilatation pour une taille fixe d'échantillon n, soit la valeur n pour un CV fixe. Nous disposons de deux algorithmes itératifs pour le calcul des bornes optimales. Le plan peut comporter des strates à tirage obligatoire qui sont définies par l'utilisateur et dont toutes les unités sont échantillonnées. Il est également possible d'inclure dans le plan stratifié des strates à tirage complet et à tirage nul qui permettent souvent de réduire les tailles d'échantillon. Les calculs de taille d'échantillon sont fondés sur les moments anticipés de la variable d'enquête Y étant donné la variable de stratification X. Le programme traite les distributions conditionnelles de Y étant donné X qui sont soit un modèle linéaire hétéroscédastique soit un modèle loglinéaire. Nous pouvons tenir compte de la non-réponse par strate dans l'élaboration du plan d'échantillonnage et dans les calculs de taille d'échantillon.

    Date de diffusion : 2011-06-29

Références (105)

Références (105) (25 of 105 results)

  • Produits techniques : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014745
    Description :

    Au moment de la conception des enquêtes, un certain nombre de paramètres, comme la propension à la prise de contact, la propension à la participation et les coûts par unité d’échantillonnage, jouent un rôle décisif. Dans le cas des enquêtes permanentes, ces paramètres de conception d’enquête sont habituellement estimés à partir de l’expérience antérieure et mis à jour graduellement, au fur et à mesure des nouvelles expériences. Dans les nouvelles enquêtes, ces paramètres sont estimés à partir de l’opinion des experts et de l’expérience acquise dans des enquêtes similaires. Même si les instituts de sondage ont une expertise et une expérience relativement bonnes, l’énoncé, l’estimation et la mise à jour des paramètres de conception d’enquête se font rarement de façon systématique. Dans la présentation, nous proposons un cadre bayésien qui permet de prendre en compte et de mettre à jour les connaissances acquises et les opinions des experts concernant les paramètres. Ce cadre est établi dans le contexte de plans de collecte adaptatifs, dans lesquels les différentes unités de population peuvent être traitées différemment compte tenu des objectifs de qualité et de coût. Pour ce type d’enquête, l’exactitude des paramètres de conception devient encore plus cruciale pour prendre des décisions efficaces. Le cadre permet une analyse bayésienne du rendement d’une enquête pendant la collecte des données et entre les vagues. Nous démontrons l’analyse bayésienne au moyen d’une étude de simulation réaliste.

    Date de diffusion : 2016-03-24

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Produits techniques : 11-522-X201300014286
    Description :

    L’Etude Longitudinale Française depuis l’Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion en maternité. Cette cohorte, consacrée au suivi des enfants, de la naissance à l’âge adulte, aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l’un des 25 jours répartis parmi les quatre saisons, ont été sélectionnés. Cet échantillon est le résultat d’un plan de sondage non standard que nous appellons échantillonnage produit. Il se présente pour cette enquête sous la forme du croisement de deux échantillonnages indépendants: celui des maternités et celui des jours. Si l’on peut facilement imaginer un effet grappe dû à l’échantillonnage de maternités, on peut symétriquement imaginer un effet grappe dû à l’échantillonnage des jours. La dimension temporelle du plan ne pourra alors être négligée si les estimations recherchées sont susceptibles de variations journalières ou saisonnières. Si ce plan non standard peut être vu comme un plan à deux phases bien particulier, il s’avère nécessaire de le définir dans un cadre plus adapté. Après une comparaison entre le plan produit et un plan classique à deux degrés, seront proposés des estimateurs de variance adaptés à ce plan de sondage. Une étude par simulations illustrera nos propos.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014276
    Description :

    En France, les contraintes budgétaires rendent plus difficile l’embauche d’enquêteurs occasionnels pour prendre en compte des problèmes de collecte. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée. Pour les enquêtes Insee, réalisées à partir d’un échantillon maître, les difficultés apparaissent lors de l’absence prolongée d’un enquêteur sur l’ensemble de la durée de la collecte d’une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l’enquête, ce qui génère de fait un biais. Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en oeuvre en fonction du moment où le problème est diagnostiqué. Si l’ « abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en oeuvre. Elle consiste à interroger un minimum de ménages dans chaque zone de collecte au détriment d’autres zones pour lesquelles aucun problème de collecte n’est a priori diagnostiqué. Il s’agit donc de minimiser la dispersion des poids sous contrainte de respect de la charge de collecte. Si l’ « abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en oeuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d’un échantillon par rapport à la population de base. L’objectif de cette priorisation en cours de collecte est de s’approcher le plus possible au final d’une équi-probabilité de réponse des répondants. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d’analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d’intensifier les efforts de collecte sur les groupes précédemment identifiés. Lors de la présentation orale, les deux points avaient été évoqués succinctement. Toutefois, cet article ne traite que du premier point évoqué ci-dessus, à savoir la « sous-allocation ». La priorisation est en cours de mise en oeuvre pour la première fois à l’Insee pour l’enquête Patrimoine et elle donnera lieu à un article spécifique qui sera rédigé par A. Rebecq.

    Date de diffusion : 2014-10-31

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Produits techniques : 12-587-X
    Description :

    Cette publication montre comment concevoir et mener un recensement ou une enquête par sondage. Le lecteur y trouvera une explication des concepts fondamentaux des enquêtes et des façons de concevoir des sondages efficaces et de qualité. Cette publication s'adresse à ceux qui planifient, mènent, ou gèrent une enquête et aux étudiants des cours de conception d'enquête.

    Le livre fournit de l'information concernant:

    -la planification et la gestion d'une enquête ;-la formulation des objectifs d'enquête et la conception de questionnaire; -les différents paramètres qui gouvernent la conception d'une enquête (par échantillon ou par recensement, la population visée par l'enquête, la base de sondage, les sources possible d'erreur); -le choix de la méthode de collecte (autodénombrement, interview sur place ou téléphonique, interview assistée par ordinateur ou au moyen d'un questionnaire papier);-l'organisation et la gestion de la collecte de données; -le calcul de la taille d'échantillon, la répartition de l'échantillon aux strates et le tirage de l'échantillon; -les méthodes d'estimation ponctuelle et d'estimation de la variance, et l'analyse des données; -l'utilisation des données administratives durant la conception ou l'estimation; -le traitement des données (ce qui se passe entre la collecte et l'estimation), de même que différentes méthodes de contrôle et d'assurance de la qualité visant à réduire les erreurs durant les différentes étapes de l'enquête;-la diffusion des données et le contrôle de la divulgation.

    Cette publication comporte également une étude de cas pour illustrer les diverses étapes de la mise en place d'une enquête auprès de ménages, en utilisant les méthodes et les principes présentés dans le livre. Auparavant, cette publication était seulement offerte en format imprimé et Publiée pour la première fois en octobre 2003.

    Date de diffusion : 2010-09-27

  • Produits techniques : 11-522-X200800010989
    Description :

    À première vue, les enquêtes en ligne semblent constituer une façon intéressante et attrayante de recueillir des données. Elles permettent d'avoir un accès simple, économique et rapide à un grand nombre de personnes. Il y a cependant un revers à cette médaille. Compte tenu des problèmes d'ordre méthodologique qu'elles posent, les enquêtes en ligne peuvent produire des résultats fortement biaisés, surtout si elles ont recours à la méthode d'autosélection des répondants plutôt qu'à l'échantillonnage probabiliste, comme cela devrait être le cas. Le sous-dénombrement constitue également un grave problème. On peut alors se demander si les enquêtes en ligne conviennent à la collecte des données pour les besoins de la statistique officielle. La présente communication porte sur les problèmes du sous-dénombrement et de l'autosélection dans les enquêtes en ligne et tente de montrer comment on peut intégrer la collecte des données par Internet aux pratiques courantes de collecte des données pour les besoins de la statistique officielle.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011008
    Description :

    Dans un certain sens, un questionnaire n'est jamais achevé. Les résultats des essais, les paradonnées et les constatations émanant des travaux de recherche fournissent constamment des raisons de le mettre à jour et de l'améliorer. En outre, les établissements évoluent au cours du temps et les questions doivent être modifiées en conséquence. Dans la réalité, toutefois, il n'en est pas toujours ainsi. Statistics Sweden compte plusieurs exemples de questionnaires qui ont rarement été améliorés après avoir été conçus. Néanmoins, nous essayons à l'heure actuelle de passer, pour la conception des questionnaires, d'une perspective linéaire à une perspective cyclique. Nous élaborons un modèle cyclique permettant d'améliorer continuellement les questionnaires en plusieurs cycles. Le présent article décrit ce modèle et la façon dont nous l'utilisons.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010940
    Description :

    Afin de permettre la collecte de données de bonne qualité, la section de la méthodologie de collecte des données (DCM pour Data Collection Methodology) offre des conseils et un appui d'expert en ce qui concerne la conception des questionnaires, les méthodes d'évaluation et l'obtention de la participation des répondants. La DCM aide ses clients à se perfectionner, entreprend des travaux de recherche et dirige des projets novateurs portant sur les méthodes de collecte des données. Toutes ces activités ont lieu dans un contexte exigeant de changement organisationnel et de ressources limitées. Le présent article décrit comment la DCM « fait affaire » avec ses clients et, plus globalement, avec le monde de la méthodologie en vue d'atteindre ses objectifs.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010990
    Description :

    L'Enquête sur la satisfaction des usagers à l'égard des services de santé et des services sociaux du Québec a pour objectif de fournir des estimations sur la satisfaction selon trois lieux de consultation (hôpital, clinique médicale et CLSC). Puisqu'un usager peut avoir consulté de un à trois lieux, et que le questionnaire ne peut porter que sur un seul de ces lieux, un mécanisme de sélection aléatoire du lieu de consultation a été mis en place. Nécessitant des probabilités de sélection variables, ce mécanisme de sélection a la particularité d'avoir été modifié en cours de collecte pour s'adapter de plus en plus aux disparités régionales, quant à l'utilisation des services de santé et des services sociaux.

    Date de diffusion : 2009-12-03

  • Produits techniques : 12-539-X
    Description :

    Ce document réunit des lignes directrices et des listes de contrôles liées à de nombreuses questions dont on doit tenir compte dans la poursuite des objectifs de qualité que sous-tend l'exécution des activités statistiques. Le document s'attarde principalement à la façon d'assurer la qualité grâce à la conception ou à la restructuration efficace et adéquate d'un projet ou d'un programme statistique, des débuts jusqu'à l'évaluation, la diffusion et la documentation des données. Ces lignes directrices sont fondées sur les connaissances et l'expérience collective d'un grand nombre d'employés de Statistique Canada. On espère que les Lignes directrices concernant la qualité seront utiles au personnel chargé de la planification et de la conception des enquêtes et d'autres projets statistiques, ainsi qu'à ceux qui évaluent et analysent les résultats de ces projets.

    Date de diffusion : 2009-12-02

  • Produits techniques : 11-522-X200600110424
    Description :

    L'enquête réalisée par la Chine dans le cadre du programme de lutte internationale contre le tabagisme (ITC pour International Tobacco Control) comprend un plan d'échantillonnage à plusieurs degrés avec probabilités inégales où les grappes du niveau supérieur sont sélectionnées par la méthode d'échantillonnage PPT systématique randomisé. Durant l'exécution de l'enquête, il faut résoudre le problème suivant : plusieurs grappes de niveau supérieur échantillonnées refusent de participer et doivent être remplacées par des unités de substitution sélectionnées parmi les unités non incluses dans l'échantillon initial, de nouveau par la méthode d'échantillonnage PPT systématique randomisé. Dans de telles conditions, les probabilités d'inclusion de premier ordre des unités finales sélectionnées sont très difficiles à calculer et la détermination des probabilités d'inclusion de deuxième ordre devient virtuellement impossible. Dans le présent article, nous élaborons une méthode fondée sur la simulation pour calculer les probabilités d'inclusion de premier et de deuxième ordre lorsque le calcul direct est prohibitif ou impossible. Nous démontrons l'efficacité de la méthode que nous proposons en nous appuyant sur des considérations théoriques et des exemples numériques. Nous incluons plusieurs fonctions et codes R/S PLUS pour la procédure proposée. La méthode peut être étendue à des situations de refus/substitution plus complexes susceptibles de survenir en pratique.

    Date de diffusion : 2008-06-26

  • Produits techniques : 11-522-X200600110427
    Description :

    La National Health and Nutrition Examination Survey (NHANES) fait partie d'une série de programmes ayant trait à la santé parrainés par le National Center for Health Statistics des États-Unis. Une caractéristique unique de la NHANES est que tous les répondants de l'échantillon sont soumis à un examen médial complet. Afin de normaliser la façon dont ils sont effectués, ces examens se déroulent dans des centres d'examen mobiles (CEM). L'examen comprend des mesures physiques, des tests tels que l'examen de la vue et des dents, ainsi que le prélèvement d'échantillons de sang et d'urine pour des analyses biologiques. La NHANES est une enquête annuelle continue sur la santé effectuées auprès de la population civile des États-Unis ne résidant pas en établissement. Les principaux objectifs analytiques comprennent l'estimation du nombre et du pourcentage de personnes dans la population des États-Unis et dans des sous groupes désignés qui présentent certaines maladies et certains facteurs de risque. Le plan d'échantillonnage de la NHANES doit permettre d'établir un juste équilibre entre les exigences liées à l'obtention d'échantillons annuels et pluriannuels efficaces et la souplesse requise pour pouvoir modifier les paramètres essentiels du plan afin de mieux adapter l'enquête au besoin des chercheurs et des décideurs qui élaborent les politiques en matière de santé. Le présent article décrit les défis associés à la conception et à la mise en oeuvre d'un processus d'échantillonnage permettant d'atteindre les objectifs de la NHANES.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110438
    Description :

    Dans le cadre d'une initiative visant à concevoir un ensemble de questions pour mesurer l'incapacité dans le contexte de la Current Population Survey (CPS), des questions potentielles extraites d'enquêtes existantes ont fait l'objet de tests cognitifs et d'essais sur le terrain. À la suite d'une analyse des résultats des tests, un groupe de sept questions ont été retenues, testées sur le plan cognitif et intégrées dans la CPS de février 2006 en vue d'un essai. L'analyse des données de la CPS a révélé un taux global d'incapacité plus faible que celui de l'essai sur le terrain, les taux de réponse positifs à chaque question étant plus faibles. Aucun effet négatif sur les taux de réponse n'a été mis au jour.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110426
    Description :

    Dans la présente communication, le plan d'échantillonnage élaboré pour répondre aux objectifs et à la logistique de l'enquête est décrit. Parmi les défis à relever, notons la nécessité d'avoir les répondants sélectionnés à proximité des cliniques, la difficulté d'atteindre la taille d'échantillon désirée pour les jeunes ainsi que le sous-échantillonnage pour les mesures reliées à l'exposition aux agents environnementaux. Le plan d'échantillonnage présentera des solutions à ces défis entre autres, la formation de sites de collecte, l'utilisation de plusieurs bases de sondage ainsi qu'une stratégie de sélection des personnes.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110425
    Description :

    Supposons que les données d'une enquête avec plan de sondage à plusieurs degrés doivent être recueillies pour deux périodes de référence. Le présent article décrit les mérites relatifs de la méthode consistant à garder les mêmes grappes dans l'échantillon comparativement à l'échantillonnage de nouvelles grappes sous divers scénarios statistiques (corrélation entre les grappes et au cours du temps) et logistiques (coût de l'enquête). L'effet du plan dans le cas de la réutilisation au cours du temps des mêmes grappes tirées de l'échantillon principal est de la forme "1 - Ap(pi)/n", où " p " est la corrélation intertemporelle des totaux de grappe, "n" est le nombre de grappes, "pi" est la proportion de grappes du cycle précédent qui sont retenues et "A>0" est une constante fixe. Pourvu que les gains d'efficacité paraissent peu importants, la valeur des plans comportant la réutilisation des grappes tient à des considérations logistiques (coût de l'enquête). Nous présentons une démonstration empirique au moyen de données provenant de la Demography and Health Survey (DHS) réalisée au Bangladesh en 1996 et en 2000.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110436
    Description :

    L'échantillonnage de la population maorie dans l'Enquête de 2006-2007 sur la santé en Nouvelle­Zélande a été conçu en fonction d'un ensemble d'objectifs, le plus ambitieux étant l'obtention d'un degré de précision suffisant pour cerner des sous-populations particulières, notamment la population indigène maorie. Les Maoris représentent environ 14 % de la population de la Nouvelle-Zélande. Bien qu'elle soit assez regroupée sur le plan géographique, cette population vit en majorité dans des régions comptant des concentrations relativement faibles de Maoris, de sorte qu'il est difficile de l'échantillonner de façon efficace. On a fait appel à des méthodes d'échantillonnage non proportionnel et de présélection pour obtenir un échantillon de taille suffisante tout en limitant l'effet du plan de sondage.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110444
    Description :

    Les enquêtes générales sur la santé des populations comportent souvent de petits échantillons de fumeurs. Peu d'études longitudinales portant spécifiquement sur l'usage du tabac ont été réalisées. Nous discutons de l'élaboration de l'Enquête sur le tabagisme en Ontario (OTS pour Ontario Tobacco Survey) qui combine une composante longitudinale avec échantillons successifs et des composantes transversales répétées. Lancée en juillet 2005, l'OTS est une enquête par échantillonnage aléatoire et collecte téléphonique des données. Tous les six mois, de nouveaux échantillons de fumeurs et de non fumeurs fournissent des données sur leurs comportements et attitudes relatifs à l'usage du tabac. Les fumeurs participent à une étude par panel et font l'objet d'un suivi afin de déterminer l'évolution des influences et des comportements relatifs à l'usage du tabac. Le plan d'enquête permet de répondre de manière rentable aux exigences d'échantillonnage associées à des objectifs d'étude multiples.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110412
    Description :

    L'Enquête canadienne sur les mesures de la santé (ECMS) est la première enquête de Statistique Canada qui s'appuie sur un ensemble complet de mesures physiques directes de la santé. L'ECMS permettra de recueillir des données sur la santé, par mesures directes, auprès d'un échantillon représentatif de 5 000 Canadiens âgés de 6 à 79 ans de 2007 à 2009. Après une interview approfondie sur la santé menée à domicile, les répondants se rendent à un centre d'examen mobile où des mesures directes de leur santé sont prises. Parmi ces mesures figurent l'évaluation de la condition physique, des mesures anthropométriques, l'évaluation objective de l'activité physique, des mesures spirométriques, la pression artérielle, l'évaluation de la santé bucco-dentaire et le prélèvement d'échantillons de sang et d'urine. Les analyses de sang et d'urine permettent de détecter des maladies chroniques et des maladies infectieuses, et de fournir des indicateurs de la nutrition et des biomarqueurs environnementaux. Cette enquête pose de nombreux défis bien particuliers qui se manifestent rarement dans les autres enquêtes de Statistique Canada. Le présent article fait état de certains de ces défis. Les données recueillies dans le cadre de l'ECMS sont uniques en leur genre et représentent un outil précieux de surveillance et de recherche en matière de santé au Canada.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110441
    Description :

    Comment estime t on efficacement la taille de l'échantillon tout en établissant un consensus entre de nombreux chercheurs pour des projets polyvalents? Nous présentons un modèle s'appuyant sur un tableur ordinaire pour produire des estimations de la puissance analytique, de la précision et des coûts financiers selon divers scénarios d'échantillonnage, tel qu'il a été utilisé lors de l'élaboration de l'Enquête sur le tabagisme en Ontario. En plus des estimations des coûts, des formules complexes de calcul de la taille d'échantillon ont été imbriquées dans un tableur pour déterminer la puissance et la précision des analyses, en tenant compte des effets de plan et des cas perdus de vue au suivi définis par l'utilisateur. Un tableur ordinaire peut être combiné à des formules complexes afin de faciliter l'échange de connaissances entre les méthodologistes et les intervenants, et en fait, de démystifier la "boîte noire de la taille d'échantillon".

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019469
    Description :

    Les années 1990 ont été la décennie des enquêtes longitudinales au Canada. L'accent était mis nettement sur les avantages que l'on pourrait tirer du pouvoir analytique accru offert par ces enquêtes. La communication traite de questions comme les éclaircissements obtenus, l'actualité des données, l'accès aux données, le plan de sondage, la complexité, la capacité de recherche, la gouvernance des enquêtes et la mobilisation des connaissances. La communication expose dans les grandes lignes des questions qui seront vraisemblablement soulevées lors de tout débat concernant les enquêtes longitudinales.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019493
    Description :

    Cet article présente l'Office général de la statistique du Vietnam, établi à Hanoï, et décrit les enquêtes socioéconomiques menées au Vietnam depuis le début des années 1990 en faisant état de leurs méthodes, de leurs réalisations et des problèmes qui restent à résoudre.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019443
    Description :

    La théorie des sondages a été motivée directement par des problèmes pratiques survenus durant la conception et l'analyse des enquêtes par sondage. Par ailleurs, cette théorie a influencé la pratique, en donnant souvent lieu à des améliorations importantes. La communication traitera de cette interaction au cours des quelque 60 dernières années.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019444
    Description :

    Il existe plusieurs façons d'améliorer la qualité des données. L'une d'entre elles consiste à refondre et à mettre à l'essai les questionnaires des enquêtes permanentes. La refonte et l'essai des questionnaires offrent l'avantage d'améliorer l'exactitude en s'assurant que les questions servent à recueillir les données nécessaires, ainsi que de réduire le fardeau de réponse.

    Date de diffusion : 2007-03-02

Date de modification :