Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

120 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

120 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

120 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

120 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (167)

Tout (167) (25 of 167 results)

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Produits techniques : 11-522-X201700014728
    Description :

    "Le couplage d’enregistrements a pour objet de jumeler deux ou plusieurs sources de données. Le produit du couplage d’enregistrements est un fichier qui comprend un enregistrement par individu dans lequel est contenue toute l’information au sujet de cet individu provenant de plusieurs fichiers. Le problème de couplage est difficile lorsqu’on ne dispose pas d’une clé d’identification unique, qu’il existe des erreurs dans certaines variables, que certaines données manquent, et que les fichiers sont grands. Le couplage probabiliste d’enregistrements consiste à calculer une probabilité que les enregistrements provenant de fichiers différents appartiennent à un même individu. Il arrive que de faibles probabilités d’appariement soient attribuées à de vrais appariements et que des probabilités élevées soient attribuées à des non appariements. Les erreurs de désignation des appariements peuvent causer un biais dans les analyses portant sur la base de données composite. Les registres du cancer du programme SEER contiennent de l’information sur les cas de cancer du sein dans les régions qu’ils desservent. Un test fondé sur l’analyse de l’oncotype DX, effectuée par Genomic Health, Inc. (GHI), est souvent utilisé pour certains types de cancer du sein. Un couplage d’enregistrements en utilisant des renseignements personnels permettant l’identification a été effectué pour associer les résultats de l’analyse de l’oncotype DX aux données des registres du cancer du programme SEER. Le logiciel Link Plus a été utilisé pour générer une cote décrivant la similarité des enregistrements et repérer ainsi, pour les individus inscrits dans les registres du cancer du programme SEER, l’appariement paraissant le meilleur avec la base de données GHI. Un examen manuel a été effectué pour vérifier des échantillons d’appariements probables, d’appariements possibles et d’appariements improbables. Des modèles sont proposés pour modéliser conjointement le processus de couplage d’enregistrements et l’analyse statistique subséquente dans la présente application et dans d’autres. "

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014746
    Description :

    Les recherches sur les paradonnées ont tenté de trouver des occasions d’améliorer la collecte de données d’un point de vue stratégique qui soient viables au niveau opérationnel, qui améliorent la qualité des données ou qui permettent de réaliser des économies. À cet égard, Statistique Canada a élaboré et mis en œuvre une stratégie de plan de collecte adaptatif (PCA) pour les enquêtes auprès des ménages utilisant les interviews téléphoniques assistées par ordinateur (ITAO), afin de maximiser la qualité et de potentiellement réduire les coûts. Le PCA est une approche adaptative pour la collecte de données d’enquêtes qui utilise l’information disponible avant et pendant la collecte des données, afin de rajuster la stratégie de collecte pour le reste des cas en cours. En pratique, les gestionnaires d’enquête contrôlent et analysent les progrès de la collecte par rapport à un ensemble d’indicateurs prédéterminés, à deux fins : déterminer les étapes essentielles de la collecte des données pour lesquelles des changements significatifs doivent être apportés à l’approche de la collecte, et rajuster les stratégies de collecte afin d’utiliser le plus efficacement possible les ressources qui demeurent disponibles. Dans le contexte du PCA, de nombreuses considérations entrent en jeu lorsqu’il faut déterminer les aspects de la collecte des données qui doivent être rajustés et la façon de procéder. Les sources de paradonnées jouent un rôle essentiel dans la planification, l’élaboration et la mise en œuvre de la gestion active dans le cadre des enquêtes fondées sur le PCA. Depuis 2009, Statistique Canada a mené plusieurs enquêtes à l’aide du PCA. Le présent document décrit les expériences de Statistique Canada lors de la mise en œuvre et de la surveillance de ces enquêtes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014731
    Description :

    Cette communication décrit divers facteurs qui posent un problème lorsque l’on évalue le risque de divulgation de microdonnées contextualisées, ainsi que certaines des étapes empiriques qui sont comprises dans leur évaluation. À partir d’ensembles synthétiques de répondants d’enquête, nous illustrons comment différents postulats modulent l’évolution du risque lorsque l’on tient compte : 1) des probabilités estimées que des régions géographiques non identifiées soient représentées dans une enquête; 2) du nombre de personnes dans la population qui partagent les mêmes identificateurs personnels et contextuels qu’un répondant; et 3) de l’ampleur prévue de l’erreur de couverture dans les chiffres de population du recensement et les fichiers existants qui fournissent des données d’identification (p. ex., le nom, l’adresse).

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014756
    Description :

    Comment pouvons-nous regrouper des données multidimensionnelles sur le rendement du système de santé de façon simple, afin qu’il soit facile d’y accéder et de fournir des renseignements comparables et exploitables pour accélérer les améliorations des soins de santé? L’Institut canadien d’information sur la santé a élaboré un ensemble d’outils pour répondre aux besoins de divers auditoires en matière de mesures de rendement, déterminer les priorités au chapitre des améliorations, comprendre comment les régions et les établissements se comparent les uns aux autres, et appuyer la transparence et la reddition de comptes. Les outils pancanadiens de [Votre système de santé (VSS)] consolident les rapports de 45 indicateurs clés du rendement de façon structurée, et sont comparables au fil du temps et à divers niveaux géographiques. Le présent document rend compte de l’élaboration et des approches et considérations méthodologiques qui ont servi à créer un outil dynamique qui facilite l’étalonnage et les comparaisons significatives pour l’amélioration du rendement du système de santé.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014707
    Description :

    L’Enquête sur la population active (EPA) est une enquête menée auprès d’environ 56 000 ménages, qui fournit des renseignements sur le marché du travail au Canada. La piste de vérification est une option de programmation Blaise pour les enquêtes comme l’EPA, avec interviews assistées par ordinateur (IAO), qui crée des fichiers comprenant chaque frappe au clavier, des résultats de vérification des données ainsi qu’une indication horaire de chaque tentative de collecte faite auprès de tous les ménages. La combinaison d’une enquête de grande taille et d’une source aussi complète de paradonnées ouvre la porte à une analyse approfondie de la qualité des données, mais entraîne aussi des défis au chapitre des mégadonnées. Comment peut-on extraire des renseignements utiles de ce grand ensemble de frappes au clavier et d’indications horaires? Comment cela peut-il contribuer à évaluer la qualité de la collecte des données de l’EPA? La présentation décrira certains des défis qui se sont posés et les solutions qui ont été utilisées pour les relever, ainsi que les résultats de l’analyse de la qualité des données.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 82-003-X201501214295
    Description :

    À l’aide du modèle de microsimulation du cancer du sein mis au point par le Cancer Intervention and Surveillance Monitoring Network de l’Université du Wisconsin adapté au contexte canadien, on a évalué 11 stratégies de dépistage par mammographie sur le plan des coûts et des années de vie ajustées en fonction de la qualité. Ces stratégies, qui s’adressent à la population générale, diffèrent selon l’âge au début et à la fin du dépistage ainsi que la fréquence des examens de dépistage. Des rapports coût/efficacité différentiels sont présentés, et des analyses de sensibilité servent à évaluer la robustesse des conclusions du modèle.

    Date de diffusion : 2015-12-16

  • Articles et rapports : 12-001-X201500114172
    Description :

    Quand un échantillon aléatoire tiré d’une base liste complète souffre de non-réponse totale, on peut faire appel à la pondération par calage sur des totaux de population pour éliminer le biais de non-réponse sous un modèle hypothétique de réponse (sélection) ou de prédiction (résultat). De cette façon, la pondération par calage peut non seulement procurer une double protection contre le biais de non-réponse, mais aussi réduire la variance. En employant une astuce simple, on peut estimer simultanément la variance sous le modèle hypothétique de prédiction et l’erreur quadratique moyenne sous la combinaison du modèle hypothétique de réponse et du mécanisme d’échantillonnage probabiliste. Malheureusement, il existe une limite pratique aux types de modèle de réponse que l’on peut supposer lorsque les poids de sondage sont calés sur les totaux de population en une seule étape. En particulier, la fonction de réponse choisie ne peut pas toujours être logistique. Cette limite ne gêne pas la pondération par calage lorsqu’elle est effectuée en deux étapes : de l’échantillon de répondants à l’échantillon complet pour éliminer le biais de réponse, et puis de l’échantillon complet à la population pour réduire la variance. Des gains d’efficacité pourraient découler de l’utilisation de l’approche en deux étapes, même si les variables de calage employées à chaque étape représentent un sous-ensemble des variables de calage de l’approche en une seule étape. L’estimation simultanée de l’erreur quadratique moyenne par linéarisation est possible, mais plus compliquée que lorsque le calage est effectué en une seule étape.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Articles et rapports : 12-001-X201400214096
    Description :

    Afin d’obtenir une meilleure couverture de la population d’intérêt et de réduire les coûts, un certain nombre d’enquêtes s’appuient sur un plan à base de sondage double, suivant lequel des échantillons indépendants sont tirés de deux bases de sondage chevauchantes. La présente étude porte sur les tests du khi-carré dans les enquêtes à base de sondage double en présence de données catégoriques. Nous étendons le test de Wald généralisé (Wald 1943), ainsi que les tests avec correction d’ordre un et correction d’ordre deux de Rao-Scott (Rao et Scott 1981) pour passer d’une enquête à base de sondage unique à une enquête à base de sondage double, et nous déterminons les distributions asymptotiques. Des simulations montrent que les deux tests avec correction de type Rao-Scott donnent de bons résultats, et il est donc recommandé de les utiliser dans les enquêtes à base de sondage double. Un exemple sert à illustrer l’utilisation des tests élaborés.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014284
    Description :

    La diminution des taux de réponse observée par plusieurs instituts nationaux de statistique, leur volonté de limiter le fardeau de même que l’importance des contraintes budgétaires auxquelles ils font face favorisent une utilisation accrue des données administratives pour la production de renseignements statistiques. Les sources de données administratives qu’ils sont amenés à considérer doivent être évaluées afin d’en déterminer l’adéquation à l’utilisation, et ce en tenant compte de plusieurs aspects. Une démarche d’évaluation des sources de données administratives en vue de leur utilisation comme intrant à des processus de production de renseignements statistiques a récemment été élaborée à Statistique Canada. Celle-ci comprend essentiellement deux phases. La première phase ne nécessite que l’accès aux métadonnées associées aux données administratives considérées alors que la deuxième est effectuée à partir d’une version des données permettant l’évaluation. La démarche et l’outil d’évaluation sont présentés dans cet article.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014285
    Description :

    L’Enquête nationale auprès des ménages (ENM) de 2011 est une enquête à participation volontaire qui a remplacé le questionnaire complet obligatoire traditionnel du recensement de la population du Canada. L’ENM a été réalisée auprès d’un échantillon d’environ 30 % des ménages canadiens et a donné un taux de réponse pondéré selon le plan de sondage de 77 %. Comparativement, le dernier questionnaire complet du recensement a été envoyé à 20 % des ménages et a produit un taux de réponse de 94 %. Au moyen des données du questionnaire complet, Statistique Canada produit habituellement deux fichiers de microdonnées à grande diffusion (FMGD) : le FMGD des particuliers et le FMGD hiérarchique. Ces fichiers donnent tous deux des renseignements sur les particuliers, mais le FMGD hiérarchique fournit aussi des renseignements sur les liens entre les particuliers d’un même ménage ou d’une même famille. Afin de produire, en se basant sur les données de l’ENM, deux FMGD qui couvrent uniformément l’ensemble du pays et qui ne se chevauchent pas, nous avons appliqué une stratégie spéciale de sous-échantillonnage. Les analyses de confidentialité sont devenues plus difficiles, en raison des nombreuses nouvelles variables, de l’information géographique plus détaillée et de la nature volontaire de l’ENM. Le présent article décrit la méthodologie des FMGD de 2011 et la façon dont elle établit un équilibre entre le besoin de disposer de plus d’information et la nécessité que le risque de divulgation soit faible.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014260
    Description :

    L’Enquête sur l’emploi, la rémunération et les heures de travail (EERH) permet de produire des estimations mensuelles du niveau et des tendances de l’emploi, de la rémunération et des heures de travail et ce, pour des niveaux détaillés de la classification industrielle pour le Canada, les provinces et les territoires. Afin d’améliorer l’efficacité des activités de collecte pour cette enquête, un questionnaire électronique (QE) a été introduit à l’automne 2012. Compte tenu de l’échéance pour cette transition, ainsi que du calendrier de production de l’enquête, une stratégie de conversion a été établie pour l’intégration de ce nouveau mode de collecte. L’objectif de la stratégie était d’assurer une bonne adaptation de l’environnement de collecte, ainsi que de permettre la mise en oeuvre d’un plan d’analyse permettant d’évaluer l’effet de ce changement sur les résultats de l’enquête. Le présent article donne un aperçu de la stratégie de conversion, des différents ajustements qui ont été effectués pendant la période de transition et des résultats des diverses évaluations qui ont été menées. Par exemple, on décrit l’effet de l’intégration du QE sur le processus de collecte, le taux de réponse et le taux de suivi. En outre, on discute de l’effet de ce nouveau mode de collecte sur les estimations de l’enquête. Plus précisément, on présente les résultats d’une expérience randomisée réalisée afin de déceler la présence éventuelle d’un effet de mode.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014270
    Description :

    Dans le domaine du couplage d’enregistrements, il existe un large éventail de comparateurs de chaînes de caractères. Les difficultés lors des comparaisons surviennent lorsque des facteurs influent sur la composition des chaînes (ex. : emploi de surnoms pour les prénoms de personnes, erreurs typographiques, etc.). Il faut alors faire appel à des comparateurs plus sophistiqués. De tels outils permettent de réduire le nombre de liens potentiellement manqués. Malheureusement, une partie des gains peuvent s’avérer de faux liens. Afin d’améliorer les appariements, trois comparateurs de chaînes sophistiqués ont été développés et sont présentés dans cet article. Ce sont le comparateur Lachance, ainsi que ses dérivés, les comparateurs multi-mots et multi-types. Cette gamme d’outils est présentement disponible dans un prototype de couplage d’enregistrements déterministe, MixMatch. Ce logiciel permet de faire appel à des connaissances a priori afin de réduire le volume de faux liens générés lors des appariements. Un indicateur de force de liens est également proposé.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211888
    Description :

    Lorsque les variables étudiées sont fonctionnelles et que les capacités de stockage sont limitées ou que les coûts de transmission sont élevés, les sondages, qui permettent de sélectionner une partie des observations de la population, sont des alternatives intéressantes aux techniques de compression du signal. Notre étude est motivée, dans ce contexte fonctionnel, par l'estimation de la courbe de charge électrique moyenne sur une période d'une semaine. Nous comparons différentes stratégies d'estimation permettant de prendre en compte une information auxiliaire telle que la consommation moyenne de la période précédente. Une première stratégie consiste à utiliser un plan de sondage aléatoire simple sans remise, puis de prendre en compte l'information auxiliaire dans l'estimateur en introduisant un modèle linéaire fonctionnel. La seconde approche consiste à incorporer l'information auxiliaire dans les plans de sondage en considérant des plans à probabilités inégales tels que les plans stratifiés et les plans pi. Nous considérons ensuite la question de la construction de bandes de confiance pour ces estimateurs de la moyenne. Lorsqu'on dispose d'estimateurs performants de leur fonction de covariance et si l'estimateur de la moyenne satisfait un théorème de la limite centrale fonctionnel, il est possible d'utiliser une technique rapide de construction de bandes de confiance qui repose sur la simulation de processus Gaussiens. Cette approche est comparée avec des techniques de bootstrap qui ont été adaptées afin de tenir compte du caractère fonctionnel des données.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111824
    Description :

    Dans la plupart des enquêtes, le même traitement est réservé à toutes les unités échantillonnées et les mêmes caractéristiques de plan de collecte des données s'appliquent à toutes les personnes et à tous les ménages sélectionnés. Le présent article explique comment les plans de collecte des données peuvent être adaptés en vue d'optimiser la qualité, étant donné des contraintes de coûts. Ces types de plans sont appelés plans de collecte adaptatifs. Les éléments fondamentaux de ce genre de plans sont présentés, discutés et illustrés au moyen de divers exemples.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201300111829
    Description :

    On recourt au sondage indirect quand la base de sondage ne coïncide pas avec la population cible, mais est reliée à celle-ci. L'estimation se fait alors par la Méthode généralisée du partage des poids (MGPP) qui est une procédure sans biais (voir Lavallée 2002, 2007). Dans le cas des enquêtes économiques, le sondage indirect s'applique comme suit : la base de sondage comprend les établissements, tandis que la population cible comprend les entreprises. Les entreprises sont sélectionnées au travers de leurs établissements. Cela permet de procéder à une stratification en fonction des caractéristiques des établissements au lieu de celles des entreprises. Comme les distributions des variables d'intérêt des établissements sont généralement très asymétriques (une faible proportion des établissements couvre la majeure partie de l'économie), la MGPP produit des estimations sans biais, mais dont la variance peut être importante. L'objectif du présent article est de proposer certaines corrections des poids en vue de réduire la variance des estimations dans le contexte des populations asymétriques, tout en maintenant l'absence de biais de la méthode. Après un court aperçu du sondage indirect et de la MGPP, nous décrivons les corrections qu'il faut apporter à cette dernière. Nous comparons les estimations obtenues en appliquant ces corrections à celles que donne la MGPP originale en nous servant d'un petit exemple numérique et de données réelles tirées du Registre des entreprises de Statistique Canada.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 82-003-X201300111764
    Description :

    La présente étude compare deux sources d'information sur la consommation de médicaments sur ordonnance par les personnes de 65 ans et plus en Ontario - l'Enquête sur la santé dans les collectivités canadiennes (ESCC) et la base de données des demandes de paiement pour médicaments du Programme de médicaments de l'Ontario (PMO). L'analyse porte sur les médicaments contre les troubles cardiovasculaires et le diabète, parce qu'ils sont utilisés fréquemment, et que presque tous sont prescrits régulièrement.

    Date de diffusion : 2013-01-16

  • Articles et rapports : 12-001-X201200211757
    Description :

    Les colinéarités entre les variables explicatives des modèles de régression linéaire affectent les estimations fondées sur des données d'enquête autant que celles fondées sur des données ne provenant pas d'enquêtes. Les effets indésirables sont des erreurs-types inutilement grandes, des statistiques t faussement faibles ou élevées et des estimations des paramètres de signe illogique. Les diagnostics de colinéarité disponibles ne conviennent généralement pas pour les données d'enquête, parce que les estimateurs de variance qui y sont intégrés ne tiennent pas compte correctement de la stratification, des grappes et des poids de sondage. Dans le présent article, nous élaborons des indices de conditionnement et des décompositions de variance pour diagnostiquer les problèmes de colinéarité dans des données provenant d'enquêtes complexes. Les diagnostics adaptés sont illustrés au moyen de données provenant d'une enquête sur les caractéristiques de l'état de santé.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211758
    Description :

    Le présent article décrit l'élaboration de deux méthodes bayésiennes d'inférence au sujet des quantiles de variables d'intérêt continues d'une population finie sous échantillonnage avec probabilités inégales. La première de ces méthodes consiste à estimer les fonctions de répartition des variables étudiées continues en ajustant un certain nombre de modèles de régression probit avec splines pénalisées sur les probabilités d'inclusion. Les quantiles de population finie sont alors obtenus par inversion des fonctions de répartition estimées. Cette méthode demande considérablement de calculs. La deuxième méthode consiste à prédire les valeurs pour les unités non échantillonnées en supposant qu'il existe une relation variant de façon lisse entre la variable étudiée continue et la probabilité d'inclusion, en modélisant la fonction moyenne ainsi que de la fonction de variance en se servant de splines. Les deux estimateurs bayésiens fondés sur un modèle avec splines donnent un compromis désirable entre la robustesse et l'efficacité. Des études par simulation montrent que les deux méthodes produisent une racine carrée de l'erreur quadratique moyenne plus faible que l'estimateur pondéré par les poids de sondage et que les estimateurs par le ratio et par différence décrits dans Rao, Kovar et Mantel (RKM 1990), et qu'ils sont plus robustes à la spécification incorrecte du modèle que l'estimateur fondé sur un modèle de régression passant par l'origine décrit dans Chambers et Dunstan (1986). Lorsque la taille de l'échantillon est petite, les intervalles de crédibilité à 95 % des deux nouvelles méthodes ont une couverture plus proche du niveau nominal que l'estimateur pondéré par les poids de sondage.

    Date de diffusion : 2012-12-19

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (95)

Analyses (95) (25 of 95 results)

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 82-003-X201501214295
    Description :

    À l’aide du modèle de microsimulation du cancer du sein mis au point par le Cancer Intervention and Surveillance Monitoring Network de l’Université du Wisconsin adapté au contexte canadien, on a évalué 11 stratégies de dépistage par mammographie sur le plan des coûts et des années de vie ajustées en fonction de la qualité. Ces stratégies, qui s’adressent à la population générale, diffèrent selon l’âge au début et à la fin du dépistage ainsi que la fréquence des examens de dépistage. Des rapports coût/efficacité différentiels sont présentés, et des analyses de sensibilité servent à évaluer la robustesse des conclusions du modèle.

    Date de diffusion : 2015-12-16

  • Articles et rapports : 12-001-X201500114172
    Description :

    Quand un échantillon aléatoire tiré d’une base liste complète souffre de non-réponse totale, on peut faire appel à la pondération par calage sur des totaux de population pour éliminer le biais de non-réponse sous un modèle hypothétique de réponse (sélection) ou de prédiction (résultat). De cette façon, la pondération par calage peut non seulement procurer une double protection contre le biais de non-réponse, mais aussi réduire la variance. En employant une astuce simple, on peut estimer simultanément la variance sous le modèle hypothétique de prédiction et l’erreur quadratique moyenne sous la combinaison du modèle hypothétique de réponse et du mécanisme d’échantillonnage probabiliste. Malheureusement, il existe une limite pratique aux types de modèle de réponse que l’on peut supposer lorsque les poids de sondage sont calés sur les totaux de population en une seule étape. En particulier, la fonction de réponse choisie ne peut pas toujours être logistique. Cette limite ne gêne pas la pondération par calage lorsqu’elle est effectuée en deux étapes : de l’échantillon de répondants à l’échantillon complet pour éliminer le biais de réponse, et puis de l’échantillon complet à la population pour réduire la variance. Des gains d’efficacité pourraient découler de l’utilisation de l’approche en deux étapes, même si les variables de calage employées à chaque étape représentent un sous-ensemble des variables de calage de l’approche en une seule étape. L’estimation simultanée de l’erreur quadratique moyenne par linéarisation est possible, mais plus compliquée que lorsque le calage est effectué en une seule étape.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Articles et rapports : 12-001-X201400214096
    Description :

    Afin d’obtenir une meilleure couverture de la population d’intérêt et de réduire les coûts, un certain nombre d’enquêtes s’appuient sur un plan à base de sondage double, suivant lequel des échantillons indépendants sont tirés de deux bases de sondage chevauchantes. La présente étude porte sur les tests du khi-carré dans les enquêtes à base de sondage double en présence de données catégoriques. Nous étendons le test de Wald généralisé (Wald 1943), ainsi que les tests avec correction d’ordre un et correction d’ordre deux de Rao-Scott (Rao et Scott 1981) pour passer d’une enquête à base de sondage unique à une enquête à base de sondage double, et nous déterminons les distributions asymptotiques. Des simulations montrent que les deux tests avec correction de type Rao-Scott donnent de bons résultats, et il est donc recommandé de les utiliser dans les enquêtes à base de sondage double. Un exemple sert à illustrer l’utilisation des tests élaborés.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211888
    Description :

    Lorsque les variables étudiées sont fonctionnelles et que les capacités de stockage sont limitées ou que les coûts de transmission sont élevés, les sondages, qui permettent de sélectionner une partie des observations de la population, sont des alternatives intéressantes aux techniques de compression du signal. Notre étude est motivée, dans ce contexte fonctionnel, par l'estimation de la courbe de charge électrique moyenne sur une période d'une semaine. Nous comparons différentes stratégies d'estimation permettant de prendre en compte une information auxiliaire telle que la consommation moyenne de la période précédente. Une première stratégie consiste à utiliser un plan de sondage aléatoire simple sans remise, puis de prendre en compte l'information auxiliaire dans l'estimateur en introduisant un modèle linéaire fonctionnel. La seconde approche consiste à incorporer l'information auxiliaire dans les plans de sondage en considérant des plans à probabilités inégales tels que les plans stratifiés et les plans pi. Nous considérons ensuite la question de la construction de bandes de confiance pour ces estimateurs de la moyenne. Lorsqu'on dispose d'estimateurs performants de leur fonction de covariance et si l'estimateur de la moyenne satisfait un théorème de la limite centrale fonctionnel, il est possible d'utiliser une technique rapide de construction de bandes de confiance qui repose sur la simulation de processus Gaussiens. Cette approche est comparée avec des techniques de bootstrap qui ont été adaptées afin de tenir compte du caractère fonctionnel des données.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111824
    Description :

    Dans la plupart des enquêtes, le même traitement est réservé à toutes les unités échantillonnées et les mêmes caractéristiques de plan de collecte des données s'appliquent à toutes les personnes et à tous les ménages sélectionnés. Le présent article explique comment les plans de collecte des données peuvent être adaptés en vue d'optimiser la qualité, étant donné des contraintes de coûts. Ces types de plans sont appelés plans de collecte adaptatifs. Les éléments fondamentaux de ce genre de plans sont présentés, discutés et illustrés au moyen de divers exemples.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201300111829
    Description :

    On recourt au sondage indirect quand la base de sondage ne coïncide pas avec la population cible, mais est reliée à celle-ci. L'estimation se fait alors par la Méthode généralisée du partage des poids (MGPP) qui est une procédure sans biais (voir Lavallée 2002, 2007). Dans le cas des enquêtes économiques, le sondage indirect s'applique comme suit : la base de sondage comprend les établissements, tandis que la population cible comprend les entreprises. Les entreprises sont sélectionnées au travers de leurs établissements. Cela permet de procéder à une stratification en fonction des caractéristiques des établissements au lieu de celles des entreprises. Comme les distributions des variables d'intérêt des établissements sont généralement très asymétriques (une faible proportion des établissements couvre la majeure partie de l'économie), la MGPP produit des estimations sans biais, mais dont la variance peut être importante. L'objectif du présent article est de proposer certaines corrections des poids en vue de réduire la variance des estimations dans le contexte des populations asymétriques, tout en maintenant l'absence de biais de la méthode. Après un court aperçu du sondage indirect et de la MGPP, nous décrivons les corrections qu'il faut apporter à cette dernière. Nous comparons les estimations obtenues en appliquant ces corrections à celles que donne la MGPP originale en nous servant d'un petit exemple numérique et de données réelles tirées du Registre des entreprises de Statistique Canada.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 82-003-X201300111764
    Description :

    La présente étude compare deux sources d'information sur la consommation de médicaments sur ordonnance par les personnes de 65 ans et plus en Ontario - l'Enquête sur la santé dans les collectivités canadiennes (ESCC) et la base de données des demandes de paiement pour médicaments du Programme de médicaments de l'Ontario (PMO). L'analyse porte sur les médicaments contre les troubles cardiovasculaires et le diabète, parce qu'ils sont utilisés fréquemment, et que presque tous sont prescrits régulièrement.

    Date de diffusion : 2013-01-16

  • Articles et rapports : 12-001-X201200211757
    Description :

    Les colinéarités entre les variables explicatives des modèles de régression linéaire affectent les estimations fondées sur des données d'enquête autant que celles fondées sur des données ne provenant pas d'enquêtes. Les effets indésirables sont des erreurs-types inutilement grandes, des statistiques t faussement faibles ou élevées et des estimations des paramètres de signe illogique. Les diagnostics de colinéarité disponibles ne conviennent généralement pas pour les données d'enquête, parce que les estimateurs de variance qui y sont intégrés ne tiennent pas compte correctement de la stratification, des grappes et des poids de sondage. Dans le présent article, nous élaborons des indices de conditionnement et des décompositions de variance pour diagnostiquer les problèmes de colinéarité dans des données provenant d'enquêtes complexes. Les diagnostics adaptés sont illustrés au moyen de données provenant d'une enquête sur les caractéristiques de l'état de santé.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211758
    Description :

    Le présent article décrit l'élaboration de deux méthodes bayésiennes d'inférence au sujet des quantiles de variables d'intérêt continues d'une population finie sous échantillonnage avec probabilités inégales. La première de ces méthodes consiste à estimer les fonctions de répartition des variables étudiées continues en ajustant un certain nombre de modèles de régression probit avec splines pénalisées sur les probabilités d'inclusion. Les quantiles de population finie sont alors obtenus par inversion des fonctions de répartition estimées. Cette méthode demande considérablement de calculs. La deuxième méthode consiste à prédire les valeurs pour les unités non échantillonnées en supposant qu'il existe une relation variant de façon lisse entre la variable étudiée continue et la probabilité d'inclusion, en modélisant la fonction moyenne ainsi que de la fonction de variance en se servant de splines. Les deux estimateurs bayésiens fondés sur un modèle avec splines donnent un compromis désirable entre la robustesse et l'efficacité. Des études par simulation montrent que les deux méthodes produisent une racine carrée de l'erreur quadratique moyenne plus faible que l'estimateur pondéré par les poids de sondage et que les estimateurs par le ratio et par différence décrits dans Rao, Kovar et Mantel (RKM 1990), et qu'ils sont plus robustes à la spécification incorrecte du modèle que l'estimateur fondé sur un modèle de régression passant par l'origine décrit dans Chambers et Dunstan (1986). Lorsque la taille de l'échantillon est petite, les intervalles de crédibilité à 95 % des deux nouvelles méthodes ont une couverture plus proche du niveau nominal que l'estimateur pondéré par les poids de sondage.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211751
    Description :

    La qualité des enquêtes est un concept multidimensionnel issu de deux démarches de développement distinctes. La première démarche suit le paradigme de l'erreur d'enquête totale, qui repose sur quatre piliers dont émanent les principes qui guident la conception de l'enquête, sa mise en oeuvre, son évaluation et l'analyse des données. Nous devons concevoir les enquêtes de façon que l'erreur quadratique moyenne d'une estimation soit minimisée compte tenu du budget et d'autres contraintes. Il est important de tenir compte de toutes les sources connues d'erreur, de surveiller les principales d'entre elles durant la mise en oeuvre, d'évaluer périodiquement les principales sources d'erreur et les combinaisons de ces sources après l'achèvement de l'enquête, et d'étudier les effets des erreurs sur l'analyse des données. Dans ce contexte, on peut mesurer la qualité d'une enquête par l'erreur quadratique moyenne, la contrôler par des observations faites durant la mise en oeuvre et l'améliorer par des études d'évaluation. Le paradigme possède des points forts et des points faibles. L'un des points forts tient au fait que la recherche peut être définie en fonction des sources d'erreur et l'un des points faibles, au fait que la plupart des évaluations de l'erreur d'enquête totale sont incomplètes, en ce sens qu'il est impossible d'inclure les effets de toutes les sources. La deuxième démarche est influencée par des idées empruntées aux sciences de la gestion de la qualité. Ces sciences ont pour objet de permettre aux entreprises d'exceller dans la fourniture de produits et de services en se concentrant sur leurs clients et sur la concurrence. Ces idées ont eu une très grande influence sur de nombreux organismes statistiques. Elles ont notamment amené les fournisseurs de données à reconnaître qu'un produit de qualité ne peut pas être obtenu si la qualité des processus sous-jacents n'est pas suffisante et que des processus de qualité suffisante ne peuvent pas être obtenus sans une bonne qualité organisationnelle. Ces divers niveaux peuvent être contrôlés et évalués au moyen d'ententes sur le niveau de service, de sondages auprès des clients, d'analyses des paradonnées en recourant au contrôle statistique des processus et d'évaluations organisationnelles en se servant de modèles d'excellence opérationnelle ou d'autres ensembles de critères. À tous les niveaux, on peut rehausser la qualité en lançant des projets d'amélioration choisis selon des fonctions de priorité. L'objectif ultime de ces projets d'amélioration est que les processus concernés s'approchent progressivement d'un état où ils sont exempts d'erreur. Naturellement, il pourrait s'agir d'un objectif impossible à atteindre, mais auquel il faut tenter de parvenir. Il n'est pas raisonnable d'espérer obtenir des mesures continues de l'erreur d'enquête totale en se servant de l'erreur quadratique moyenne. Au lieu de cela, on peut espérer qu'une amélioration continue de la qualité par l'application des idées des sciences de la gestion ainsi que des méthodes statistiques permettra de minimiser les biais et d'autres problèmes que posent les processus d'enquête, afin que la variance devienne une approximation de l'erreur quadratique moyenne. Si nous y arrivons, nous aurons fait coïncider approximativement les deux démarches de développement.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200111686
    Description :

    Nous présentons une approche fondée sur des équations d'estimation généralisées pour estimer le coefficient de corrélation de concordance et le coefficient kappa d'après des données d'enquête. Les estimations ainsi que leurs erreurs-types doivent tenir compte correctement du plan d'échantillonnage. Nous présentons des mesures pondérées du coefficient de corrélation de concordance et du coefficient kappa, ainsi que la variance de ces mesures tenant compte du plan d'échantillonnage. Nous utilisons la méthode de linéarisation par série de Taylor et la procédure du jackknife pour estimer les erreurs-types des estimations résultantes des paramètres. Des mesures anthropométriques et des données sur la santé buccodentaire provenant de la Third National Health and Nutrition Examination Survey sont utilisées pour illustrer cette méthodologie.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 82-003-X201200111625
    Description :

    La présente étude compare les estimations de la prévalence de l'usage de la cigarette fondées sur des données autodéclarées aux estimations fondées sur les concentrations de cotinine urinaire. Les données proviennent de l'Enquête canadienne sur les mesures de la santé réalisée de 2007 à 2009, dans le cadre de laquelle ont été recueillies des données sur la situation d'usage du tabac autodéclarée et effectuées des mesures de la concentration de cotinine urinaire pour la première fois représentatives de la population nationale.

    Date de diffusion : 2012-02-15

  • Articles et rapports : 12-001-X201100211608
    Description :

    Les plans de sondage et les estimateurs des enquêtes à base de sondage unique utilisés à l'heure actuelle par les organismes gouvernementaux américains ont été élaborés en réponse à des problèmes pratiques. Les programmes d'enquêtes-ménages fédéraux doivent faire face aujourd'hui à la diminution des taux de réponse et de la couverture des bases de sondage, à la hausse des coûts de collecte des données et à l'accroissement de la demande de statistiques pour des petits domaines. Les enquêtes à bases de sondage multiples, dans lesquelles des échantillons indépendants sont tirés de bases de sondage distinctes, peuvent être utilisées en vue de relever certains de ces défis. La combinaison d'une liste et d'une base de sondage aréolaire ou l'utilisation de deux bases de sondage pour échantillonner les ménages ayant une ligne de téléphone fixe et ceux ayant une ligne de téléphone mobile en sont des exemples. Nous passons en revue les estimateurs ponctuels et les ajustements de la pondération qui peuvent être utilisés pour analyser les données d'enquête à bases de sondage multiples au moyen de logiciels standard et nous résumons la construction des poids de rééchantillonnage pour l'estimation de la variance. Étant donné leur complexité croissante, les enquêtes à bases de sondage multiples obligent à résoudre des difficultés qui ne se posent pas dans le cas des enquêtes à base de sondage simple. Nous étudions le biais dû à l'erreur de classification dans les enquêtes à bases de sondage multiples et proposons une méthode pour corriger ce biais quand les probabilités d'erreur de classification sont connues. Enfin, nous discutons des travaux de recherche nécessaires en ce qui concerne les erreurs non dues à l'échantillonnage dans les enquêtes à bases de sondage multiples.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100111451
    Description :

    Dans la méthode du calage de Deville et Särndal (1992), les équations de calage ne prennent en compte que les estimations exactes de totaux des variables auxiliaires. L'objectif de cet article est de s'intéresser à d'autres paramètres que le total pour caler. Ces paramètres que l'on qualifie de complexes sont par exemple le ratio, la médiane ou la variance de variables auxiliaires.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111443
    Description :

    Les enquêtes téléphoniques à base de sondage double deviennent fréquentes aux États-Unis en raison de l'incomplétude de la liste de numéros de téléphone fixe causée par l'adoption progressive du téléphone mobile. Le présent article traite des erreurs non dues à l'échantillonnage dans les enquêtes téléphoniques à base de sondage double. Alors que la plupart des publications sur les bases de sondage doubles ne tiennent pas compte des erreurs non dues à l'échantillonnage, nous constatons que ces dernières peuvent, dans certaines conditions, causer des biais importants dans les enquêtes téléphoniques à base de sondage double. Nous examinons en particulier les biais dus à la non-réponse et à l'erreur de mesure dans ces enquêtes. En vue de réduire le biais résultant de ces erreurs, nous proposons des méthodes d'échantillonnage à base de sondage double et de pondération. Nous montrons que le facteur de composition utilisé pour combiner les estimations provenant de deux bases de sondage joue un rôle important dans la réduction du biais de non-réponse.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201000211376
    Description :

    Le présent article décrit l'élaboration d'outils de calcul, appelés indicateurs, qui permettent de juger de l'efficacité de l'information auxiliaire utilisée pour contrôler le biais de non-réponse dans les estimations par sondage, obtenues ici par calage. L'étude est motivée par le contexte dans lequel sont réalisés les sondages dans plusieurs pays, surtout en Europe du Nord, où de nombreuses variables auxiliaires possibles concernant les ménages et les particuliers sont tirées de registres administratifs fiables. Un grand nombre de vecteurs auxiliaires pouvant donc être composés, il est nécessaire de les comparer afin de déterminer dans quelle mesure ils peuvent réduire le biais. Les indicateurs décrits dans le présent article sont conçus pour répondre à ce besoin. Ils sont utilisés dans les enquêtes réalisées par Statistics Sweden. Nous considérons des conditions générales d'enquête où un échantillon probabiliste est tiré de la population finie selon un plan d'échantillonnage arbitraire et où des cas de non réponse se produisent. La probabilité d'inclusion dans l'échantillon est connue pour chaque unité de la population ; la probabilité de réponse est inconnue, ce qui cause un biais. La variable étudiée (variable y) n'est observée que pour l'ensemble de répondants. Quel que soit le vecteur auxiliaire utilisé dans un estimateur par calage (ou dans toute autre méthode d'estimation), un biais résiduel persiste systématiquement. Le choix du vecteur auxiliaire (le meilleur possible) est guidé par les indicateurs proposés dans le présent article. Dans les premières sections, nous décrivons le contexte de leur élaboration et leurs caractéristiques de calcul, puis nous exposons leur contexte théorique. Les dernières sections sont consacrées aux études empiriques. L'une de ces études illustre la sélection des variables auxiliaires dans une enquête réalisée par Statistics Sweden. Une deuxième illustration empirique consiste en une simulation à partir d'une population finie synthétique ; un certain nombre de vecteurs auxiliaires possibles sont classés par ordre de préférence à l'aide des indicateurs.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000111243
    Description :

    La National Assessment of Adult Literacy (NAAL) de 2003 et l'Enquête internationale sur la littératie et les compétences des adultes (ELCA) comportaient chacune un plan d'échantillonnage aréolaire stratifié à plusieurs degrés. Le dernier degré consistait à dresser la liste des membres du ménage, à déterminer la situation d'admissibilité de chaque individu et à appeler la procédure de sélection pour sélectionner aléatoirement une ou deux personnes admissibles dans le ménage. L'objectif du présent article est d'évaluer les règles de sélection dans les ménages sous un plan d'échantillonnage à plusieurs degrés en vue d'améliorer la procédure dans de futures enquêtes sur la littératie. L'analyse est fondée sur la distribution courante des ménages américains selon leur taille et sur les coefficients de corrélation intra-grappe en utilisant les données sur la littératie des adultes. Nous étudions plusieurs règles de sélection dans les ménages, en prenant en considération les effets de la mise en grappes, des taux d'échantillonnage différentiels, du coût par interview et du fardeau de réponse au niveau du ménage. Dans ce contexte, nous étendons une évaluation de l'échantillonnage dans les ménages sous un plan à deux degrés à un plan à quatre degrés et nous procédons à certaines généralisations aux échantillons à plusieurs degrés pour divers rapports de coûts.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X201000111250
    Description :

    Nous proposons un estimateur de prédiction bayésien avec splines pénalisées (PBSP pour Bayesian Penalized Spline Predictive) pour une proportion de population finie sous échantillonnage avec probabilités inégales. Cette nouvelle méthode permet d'intégrer directement les probabilités d'inclusion dans l'estimation d'une proportion de population, en effectuant une régression probit du résultat binaire sur la fonction spline pénalisée des probabilités d'inclusion. La loi prédictive a posteriori de la proportion de population est obtenue en utilisant l'échantillonnage de Gibbs. Nous démontrons les avantages de l'estimateur PBSP comparativement à l'estimateur de Hájek (HK), à l'estimateur par la régression généralisée (RG) et aux estimateurs de prédiction fondés sur un modèle paramétrique au moyen d'études en simulation et d'un exemple réel de vérification fiscale. Les études en simulation montrent que l'estimateur PBSP est plus efficace et donne un intervalle de crédibilité à 95 % dont la probabilité de couverture est meilleure et dont la largeur moyenne est plus étroite que les estimateurs HK et RG, surtout quand la proportion de population est proche de zéro ou de un, ou que l'échantillon est petit. Comparativement aux estimateurs de prédiction fondés sur un modèle linéaire, les estimateurs PBSP sont robustes à l'erreur de spécification du modèle et à la présence d'observations influentes dans l'échantillon.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X201000111249
    Description :

    Dans le cas de nombreux plans de sondage, la probabilité de sélectionner un échantillon qui produira de mauvaises estimations pour des quantités connues n'est pas nulle. L'échantillonnage aléatoire stratifié permet de réduire l'ensemble de ces échantillons éventuels en fixant la taille de l'échantillon dans chaque strate. Cependant, l'obtention d'échantillons indésirables demeure possible après la stratification. L'échantillonnage réjectif permet d'éliminer les échantillons donnant de mauvais résultats en ne retenant un échantillon que si des fonctions spécifiées des estimations sont comprises entre des limites de tolérance par rapport aux valeurs connues. Les échantillons résultant sont souvent dits équilibrés sur la fonction des variables utilisées dans la méthode de rejet. Nous présentons des modifications de la méthode de rejet de Fuller (2009a) qui donnent plus de souplesse aux règles de rejet. Au moyen de simulations, nous comparons les propriétés des estimations obtenues en suivant une méthode d'échantillonnage réjectif, d'une part, et une procédure d'échantillonnage par la méthode du cube, d'autre part.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X201000111248
    Description :

    Les flux bruts sont souvent utilisés pour étudier les transitions concernant la situation d'emploi ou d'autres variables catégoriques chez les individus formant une population. Dans les enquêtes longitudinales à base de sondage double, pour lesquelles des échantillons indépendants sont tirés de deux bases de sondage afin de réduire les coûts d'enquête ou d'améliorer la couverture, l'estimation efficace et cohérente des flux bruts peut poser des défis, à cause des plans de sondage complexes et des données manquantes dans l'un ou l'autre échantillon, ou les deux. Nous proposons des estimateurs des flux bruts dans les enquêtes à base de sondage double et examinons leurs propriétés asymptotiques. Puis, nous estimons les transitions entre les situations d'emploi en utilisant des données provenant de la Current Population Survey et de la Survey of Income and Program Participation.

    Date de diffusion : 2010-06-29

Références (72)

Références (72) (25 of 72 results)

  • Produits techniques : 11-522-X201700014728
    Description :

    "Le couplage d’enregistrements a pour objet de jumeler deux ou plusieurs sources de données. Le produit du couplage d’enregistrements est un fichier qui comprend un enregistrement par individu dans lequel est contenue toute l’information au sujet de cet individu provenant de plusieurs fichiers. Le problème de couplage est difficile lorsqu’on ne dispose pas d’une clé d’identification unique, qu’il existe des erreurs dans certaines variables, que certaines données manquent, et que les fichiers sont grands. Le couplage probabiliste d’enregistrements consiste à calculer une probabilité que les enregistrements provenant de fichiers différents appartiennent à un même individu. Il arrive que de faibles probabilités d’appariement soient attribuées à de vrais appariements et que des probabilités élevées soient attribuées à des non appariements. Les erreurs de désignation des appariements peuvent causer un biais dans les analyses portant sur la base de données composite. Les registres du cancer du programme SEER contiennent de l’information sur les cas de cancer du sein dans les régions qu’ils desservent. Un test fondé sur l’analyse de l’oncotype DX, effectuée par Genomic Health, Inc. (GHI), est souvent utilisé pour certains types de cancer du sein. Un couplage d’enregistrements en utilisant des renseignements personnels permettant l’identification a été effectué pour associer les résultats de l’analyse de l’oncotype DX aux données des registres du cancer du programme SEER. Le logiciel Link Plus a été utilisé pour générer une cote décrivant la similarité des enregistrements et repérer ainsi, pour les individus inscrits dans les registres du cancer du programme SEER, l’appariement paraissant le meilleur avec la base de données GHI. Un examen manuel a été effectué pour vérifier des échantillons d’appariements probables, d’appariements possibles et d’appariements improbables. Des modèles sont proposés pour modéliser conjointement le processus de couplage d’enregistrements et l’analyse statistique subséquente dans la présente application et dans d’autres. "

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014746
    Description :

    Les recherches sur les paradonnées ont tenté de trouver des occasions d’améliorer la collecte de données d’un point de vue stratégique qui soient viables au niveau opérationnel, qui améliorent la qualité des données ou qui permettent de réaliser des économies. À cet égard, Statistique Canada a élaboré et mis en œuvre une stratégie de plan de collecte adaptatif (PCA) pour les enquêtes auprès des ménages utilisant les interviews téléphoniques assistées par ordinateur (ITAO), afin de maximiser la qualité et de potentiellement réduire les coûts. Le PCA est une approche adaptative pour la collecte de données d’enquêtes qui utilise l’information disponible avant et pendant la collecte des données, afin de rajuster la stratégie de collecte pour le reste des cas en cours. En pratique, les gestionnaires d’enquête contrôlent et analysent les progrès de la collecte par rapport à un ensemble d’indicateurs prédéterminés, à deux fins : déterminer les étapes essentielles de la collecte des données pour lesquelles des changements significatifs doivent être apportés à l’approche de la collecte, et rajuster les stratégies de collecte afin d’utiliser le plus efficacement possible les ressources qui demeurent disponibles. Dans le contexte du PCA, de nombreuses considérations entrent en jeu lorsqu’il faut déterminer les aspects de la collecte des données qui doivent être rajustés et la façon de procéder. Les sources de paradonnées jouent un rôle essentiel dans la planification, l’élaboration et la mise en œuvre de la gestion active dans le cadre des enquêtes fondées sur le PCA. Depuis 2009, Statistique Canada a mené plusieurs enquêtes à l’aide du PCA. Le présent document décrit les expériences de Statistique Canada lors de la mise en œuvre et de la surveillance de ces enquêtes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014731
    Description :

    Cette communication décrit divers facteurs qui posent un problème lorsque l’on évalue le risque de divulgation de microdonnées contextualisées, ainsi que certaines des étapes empiriques qui sont comprises dans leur évaluation. À partir d’ensembles synthétiques de répondants d’enquête, nous illustrons comment différents postulats modulent l’évolution du risque lorsque l’on tient compte : 1) des probabilités estimées que des régions géographiques non identifiées soient représentées dans une enquête; 2) du nombre de personnes dans la population qui partagent les mêmes identificateurs personnels et contextuels qu’un répondant; et 3) de l’ampleur prévue de l’erreur de couverture dans les chiffres de population du recensement et les fichiers existants qui fournissent des données d’identification (p. ex., le nom, l’adresse).

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014756
    Description :

    Comment pouvons-nous regrouper des données multidimensionnelles sur le rendement du système de santé de façon simple, afin qu’il soit facile d’y accéder et de fournir des renseignements comparables et exploitables pour accélérer les améliorations des soins de santé? L’Institut canadien d’information sur la santé a élaboré un ensemble d’outils pour répondre aux besoins de divers auditoires en matière de mesures de rendement, déterminer les priorités au chapitre des améliorations, comprendre comment les régions et les établissements se comparent les uns aux autres, et appuyer la transparence et la reddition de comptes. Les outils pancanadiens de [Votre système de santé (VSS)] consolident les rapports de 45 indicateurs clés du rendement de façon structurée, et sont comparables au fil du temps et à divers niveaux géographiques. Le présent document rend compte de l’élaboration et des approches et considérations méthodologiques qui ont servi à créer un outil dynamique qui facilite l’étalonnage et les comparaisons significatives pour l’amélioration du rendement du système de santé.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014707
    Description :

    L’Enquête sur la population active (EPA) est une enquête menée auprès d’environ 56 000 ménages, qui fournit des renseignements sur le marché du travail au Canada. La piste de vérification est une option de programmation Blaise pour les enquêtes comme l’EPA, avec interviews assistées par ordinateur (IAO), qui crée des fichiers comprenant chaque frappe au clavier, des résultats de vérification des données ainsi qu’une indication horaire de chaque tentative de collecte faite auprès de tous les ménages. La combinaison d’une enquête de grande taille et d’une source aussi complète de paradonnées ouvre la porte à une analyse approfondie de la qualité des données, mais entraîne aussi des défis au chapitre des mégadonnées. Comment peut-on extraire des renseignements utiles de ce grand ensemble de frappes au clavier et d’indications horaires? Comment cela peut-il contribuer à évaluer la qualité de la collecte des données de l’EPA? La présentation décrira certains des défis qui se sont posés et les solutions qui ont été utilisées pour les relever, ainsi que les résultats de l’analyse de la qualité des données.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014284
    Description :

    La diminution des taux de réponse observée par plusieurs instituts nationaux de statistique, leur volonté de limiter le fardeau de même que l’importance des contraintes budgétaires auxquelles ils font face favorisent une utilisation accrue des données administratives pour la production de renseignements statistiques. Les sources de données administratives qu’ils sont amenés à considérer doivent être évaluées afin d’en déterminer l’adéquation à l’utilisation, et ce en tenant compte de plusieurs aspects. Une démarche d’évaluation des sources de données administratives en vue de leur utilisation comme intrant à des processus de production de renseignements statistiques a récemment été élaborée à Statistique Canada. Celle-ci comprend essentiellement deux phases. La première phase ne nécessite que l’accès aux métadonnées associées aux données administratives considérées alors que la deuxième est effectuée à partir d’une version des données permettant l’évaluation. La démarche et l’outil d’évaluation sont présentés dans cet article.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014285
    Description :

    L’Enquête nationale auprès des ménages (ENM) de 2011 est une enquête à participation volontaire qui a remplacé le questionnaire complet obligatoire traditionnel du recensement de la population du Canada. L’ENM a été réalisée auprès d’un échantillon d’environ 30 % des ménages canadiens et a donné un taux de réponse pondéré selon le plan de sondage de 77 %. Comparativement, le dernier questionnaire complet du recensement a été envoyé à 20 % des ménages et a produit un taux de réponse de 94 %. Au moyen des données du questionnaire complet, Statistique Canada produit habituellement deux fichiers de microdonnées à grande diffusion (FMGD) : le FMGD des particuliers et le FMGD hiérarchique. Ces fichiers donnent tous deux des renseignements sur les particuliers, mais le FMGD hiérarchique fournit aussi des renseignements sur les liens entre les particuliers d’un même ménage ou d’une même famille. Afin de produire, en se basant sur les données de l’ENM, deux FMGD qui couvrent uniformément l’ensemble du pays et qui ne se chevauchent pas, nous avons appliqué une stratégie spéciale de sous-échantillonnage. Les analyses de confidentialité sont devenues plus difficiles, en raison des nombreuses nouvelles variables, de l’information géographique plus détaillée et de la nature volontaire de l’ENM. Le présent article décrit la méthodologie des FMGD de 2011 et la façon dont elle établit un équilibre entre le besoin de disposer de plus d’information et la nécessité que le risque de divulgation soit faible.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014260
    Description :

    L’Enquête sur l’emploi, la rémunération et les heures de travail (EERH) permet de produire des estimations mensuelles du niveau et des tendances de l’emploi, de la rémunération et des heures de travail et ce, pour des niveaux détaillés de la classification industrielle pour le Canada, les provinces et les territoires. Afin d’améliorer l’efficacité des activités de collecte pour cette enquête, un questionnaire électronique (QE) a été introduit à l’automne 2012. Compte tenu de l’échéance pour cette transition, ainsi que du calendrier de production de l’enquête, une stratégie de conversion a été établie pour l’intégration de ce nouveau mode de collecte. L’objectif de la stratégie était d’assurer une bonne adaptation de l’environnement de collecte, ainsi que de permettre la mise en oeuvre d’un plan d’analyse permettant d’évaluer l’effet de ce changement sur les résultats de l’enquête. Le présent article donne un aperçu de la stratégie de conversion, des différents ajustements qui ont été effectués pendant la période de transition et des résultats des diverses évaluations qui ont été menées. Par exemple, on décrit l’effet de l’intégration du QE sur le processus de collecte, le taux de réponse et le taux de suivi. En outre, on discute de l’effet de ce nouveau mode de collecte sur les estimations de l’enquête. Plus précisément, on présente les résultats d’une expérience randomisée réalisée afin de déceler la présence éventuelle d’un effet de mode.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014270
    Description :

    Dans le domaine du couplage d’enregistrements, il existe un large éventail de comparateurs de chaînes de caractères. Les difficultés lors des comparaisons surviennent lorsque des facteurs influent sur la composition des chaînes (ex. : emploi de surnoms pour les prénoms de personnes, erreurs typographiques, etc.). Il faut alors faire appel à des comparateurs plus sophistiqués. De tels outils permettent de réduire le nombre de liens potentiellement manqués. Malheureusement, une partie des gains peuvent s’avérer de faux liens. Afin d’améliorer les appariements, trois comparateurs de chaînes sophistiqués ont été développés et sont présentés dans cet article. Ce sont le comparateur Lachance, ainsi que ses dérivés, les comparateurs multi-mots et multi-types. Cette gamme d’outils est présentement disponible dans un prototype de couplage d’enregistrements déterministe, MixMatch. Ce logiciel permet de faire appel à des connaissances a priori afin de réduire le volume de faux liens générés lors des appariements. Un indicateur de force de liens est également proposé.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010996
    Description :

    Au cours des dernières années, l'utilisation des paradonnées a pris de plus en plus d'importance dans le cadre de la gestion des activités de collecte à Statistique Canada. Une attention particulière a été accordée aux enquêtes sociales menées par téléphone, comme l'Enquête sur la dynamique du travail et du revenu (EDTR). Lors des dernières activités de collecte de l'EDTR, une limite de 40 tentatives d'appel a été instaurée. Des examens des fichiers de l'historique des transactions Blaise de l'EDTR ont été entrepris afin d'évaluer l'incidence de la limite des tentatives d'appel. Tandis que l'objectif de la première étude était de réunir les renseignements nécessaires à l'établissement de la limite des tentatives d'appel, la seconde étude portait sur la nature de la non-réponse dans le contexte de la limite de 40 tentatives.

    L'utilisation des paradonnées comme information auxiliaire pour étudier et expliquer la non-réponse a aussi été examinée. Des modèles d'ajustement pour la non-réponse utilisant différentes variables de paradonnées recueillies à l'étape de la collecte ont été comparés aux modèles actuels basés sur de l'information auxiliaire tirée de l'Enquête sur la population active.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010950
    Description :

    Le prochain recensement aura lieu en mai 2011. Cette enquête d'envergure représente un défi particulier pour Statistique Canada et demande beaucoup de temps et de ressources. Une planification serrée a été mise en place afin d'atteindre tous les échéanciers. Plusieurs étapes de mise à l'essai du questionnaire ont été prévues. Ces tests portent sur le contenu du recensement mais abordent aussi la stratégie de communication prévue. Cet article a pour but de présenter un portrait global de la stratégie. De plus, l'emphase sera mise sur l'intégration des études qualitatives à l'étude quantitative faites en 2008 afin de pouvoir analyser les résultats et ainsi obtenir une meilleure évaluation des propositions.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011013
    Description :

    L'enregistrement audio des interviews peut être un outil efficace et polyvalent de collecte des données. Cependant, il peut produire de gros fichiers dont la gestion est fastidieuse. Les progrès techniques, y compris de meilleurs outils de développement de logiciels audio et l'adoption croissante de connexions Internet à large bande, ont allégé le fardeau de la collecte de données audio. Le présent article porte sur les technologies et méthodes utilisées pour enregistrer et gérer les données d'enquête recueillies par enregistrement audio en se servant d'ordinateurs portatifs, de téléphones et de connexions Internet. Le processus décrit comprend un appareil raccordé directement au récepteur téléphonique qui diffuse les conversations en continu directement vers l'ordinateur portatif pour la sauvegarde et la transmission.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010997
    Description :

    Ces dernières années, Statistique Canada a mené plusieurs études analytiques en se servant de paradonnées afin de mieux saisir les diverses questions liées au processus et aux pratiques de collecte des données. En particulier, ces études avaient pour but de mieux comprendre le déroulement du cycle de collecte des données, et d'identifier les possibilités stratégiques, d'évaluer de nouvelles initiatives de collecte afin d'améliorer la façon dont l'organisme mène et gère ses enquêtes. L'objectif essentiel de l'exposé est de présenter les principaux résultats de ces études passées et courantes décrivant l'utilisation des paradonnées à Statistique Canada. Les futurs projets de recherche axés sur l'élaboration de stratégies opérationnelles fiables susceptibles d'améliorer l'efficacité de la collecte ou la qualité des données sont également discutés.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010986
    Description :

    Dans le cadre du Recensement de 2006, des modifications majeures ont été apportées à la collecte des données. Au nombre de ces modifications, on trouve l'option de réponse par Internet qui est désormais offerte à tous les ménages privés du Canada. Près d'un ménage sur cinq a choisi de remplir et de retourner son questionnaire en ligne. De plus, une nouvelle méthodologie visant à promouvoir ce mode de réponse a été mise à l'essai. Il s'agit de l'étude de la promotion de la réponse par Internet (PRI). Cette méthodologie s'est révélée très efficace pour augmenter le taux de réponse en ligne. La planification du Recensement de 2011, qui est en cours, prévoit employer une stratégie de collecte par vague dont la première vague serait la méthode utilisée lors de la PRI. Ce document présente une vue d'ensemble de la collecte des données du Recensement de 2006 par Internet - évaluations, résultats, leçons apprises - ainsi que la méthodologie qui sera utilisée lors du prochain recensement, en 2011.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010958
    Description :

    L'entrée de données par téléphone (EDT) est un système qui permet aux participants aux enquêtes d'envoyer leurs données à l'Office for National Statistics (ONS) en se servant du clavier de leur téléphone et qui, à l'heure actuelle, représente environ 12 % du total des réponses aux enquêtes auprès des entreprises de l'ONS. Ce dernier a entrepris d'accroître le nombre d'enquêtes dans lesquelles l'EDT est utilisée comme mode principal de réponse et le présent article donne un aperçu du projet de redéveloppement, du remaniement du questionnaire imprimé, des améliorations apportées au système d'EDT et des résultats de l'essai pilote de ces changements. L'amélioration de la qualité des données reçues et l'accroissement de la réponse par EDT à la suite de ces travaux de développement donnent à penser qu'il est possible d'améliorer la qualité des données et de réduire les coûts en promouvant l'utilisation de l'EDT comme mode principal de réponse aux enquêtes à court terme.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010999
    Description :

    Dans une enquête téléphonique, le choix du nombre de tentatives d'appel représente une décision importante. Un grand nombre de tentatives rend la collecte des données longue et dispendieuse, tandis qu'un petit nombre réduit l'ensemble de réponses sur lequel sont fondées les conclusions et accroît la variance. La décision peut aussi avoir une incidence sur le biais de non-réponse. Dans le présent article, nous examinons les effets du nombre de tentatives d'appel sur le taux de non-réponse et sur le biais dû à la non-réponse dans deux enquêtes réalisées par Statistics Sweden, à savoir la Labour Force Survey (LFS) et la Household Finances (HF).

    Au moyen de paradonnées, nous calculons le taux de réponse en fonction du nombre de tentatives d'appel. Pour estimer le biais de non-réponse, nous utilisons les estimations de certaines variables de registre, pour lesquelles des observations sont disponibles pour les répondants ainsi que les non-répondants. Nous calculons aussi les estimations de certains paramètres d'enquête réels en fonction d'un nombre variable de tentatives d'appel. Les résultats indiquent qu'il est possible de réduire le nombre courant de tentatives d'appel sans accroître le biais de non-réponse.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010953
    Description :

    Alors que les spécialistes de la recherche sur les enquêtes s'efforcent de maintenir les taux de réponse à leur niveau habituellement élevé, les répondants réticents font croître les coûts de collecte des données. Cette réticence à répondre peut être liée au temps qu'il faut pour achever l'interview dans les enquêtes omnibus à grande échelle, telles que la National Survey of Recent College Graduates (NSRCG). Reconnaissant que le fardeau de réponse ou la longueur du questionnaire peut contribuer à la baisse des taux de réponse, en 2003, après plusieurs mois de collecte des données conformément au protocole de collecte standard, l'équipe de la NSRCG a offert des incitations monétaires à ses répondants environ deux mois avant la fin de la période de collecte des données. Parallèlement à l'offre d'incitation, elle a également donné aux non-répondants persistants l'occasion de répondre à un questionnaire considérablement abrégé ne comportant que quelques questions essentielles. Les répondants tardifs qui ont achevé l'interview en raison de l'incitation monétaire et du questionnaire ne contenant que les questions essentielles peuvent fournir certains éclaircissements en ce qui concerne le biais de non-réponse et la probabilité qu'ils soient demeurés des non-répondants à l'enquête si les efforts susmentionnés de conversion des refus n'avaient pas été faits.

    Dans le présent article, nous entendons par « répondants réticents » ceux qui n'ont répondu à l'enquête qu'après le déploiement d'efforts allant au-delà de ceux planifiés au départ dans le protocole standard de collecte des données. Plus précisément, les répondants réticents à la NSRCG de 2003 sont ceux qui ont répondu au questionnaire ordinaire ou abrégé après l'offre d'une incitation. Notre hypothèse était que le comportement des répondants réticents serait plus semblable à celui des non-répondants qu'à celui des répondants aux enquêtes. Le présent article décrit une étude des répondants réticents et de la mesure dans laquelle ils diffèrent des répondants ordinaires. Nous comparons différents groupes de réponse en ce qui concerne les estimations pour plusieurs variables clés de l'enquête. Cette comparaison nous permettra de mieux comprendre le biais dû à la non-réponse à la NSRCG et les caractéristiques des non-répondants proprement dits, ce qui servira de fondement à la modification du système de pondération ou aux procédures d'estimation de la NSRCG dans l'avenir.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110804
    Description :

    Ce document porte sur l'estimation par calage pour les enquêtes ayant des cas de non-réponse. La correction efficace de la pondération pour les cas de non-réponse nécessite de l'information auxiliaire puissante. Les poids de l'estimateur par calage sont déterminés à partir de l'information au sujet d'un vecteur auxiliaire précisé. Même avec le « meilleur » vecteur auxiliaire possible, un certain biais demeure dans l'estimateur. Un indicateur du biais résiduel est présenté et analysé.

    Les nombreuses variables auxiliaires potentielles permettent au statisticien de constituer un large éventail de vecteurs auxiliaires éventuels. On ressent le besoin de comparer ces vecteurs afin d'évaluer leur efficacité en matière de réduction du biais. Pour ce faire, nous examinons un indicateur utile pour classer les vecteurs auxiliaires de rechange en fonction de leur capacité de réduire le biais. L'indicateur est calculé à partir des valeurs du vecteur auxiliaire pour les unités échantillonnées, qu'elles aient répondu ou non. L'un des avantages réside dans l'indépendance des variables de l'étude, qui sont nombreuses dans une grande enquête.

    Les propriétés de l'indicateur sont examinées dans les études empiriques. Une population synthétique est construite, et les vecteurs auxiliaires potentiels sont cotés à l'aide de l'indicateur. Un autre exemple empirique illustre comment l'indicateur est utilisé pour sélectionner des variables auxiliaires dans une grande enquête à Statistique Suède.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-536-X200900110803
    Description :

    L'estimateur GREG « traditionnel » est utilisé ici pour renvoyer à l'estimateur de régression généralisée qui a fait l'objet de longues discussions, notamment dans le document de Särndal, Swensson et Wretman (1992). Le document résume certaines nouvelles applications de l'estimateur GREG traditionnel dans le cadre de l'estimation des totaux des sous-groupes de population ou des domaines. L'estimation GREG a été mise en pratique pour l'estimation des domaines dans Särndal (1981, 1984), Hidiroglou et Särndal (1985) et Särndal et Hidiroglou (1989); cette application a été examinée de plus près dans l'article de Estevao, Hidiroglou et Särndal (1995). Pour l'estimateur GREG traditionnel, le modèle linéaire à effets fixes sert de modèle sous-jacent de travail ou de soutien, et les totaux auxiliaires au niveau agrégé sont intégrés dans la procédure d'estimation. Dans certains modèles récents, on suppose que l'accès aux données auxiliaires au niveau de l'unité pour l'estimation GREG sur domaines est disponible. De toute évidence, l'accès au registre micro-fusionné et aux données d'enquêtes nécessite une grande souplesse pour l'estimation de domaines. Ce point de vue a été adopté pour l'estimation GREG, notamment dans Lehtonen et Veijanen (1998), Lehtonen, Särndal et Veijanen (2003, 2005), et Lehtonen, Myrskylä, Särndal et Veijanen (2007). Ces nouvelles applications englobent les cas de variables réponses continues et binaires ou polytomiques, l'utilisation de modèles mixtes linéaires généralisés comme modèles de soutien et des plans de sondage probabilistes inégaux. Les mérites relatifs et les défis associés aux divers estimateurs GREG seront soulevés.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110434
    Description :

    La protection contre la divulgation de l'identité des répondants dans les données d'enquête publiées constitue un enjeu d'ordre pratique pour de nombreux organismes gouvernementaux. Parmi les méthodes de protection figurent la suppression des identificateurs de grappe et de strate, de même que la modification des données ou la permutation des valeurs entre les enregistrements des répondants. Malheureusement, les identificateurs de grappe et de strate sont généralement nécessaires à l'estimation de la variance axée sur la linéarisation ainsi qu'aux méthodes de répétition, dans la mesure où le rééchantillonnage porte habituellement sur les unités de sondage du premier degré dans les strates. On pourrait penser que la diffusion d'un ensemble de poids de rééchantillonnage duquel les identificateurs de strate et de grappe auraient été supprimés permettrait de régler une partie du problème, particulièrement si l'on fait appel à une méthode de rééchantillonnage aléatoire, comme celle du bootstrap. Dans le présent article, nous démontrons dans un premier temps que, en considérant les poids de rééchantillonnage comme des observations dans un espace dimensionnel de haut niveau, on peut facilement utiliser un algorithme de mise en grappes pour reconstruire les identificateurs de grappe, peu importe la méthode de rééchantillonnage, même si les poids de rééchantillonnage ont été modifiés aléatoirement. Nous proposons ensuite un algorithme rapide qui permet de permuter les identificateurs de grappe et de strate des unités finales avant la création des poids de rééchantillonnage, sans influer de façon significative sur les estimations de la variance des caractéristiques visées qui en résultent. Ces méthodes sont illustrées par leur application aux données publiées issues des National Health and Nutrition Examination Surveys, enquêtes pour lesquelles les questions de divulgation sont extrêmement importantes.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110393
    Description :

    Dans le présent article, nous calculons un estimateur de deuxième ordre sans biais (ou presque sans biais) de l'erreur quadratique moyenne de prédiction (EQMP) du meilleur prédicteur linéaire sans biais empirique (MPLSBE) d'un total de petit domaine pour une extension, selon l'hypothèse de non-normalité, du modèle bien connu de Fay-Herriot. Plus précisément, nous calculons notre estimateur de l'EQMP en posant essentiellement certaines conditions de moment pour les distributions de l'erreur d'échantillonnage et des effets aléatoires. L'estimateur de l'EQMP de Prasad-Rao fondé sur l'hypothèse de normalité se révèle étonnamment robuste en ce sens qu'il reste un estimateur de deuxième ordre sans biais dans des conditions de non-normalité des effets aléatoires lorsqu'un estimateur simple de la méthode des moments est employé pour la composante de variance et lorsque l'erreur d'échantillonnage suit une distribution normale. Nous montrons que l'estimateur de l'EQMP fondé sur l'hypothèse de normalité n'est plus un estimateur de deuxième ordre sans biais lorsque l'erreur d'échantillonnage suit une distribution non normale ou lorsque la méthode des moments de Fay-Herriot est utilisée pour estimer la composante de variance même si l'erreur d'échantillonnage suit une distribution normale. Il est intéressant de noter que lorsque l'estimateur simple de la méthode des moments est utilisé pour la composante de variance, l'estimateur de l'EQMP que nous proposons n'exige pas une estimation du kurtosis des effets aléatoires. Les résultats d'une étude de simulation sur l'exactitude de l'estimateur de l'EQMP proposé, dans des conditions de non-normalité de la distribution tant de l'erreur d'échantillonnage que des effets aléatoires, sont également présentés.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110420
    Description :

    La plupart des grands organismes de recherche par sondage américains et canadiens n'utilisent pas les numéros de téléphone sans fil lorsqu'ils effectuent des enquêtes à composition aléatoire auprès des ménages. Dans le présent article, nous présentons les estimations les plus à jour disponibles de l'importance et des caractéristiques démographiques des utilisateurs de la téléphonie sans fil uniquement produites par le National Center for Health Statistics des États-Unis et par Statistique Canada. Puis, nous présentons des données sur la santé et l'accès aux services de santé des adultes n'utilisant que la téléphonie sans fil provenant de la National Health Interview Survey réalisée aux États-Unis, et nous examinons le risque de biais de couverture lorsque les études sur la santé s'appuient sur des données provenant d'enquêtes à composition aléatoire n'incluant pas les numéros de téléphone sans fil.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019487
    Description :

    Le but de cette présentation est de passer en revue les différentes mesures de qualité qui ont servi à évaluer et à gérer le processus de collecte liée à la méthodologie du premier contact par téléphone de l'EPA.

    Date de diffusion : 2007-03-02

Date de modification :