Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

144 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

144 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

144 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

144 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (223)

Tout (223) (25 of 223 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114820
    Description :

    Les erreurs de mesure peuvent provoquer un biais de l’estimation des transitions, donnant lieu à des conclusions erronées au sujet de la dynamique du marché du travail. La littérature traditionnelle sur l’estimation des mouvements bruts est basée sur la supposition que les erreurs de mesure ne sont pas corrélées au fil du temps. Cette supposition n’est pas réaliste dans bien des contextes, en raison du plan d’enquête et des stratégies de collecte de données. Dans le présent document, nous utilisons une approche basée sur un modèle pour corriger les mouvements bruts observés des erreurs de classification au moyen de modèles markoviens à classes latentes. Nous nous reportons aux données recueillies dans le cadre de l’enquête italienne continue sur la population active, qui est transversale et trimestrielle et qui comporte un plan de renouvellement de type 2-2-2. Le questionnaire nous permet d’utiliser plusieurs indicateurs des états de la population active pour chaque trimestre : deux recueillis au cours de la première interview, et un troisième recueilli un an plus tard. Notre approche fournit une méthode pour estimer la mobilité sur le marché du travail, en tenant compte des erreurs corrélées et du plan par renouvellement de l’enquête. Le modèle qui convient le mieux est un modèle markovien mixte à classes latentes, avec des covariables touchant les transitions latentes et des erreurs corrélées parmi les indicateurs; les composantes mixtes sont de type mobile-stable. Le caractère plus approprié de la spécification du modèle mixte est attribuable à des transitions latentes estimées avec une plus grande précision.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114546
    Description :

    L’ajustement des poids de base au moyen de classes de pondération est une méthode communément employée pour composer avec la non-réponse totale. Une approche courante consiste en l’application d’ajustements pour la non-réponse pondérés selon l’inverse de la propension à répondre supposée des répondants dans les classes de pondération en vertu d’une méthode de quasi-randomisation. Little et Vartivarian (2003) ont remis en question l’utilité de la pondération du facteur d’ajustement. Dans la pratique, les modèles utilisés sont mal spécifiés; il est donc essentiel de comprendre l’incidence que peut avoir la pondération dans un tel cas. Le présent article décrit les effets, sur les estimations corrigées pour la non-réponse de moyennes et de totaux pour l’ensemble de la population et pour certains domaines qui ont été calculés selon l’inverse pondéré et non pondéré de la propension à répondre en vertu de plans d’échantillonnage aléatoires simples stratifiés. Le rendement de ces estimateurs est évalué dans différentes conditions, par exemple selon des répartitions différentes de l’échantillon, le mécanisme de réponse et la structure de population. Les résultats montrent que pour les scénarios étudiés, l’ajustement pondéré présente des avantages considérables pour l’estimation des totaux, et que le recours à un ajustement non pondéré peut donner lieu à des biais importants, sauf dans des cas très limités. En outre, contrairement aux estimations non pondérées, les estimations pondérées ne sont pas sensibles à la façon dont la répartition de l’échantillon est faite.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Produits techniques : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014722
    Description :

    Le U.S. Census Bureau cherche des façons d’intégrer des données administratives dans les opérations des recensements décennaux et des enquêtes. Pour mener ces travaux, il est essentiel de comprendre la couverture de la population dans les dossiers administratifs. À partir de données administratives fédérales et de tiers couplées avec celles de l’American Community Survey (ACS), nous évaluons dans quelle mesure les dossiers administratifs fournissent des données sur les personnes nées à l’étranger dans l’ACS, et nous utilisons des techniques de régression logistique multinomiale pour évaluer les caractéristiques de celles qui figurent dans les dossiers administratifs par rapport à celles qui n’y figurent pas. Nous avons déterminé que, dans l’ensemble, les dossiers administratifs fournissent une bonne couverture des personnes nées à l’étranger dans notre échantillon pour lesquelles un appariement peut être déterminé. La probabilité de figurer dans les dossiers administratifs semble être liée aux processus d’assimilation des immigrants : la naturalisation, une meilleure connaissance de la langue anglaise, le niveau de scolarité, et un emploi à temps plein étant associés à une plus grande probabilité de figurer dans les dossiers administratifs. Ces résultats laissent supposer qu’au fur et à mesure que les immigrants s’adaptent à la société américaine et s’y intègrent, ils sont plus susceptibles de participer aux processus et aux programmes gouvernementaux et commerciaux pour lesquels nous incluons des données. Nous explorons ensuite la couverture des dossiers administratifs pour les deux groupes raciaux/ethniques les plus importants de notre échantillon, à savoir les personnes nées à l’étranger de race hispanique et de race asiatique unique non hispanique, en déterminant encore une fois que les caractéristiques liées à l’assimilation sont associées à une couverture des deux groupes dans les dossiers administratifs. Toutefois, nous observons que le contexte du quartier a des répercussions différentes sur les personnes d’origine hispanique et asiatique.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014745
    Description :

    Au moment de la conception des enquêtes, un certain nombre de paramètres, comme la propension à la prise de contact, la propension à la participation et les coûts par unité d’échantillonnage, jouent un rôle décisif. Dans le cas des enquêtes permanentes, ces paramètres de conception d’enquête sont habituellement estimés à partir de l’expérience antérieure et mis à jour graduellement, au fur et à mesure des nouvelles expériences. Dans les nouvelles enquêtes, ces paramètres sont estimés à partir de l’opinion des experts et de l’expérience acquise dans des enquêtes similaires. Même si les instituts de sondage ont une expertise et une expérience relativement bonnes, l’énoncé, l’estimation et la mise à jour des paramètres de conception d’enquête se font rarement de façon systématique. Dans la présentation, nous proposons un cadre bayésien qui permet de prendre en compte et de mettre à jour les connaissances acquises et les opinions des experts concernant les paramètres. Ce cadre est établi dans le contexte de plans de collecte adaptatifs, dans lesquels les différentes unités de population peuvent être traitées différemment compte tenu des objectifs de qualité et de coût. Pour ce type d’enquête, l’exactitude des paramètres de conception devient encore plus cruciale pour prendre des décisions efficaces. Le cadre permet une analyse bayésienne du rendement d’une enquête pendant la collecte des données et entre les vagues. Nous démontrons l’analyse bayésienne au moyen d’une étude de simulation réaliste.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014713
    Description :

    Le terme mégadonnées peut signifier différentes choses pour différentes personnes. Pour certaines, il s’agit d’ensembles de données que nos systèmes classiques de traitement et d’analyse ne peuvent plus traiter. Pour d’autres, cela veut simplement dire tirer parti des ensembles de données existants de toutes tailles et trouver des façons de les fusionner, avec comme objectif de produire de nouveaux éléments de connaissance. La première perspective présente un certain nombre de défis importants pour les études traditionnelles de marché, recherches sur l’opinion et recherches sociales. Dans l’un ou l’autre cas, il existe des répercussions pour l’avenir des enquêtes, qu’on commence à peine à explorer.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014725
    Description :

    Les données fiscales sont de plus en plus exploitées pour la mesure et l’analyse de la population et de ses caractéristiques. Un des enjeux soulevés par l’utilisation croissante de ce type de données concerne la définition du concept du lieu de résidence. Si le recensement se base sur le concept du lieu habituel de résidence, les données fiscales nous renseignent sur l’adresse postale des déclarants. Au moyen d’un couplage d’enregistrements entre le recensement, l’Enquête nationale auprès des ménages et les données fiscales du fichier T1 sur la famille, cette étud

    Date de diffusion : 2016-03-24

  • Articles et rapports : 82-003-X201600314338
    Description :

    Le présent document décrit les méthodes et les données utilisées pour l’élaboration et la mise en oeuvre du métamodèle POHEM – Maladies neurologiques.

    Date de diffusion : 2016-03-16

  • Articles et rapports : 82-003-X201600114307
    Description :

    À partir de l’Enquête auprès des peuples autochtones de 2012, la présente étude examine les propriétés psychométriques de l’échelle de détresse psychologique à 10 questions de Kessler (une mesure abrégée de la détresse psychologique non spécifique) appliquée aux Premières Nations vivant à l’extérieur des réserves, aux Métis et aux Inuits âgés de 15 ans et plus.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Produits techniques : 11-522-X201300014278
    Description :

    En janvier et février 2014, Statistique Canada a réalisé un essai en vue de mesurer l’efficacité des diverses stratégies de collecte au moyen d’une enquête en ligne fondée sur l’autodéclaration. On a communiqué avec les unités échantillonnées en leur envoyant des lettres de présentation par la poste et on leur a demandé de répondre à l’enquête en ligne, sans contact avec un intervieweur. L’essai visait à mesurer les taux de participation à une enquête en ligne, ainsi que les profils des répondants et des non-répondants. On a mis à l’essai différents échantillons et lettres, afin de déterminer l’efficacité relative des diverses méthodes. Les résultats du projet serviront à renseigner les responsables de diverses enquêtes sociales qui se préparent à ajouter à leurs enquêtes la possibilité d’y répondre par Internet. Le document présentera la méthode générale de l’essai, ainsi que les résultats observés pendant la collecte et l’analyse des profils.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014259
    Description :

    Dans l’optique de réduire le fardeau de réponse des exploitants agricoles, Statistique Canada étudie d’autres approches que les enquêtes par téléphone pour produire des estimations des grandes cultures. Une option consiste à publier des estimations de la superficie récoltée et du rendement en septembre, comme cela se fait actuellement, mais de les calculer au moyen de modèles fondés sur des données par satellite et des données météorologiques, ainsi que les données de l’enquête téléphonique de juillet. Toutefois, avant d’adopter une telle approche, on doit trouver une méthode pour produire des estimations comportant un niveau d’exactitude suffisant. Des recherches sont en cours pour examiner différentes possibilités. Les résultats de la recherche initiale et les enjeux à prendre en compte sont abordés dans ce document.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014253
    Description :

    Les progrès en informatique, ainsi que les nouveaux défis sociétaux, tels que la hausse des taux de non-réponse et la diminution des budgets, peuvent entraîner des changements de méthodes d’enquête pour la production des statistiques officielles. De nos jours, l’usage des panels en ligne est devenu très répandu dans le domaine des études de marché. La question qui se pose est celle de savoir si ces panels conviennent pour les statistiques officielles. Permettent-ils de produire des statistiques de haute qualité au sujet de la population générale? Le présent article a pour objet de répondre à cette question en explorant divers aspects méthodologiques, dont le sous-dénombrement, la sélection de l’échantillon et la non-réponse. Statistics Netherlands a procédé à un essai au moyen d’un panel en ligne. Certains résultats sont décrits.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014252
    Description :

    Même si l’estimation de caractéristiques de populations finies à partir d’échantillons probabilistes a obtenu beaucoup de succès pour les grands échantillons, des inférences à partir d’échantillons non probabilistes sont également possibles. Les échantillons non probabilistes ont été critiqués en raison du biais d’auto-sélection et de l’absence de méthodes pour estimer la précision des estimations. L’accès plus vaste à Internet et la capacité de procéder à des collectes de données très peu coûteuses en ligne ont ravivé l’intérêt pour ce sujet. Nous passons en revue des stratégies d’échantillonnage non probabiliste et nous résumons certains des enjeux clés. Nous proposons ensuite des conditions à respecter pour que l’échantillonnage non probabiliste puisse constituer une approche raisonnable. Nous concluons par des idées de recherches futures.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014255
    Description :

    Le Centre d’information de réseau brésilien (NIC.br) a conçu et mené un projet pilote pour recueillir des données sur le Web, afin de produire des statistiques concernant les caractéristiques des pages Web. Les études des caractéristiques et des dimensions du Web exigent la collecte et l’analyse de données dans un environnement dynamique et complexe. L’idée de base est de recueillir des données sur un échantillon de pages Web, automatiquement, en utilisant le logiciel appelé moteur de recherche Web. Le présent article vise à diffuser les méthodes et les résultats de cette étude, ainsi qu’à démontrer les progrès actuels liés aux techniques d’échantillonnage dans un environnement dynamique.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201300211884
    Description :

    Le présent article offre une solution au problème de la détermination de la stratification optimale de la base de sondage de la population disponible en vue de minimiser le coût de l'échantillon requis pour satisfaire aux contraintes de précision sur un ensemble d'estimations cibles différentes. La solution est recherchée en explorant l'univers de toutes les stratifications qu'il est possible d'obtenir par classification croisée des variables auxiliaires catégoriques disponibles dans la base de sondage (les variables auxiliaires continues peuvent être transformées en variables catégoriques par des méthodes appropriées). Par conséquent, l'approche suivie est multivariée en ce qui concerne les variables cibles ainsi que les variables auxiliaires. L'algorithme proposé est fondé sur une approche évolutionniste non déterministe qui fait appel au paradigme de l'algorithme génétique. La caractéristique principale de l'algorithme est que l'on considère chaque stratification possible comme un individu susceptible d'évoluer dont l'adaptation est mesurée par le coût de l'échantillon associé requis pour satisfaire à un ensemble de contraintes de précision, ce coût étant calculé en appliquant l'algorithme de Bethel pour une répartition multivariée. Cet algorithme de stratification optimale, implémenté dans un module (ou package) R (SamplingStrata), a été appliqué jusqu'à présent à un certain nombre d'enquêtes courantes à l'Institut national de statistique de l'Italie : les résultats montrent systématiquement une amélioration importante de l'efficacité des échantillons obtenus comparativement aux stratifications adoptées antérieurement.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211883
    Description :

    L'histoire de l'échantillonnage, qui remonte aux écrits de A.N. Kiaer, a été marquée par d'importantes controverses. Avant tout, Kiaer lui-même a dû lutter pour convaincre ses contemporains que l'échantillonnage était, en soi, une procédure légitime. Il s'y est efforcé pendant plusieurs décennies et étaient un vieillard avant que l'échantillonnage devienne une activité honorable. A.L. Bowley a été le premier à fournir à la fois une justification théorique de l'échantillonnage (en 1906) et une démonstration pratique de sa faisabilité (dans un sondage réalisé à Reading, qui a été publié en 1912). En 1925, les membres de l'IIS réunis à Rome ont adopté une résolution témoignant de leur acceptation de l'utilisation de l'échantillonnage par randomisation ainsi que par choix raisonné. Bowley a utilisé les deux approches. Cependant, au cours des deux décennies suivantes, on a assisté à une tendance croissante à rendre la randomisation obligatoire. En 1934, Jerzy Neyman a profité de l'échec relativement récent d'un grand sondage par choix raisonné pour préconiser que les sondages subséquents fassent appel uniquement à l'échantillonnage aléatoire. Il a trouvé en M. H. Hansen, W.N. Hurwitz et W.G. Madow des disciples doués qui, ensemble, ont publié en 1953 un traité d'échantillonnage faisant autorité. Cet ouvrage est demeuré incontesté pendant près de deux décennies. Toutefois, dans les années 1970, R.M. Royall et ses coauteurs ont remis en cause le recours à l'inférence fondée sur l'échantillonnage aléatoire et recommandé d'utiliser plutôt l'échantillonnage fondé sur un modèle. Ce plaidoyer a, à son tour, déclenché la troisième controverses importante en un peu moins d'un siècle. Néanmoins, le présent auteur, comme plusieurs autres, est convaincu que l'inférence fondée sur le plan de sondage et celle fondée sur un modèle ont toutes deux un rôle utile à jouer.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (119)

Analyses (119) (25 of 119 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114820
    Description :

    Les erreurs de mesure peuvent provoquer un biais de l’estimation des transitions, donnant lieu à des conclusions erronées au sujet de la dynamique du marché du travail. La littérature traditionnelle sur l’estimation des mouvements bruts est basée sur la supposition que les erreurs de mesure ne sont pas corrélées au fil du temps. Cette supposition n’est pas réaliste dans bien des contextes, en raison du plan d’enquête et des stratégies de collecte de données. Dans le présent document, nous utilisons une approche basée sur un modèle pour corriger les mouvements bruts observés des erreurs de classification au moyen de modèles markoviens à classes latentes. Nous nous reportons aux données recueillies dans le cadre de l’enquête italienne continue sur la population active, qui est transversale et trimestrielle et qui comporte un plan de renouvellement de type 2-2-2. Le questionnaire nous permet d’utiliser plusieurs indicateurs des états de la population active pour chaque trimestre : deux recueillis au cours de la première interview, et un troisième recueilli un an plus tard. Notre approche fournit une méthode pour estimer la mobilité sur le marché du travail, en tenant compte des erreurs corrélées et du plan par renouvellement de l’enquête. Le modèle qui convient le mieux est un modèle markovien mixte à classes latentes, avec des covariables touchant les transitions latentes et des erreurs corrélées parmi les indicateurs; les composantes mixtes sont de type mobile-stable. Le caractère plus approprié de la spécification du modèle mixte est attribuable à des transitions latentes estimées avec une plus grande précision.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114546
    Description :

    L’ajustement des poids de base au moyen de classes de pondération est une méthode communément employée pour composer avec la non-réponse totale. Une approche courante consiste en l’application d’ajustements pour la non-réponse pondérés selon l’inverse de la propension à répondre supposée des répondants dans les classes de pondération en vertu d’une méthode de quasi-randomisation. Little et Vartivarian (2003) ont remis en question l’utilité de la pondération du facteur d’ajustement. Dans la pratique, les modèles utilisés sont mal spécifiés; il est donc essentiel de comprendre l’incidence que peut avoir la pondération dans un tel cas. Le présent article décrit les effets, sur les estimations corrigées pour la non-réponse de moyennes et de totaux pour l’ensemble de la population et pour certains domaines qui ont été calculés selon l’inverse pondéré et non pondéré de la propension à répondre en vertu de plans d’échantillonnage aléatoires simples stratifiés. Le rendement de ces estimateurs est évalué dans différentes conditions, par exemple selon des répartitions différentes de l’échantillon, le mécanisme de réponse et la structure de population. Les résultats montrent que pour les scénarios étudiés, l’ajustement pondéré présente des avantages considérables pour l’estimation des totaux, et que le recours à un ajustement non pondéré peut donner lieu à des biais importants, sauf dans des cas très limités. En outre, contrairement aux estimations non pondérées, les estimations pondérées ne sont pas sensibles à la façon dont la répartition de l’échantillon est faite.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600314338
    Description :

    Le présent document décrit les méthodes et les données utilisées pour l’élaboration et la mise en oeuvre du métamodèle POHEM – Maladies neurologiques.

    Date de diffusion : 2016-03-16

  • Articles et rapports : 82-003-X201600114307
    Description :

    À partir de l’Enquête auprès des peuples autochtones de 2012, la présente étude examine les propriétés psychométriques de l’échelle de détresse psychologique à 10 questions de Kessler (une mesure abrégée de la détresse psychologique non spécifique) appliquée aux Premières Nations vivant à l’extérieur des réserves, aux Métis et aux Inuits âgés de 15 ans et plus.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201300211884
    Description :

    Le présent article offre une solution au problème de la détermination de la stratification optimale de la base de sondage de la population disponible en vue de minimiser le coût de l'échantillon requis pour satisfaire aux contraintes de précision sur un ensemble d'estimations cibles différentes. La solution est recherchée en explorant l'univers de toutes les stratifications qu'il est possible d'obtenir par classification croisée des variables auxiliaires catégoriques disponibles dans la base de sondage (les variables auxiliaires continues peuvent être transformées en variables catégoriques par des méthodes appropriées). Par conséquent, l'approche suivie est multivariée en ce qui concerne les variables cibles ainsi que les variables auxiliaires. L'algorithme proposé est fondé sur une approche évolutionniste non déterministe qui fait appel au paradigme de l'algorithme génétique. La caractéristique principale de l'algorithme est que l'on considère chaque stratification possible comme un individu susceptible d'évoluer dont l'adaptation est mesurée par le coût de l'échantillon associé requis pour satisfaire à un ensemble de contraintes de précision, ce coût étant calculé en appliquant l'algorithme de Bethel pour une répartition multivariée. Cet algorithme de stratification optimale, implémenté dans un module (ou package) R (SamplingStrata), a été appliqué jusqu'à présent à un certain nombre d'enquêtes courantes à l'Institut national de statistique de l'Italie : les résultats montrent systématiquement une amélioration importante de l'efficacité des échantillons obtenus comparativement aux stratifications adoptées antérieurement.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211883
    Description :

    L'histoire de l'échantillonnage, qui remonte aux écrits de A.N. Kiaer, a été marquée par d'importantes controverses. Avant tout, Kiaer lui-même a dû lutter pour convaincre ses contemporains que l'échantillonnage était, en soi, une procédure légitime. Il s'y est efforcé pendant plusieurs décennies et étaient un vieillard avant que l'échantillonnage devienne une activité honorable. A.L. Bowley a été le premier à fournir à la fois une justification théorique de l'échantillonnage (en 1906) et une démonstration pratique de sa faisabilité (dans un sondage réalisé à Reading, qui a été publié en 1912). En 1925, les membres de l'IIS réunis à Rome ont adopté une résolution témoignant de leur acceptation de l'utilisation de l'échantillonnage par randomisation ainsi que par choix raisonné. Bowley a utilisé les deux approches. Cependant, au cours des deux décennies suivantes, on a assisté à une tendance croissante à rendre la randomisation obligatoire. En 1934, Jerzy Neyman a profité de l'échec relativement récent d'un grand sondage par choix raisonné pour préconiser que les sondages subséquents fassent appel uniquement à l'échantillonnage aléatoire. Il a trouvé en M. H. Hansen, W.N. Hurwitz et W.G. Madow des disciples doués qui, ensemble, ont publié en 1953 un traité d'échantillonnage faisant autorité. Cet ouvrage est demeuré incontesté pendant près de deux décennies. Toutefois, dans les années 1970, R.M. Royall et ses coauteurs ont remis en cause le recours à l'inférence fondée sur l'échantillonnage aléatoire et recommandé d'utiliser plutôt l'échantillonnage fondé sur un modèle. Ce plaidoyer a, à son tour, déclenché la troisième controverses importante en un peu moins d'un siècle. Néanmoins, le présent auteur, comme plusieurs autres, est convaincu que l'inférence fondée sur le plan de sondage et celle fondée sur un modèle ont toutes deux un rôle utile à jouer.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 82-003-X201300111764
    Description :

    La présente étude compare deux sources d'information sur la consommation de médicaments sur ordonnance par les personnes de 65 ans et plus en Ontario - l'Enquête sur la santé dans les collectivités canadiennes (ESCC) et la base de données des demandes de paiement pour médicaments du Programme de médicaments de l'Ontario (PMO). L'analyse porte sur les médicaments contre les troubles cardiovasculaires et le diabète, parce qu'ils sont utilisés fréquemment, et que presque tous sont prescrits régulièrement.

    Date de diffusion : 2013-01-16

  • Articles et rapports : 82-003-X201200311707
    Description :

    La présente étude compare la circonférence de la taille mesurée selon le protocole de l'Organisation mondiale de la Santé et selon celui des National Institutes of Health afin de déterminer si les résultats diffèrent de manière significative et si des équations peuvent être établies pour permettre de comparer la circonférence de la taille mesurée à deux endroits différents.

    Date de diffusion : 2012-09-20

  • Articles et rapports : 82-003-X201100411598
    Description :

    Les données longitudinales permettent d'étudier la dynamique de l'état de santé au cours du cycle de vie en modélisant les trajectoires. Les trajectoires de l'état de santé mesurées au moyen de l'indice de l'état de santé Health Utilities Index Mark 3 (HUI3) modélisées sous forme d'une fonction de l'âge seulement, ainsi que d'une fonction de l'âge et de covariables socioéconomiques, ont révélé des résidus non normaux et des problèmes d'estimation de variance. Le but de l'étude était d'examiner la possibilité de transformer la distribution des scores HUI3 de manière à obtenir des résidus qui suivent approximativement une loi normale.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100111444
    Description :

    L'appariement des données consiste à jumeler des enregistrements issus de deux fichiers ou plus que l'on pense appartenir à une même unité (par exemple une personne ou une entreprise). Il s'agit d'un moyen très courant de renforcer la dimension temporelle ou des aspects tels que la portée ou la profondeur des détails. Souvent, le processus d'appariement des données n'est pas exempt d'erreur et peut aboutir à la formation d'une paire d'enregistrements qui n'appartiennent pas à la même unité. Alors que le nombre d'applications d'appariement d'enregistrements croît exponentiellement, peu de travaux ont porté sur la qualité des analyses effectuées en se servant des fichiers de données ainsi appariées. Traiter naïvement ces fichiers comme s'ils ne contenaient pas d'erreurs mène, en général, à des estimations biaisées. Le présent article décrit l'élaboration d'un estimateur du maximum de vraisemblance pour les tableaux de contingence et la régression logistique en présence de données incorrectement appariées. Simple, cette méthode d'estimation est appliquée en utilisant l'algorithme EM bien connu. Dans le contexte qui nous occupe, l'appariement probabiliste des données est une méthode reconnue. Le présent article démontre l'efficacité des estimateurs proposés au moyen d'une étude empirique s'appuyant sur cet appariement probabiliste.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111447
    Description :

    Ce document présente un programme R pour la stratification d'une population d'enquête à l'aide d'une variable unidimensionnelle X et pour le calcul de tailles d'échantillon dans les strates. Nous y employons des méthodes non itératives pour délimiter les strates, comme la méthode de la fonction cumulative de la racine carrée des fréquences et la méthode géométrique. Nous pouvons élaborer des plans optimaux où les bornes de strates minimisent soit le CV de l'estimateur simple par dilatation pour une taille fixe d'échantillon n, soit la valeur n pour un CV fixe. Nous disposons de deux algorithmes itératifs pour le calcul des bornes optimales. Le plan peut comporter des strates à tirage obligatoire qui sont définies par l'utilisateur et dont toutes les unités sont échantillonnées. Il est également possible d'inclure dans le plan stratifié des strates à tirage complet et à tirage nul qui permettent souvent de réduire les tailles d'échantillon. Les calculs de taille d'échantillon sont fondés sur les moments anticipés de la variable d'enquête Y étant donné la variable de stratification X. Le programme traite les distributions conditionnelles de Y étant donné X qui sont soit un modèle linéaire hétéroscédastique soit un modèle loglinéaire. Nous pouvons tenir compte de la non-réponse par strate dans l'élaboration du plan d'échantillonnage et dans les calculs de taille d'échantillon.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111443
    Description :

    Les enquêtes téléphoniques à base de sondage double deviennent fréquentes aux États-Unis en raison de l'incomplétude de la liste de numéros de téléphone fixe causée par l'adoption progressive du téléphone mobile. Le présent article traite des erreurs non dues à l'échantillonnage dans les enquêtes téléphoniques à base de sondage double. Alors que la plupart des publications sur les bases de sondage doubles ne tiennent pas compte des erreurs non dues à l'échantillonnage, nous constatons que ces dernières peuvent, dans certaines conditions, causer des biais importants dans les enquêtes téléphoniques à base de sondage double. Nous examinons en particulier les biais dus à la non-réponse et à l'erreur de mesure dans ces enquêtes. En vue de réduire le biais résultant de ces erreurs, nous proposons des méthodes d'échantillonnage à base de sondage double et de pondération. Nous montrons que le facteur de composition utilisé pour combiner les estimations provenant de deux bases de sondage joue un rôle important dans la réduction du biais de non-réponse.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201000211382
    Description :

    Aux États-Unis, la taille de la population dotée d'un téléphone mobile seulement a augmenté rapidement ces dernières années et, par conséquent, les chercheurs ont commencé à expérimenter l'échantillonnage et l'interview des abonnés à la téléphonie mobile. Nous discutons des problèmes statistiques que posent les étapes de l'établissement du plan d'échantillonnage et de l'estimation des études par téléphone mobile. Les travaux sont exposés principalement dans le contexte d'une enquête à deux bases de sondage non chevauchantes dans laquelle une base et un échantillon sont employés pour la population possédant un téléphone fixe et une deuxième base de sondage et un deuxième échantillon, pour la population possédant seulement un téléphone mobile. Nous discutons également des aspects supplémentaires dont il faut tenir compte dans le cas d'une enquête à deux bases de sondage chevauchantes (où la base de sondage et l'échantillon pour la téléphonie mobile comprennent certains membres de la population dotée d'un téléphone fixe). Pour illustrer les méthodes, nous utilisons le plan de sondage de la National Immunization Survey (NIS) conçue pour surveiller les taux de vaccination chez les enfants de 19 à 35 mois et les adolescents de 13 à 17 ans. La NIS est une enquête téléphonique nationale, suivie d'une vérification des dossiers des fournisseurs de service, réalisée par les Centers for Disease Control and Prevention.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000211384
    Description :

    Le ralentissement économique aux États-Unis pourrait rendre incertain le maintien de stratégies coûteuses dans les opérations des enquêtes. Dans le Behavioral Risk Factor Surveillance System (BRFSS), une période de collecte de données mensuelle de 31 jours seulement pourrait être une solution de rechange moins coûteuse. Toutefois, elle pourrait exclure une partie des interviews menées après 31 jours (répondants tardifs) et les caractéristiques de ces répondants pourraient être différentes à de nombreux égards de celles des répondants qui ont participé à l'enquête dans les 31 jours (répondants hâtifs). Nous avons tâché de déterminer s'il existe entre les répondants hâtifs et les répondants tardifs des différences d'ordre démographique ou en ce qui a trait à la couverture des soins de santé, à l'état de santé général, aux comportements posant un risque pour la santé et aux maladies ou problèmes de santé chroniques. Nous avons utilisé les données du BRFSS 2007, où un échantillon représentatif de la population adulte aux États-Unis ne vivant pas en établissement a été sélectionné au moyen d'une méthode de composition aléatoire. Les répondants tardifs étaient significativement plus susceptibles d'être de sexe masculin ; de déclarer leur race ou origine ethnique comme étant hispanique ; d'avoir un revenu annuel de plus de 50 000 $ ; d'avoir moins de 45 ans ; d'avoir un niveau de scolarité inférieur au diplôme d'études secondaires ; de bénéficier d'une couverture des soins de santé ; d'être significativement plus susceptibles de déclarer être en bonne santé ; d'être significativement moins susceptibles de déclarer faire de l'hypertension, souffrir de diabète ou être obèses. Les différences observées entre les répondants hâtifs et les répondants tardifs dans les estimations d'enquête pourraient influer à peine sur les estimations nationales et au niveau de l'État. Étant donné que la proportion de répondants tardifs pourrait augmenter à l'avenir, il y a lieu d'examiner son incidence sur les estimations découlant de la surveillance avant de l'exclure de l'analyse. Dans l'analyse portant sur les répondants tardifs, il devrait suffire de combiner plusieurs années de données pour produire des estimations fiables.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000111245
    Description :

    La connaissance des causes des erreurs de mesure dans les enquêtes auprès des entreprises est limitée, même si ces erreurs peuvent compromettre l'exactitude des microdonnées et des indicateurs économiques qui en découlent. Le présent article, qui est fondé sur une étude empirique axée sur le point de vue des entreprises, présente de nouveaux résultats de recherche sur le processus de réponse aux enquêtes auprès des entreprises. Il propose le modèle multidimensionnel intégral de réponse aux enquêtes auprès des entreprises (MMIREE) comme outil pour examiner le processus de réponse et expliquer ses résultats, et comme base d'une stratégie visant à réduire et à prévenir les erreurs de mesure.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200900211046
    Description :

    Nous élaborons un modèle de régression semiparamétrique pour les enquêtes complexes. Dans ce modèle, les variables explicatives sont représentées séparément sous forme d'une partie non paramétrique et d'une partie linéaire paramétrique. Les méthodes d'estimation combinent l'estimation par la régression polynomiale locale non paramétrique et l'estimation par les moindres carrés. Nous élaborons également des résultats asymptotiques, tels que la convergence et la normalité des estimateurs des coefficients de régression et des fonctions de régression. Nous recourrons à la simulation et à des exemples empiriques tirés de l'Enquête sur la santé en Ontario de 1990 pour illustrer la performance de la méthode et les propriétés des estimations.

    Date de diffusion : 2009-12-23

Références (104)

Références (104) (25 of 104 results)

  • Produits techniques : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014722
    Description :

    Le U.S. Census Bureau cherche des façons d’intégrer des données administratives dans les opérations des recensements décennaux et des enquêtes. Pour mener ces travaux, il est essentiel de comprendre la couverture de la population dans les dossiers administratifs. À partir de données administratives fédérales et de tiers couplées avec celles de l’American Community Survey (ACS), nous évaluons dans quelle mesure les dossiers administratifs fournissent des données sur les personnes nées à l’étranger dans l’ACS, et nous utilisons des techniques de régression logistique multinomiale pour évaluer les caractéristiques de celles qui figurent dans les dossiers administratifs par rapport à celles qui n’y figurent pas. Nous avons déterminé que, dans l’ensemble, les dossiers administratifs fournissent une bonne couverture des personnes nées à l’étranger dans notre échantillon pour lesquelles un appariement peut être déterminé. La probabilité de figurer dans les dossiers administratifs semble être liée aux processus d’assimilation des immigrants : la naturalisation, une meilleure connaissance de la langue anglaise, le niveau de scolarité, et un emploi à temps plein étant associés à une plus grande probabilité de figurer dans les dossiers administratifs. Ces résultats laissent supposer qu’au fur et à mesure que les immigrants s’adaptent à la société américaine et s’y intègrent, ils sont plus susceptibles de participer aux processus et aux programmes gouvernementaux et commerciaux pour lesquels nous incluons des données. Nous explorons ensuite la couverture des dossiers administratifs pour les deux groupes raciaux/ethniques les plus importants de notre échantillon, à savoir les personnes nées à l’étranger de race hispanique et de race asiatique unique non hispanique, en déterminant encore une fois que les caractéristiques liées à l’assimilation sont associées à une couverture des deux groupes dans les dossiers administratifs. Toutefois, nous observons que le contexte du quartier a des répercussions différentes sur les personnes d’origine hispanique et asiatique.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014745
    Description :

    Au moment de la conception des enquêtes, un certain nombre de paramètres, comme la propension à la prise de contact, la propension à la participation et les coûts par unité d’échantillonnage, jouent un rôle décisif. Dans le cas des enquêtes permanentes, ces paramètres de conception d’enquête sont habituellement estimés à partir de l’expérience antérieure et mis à jour graduellement, au fur et à mesure des nouvelles expériences. Dans les nouvelles enquêtes, ces paramètres sont estimés à partir de l’opinion des experts et de l’expérience acquise dans des enquêtes similaires. Même si les instituts de sondage ont une expertise et une expérience relativement bonnes, l’énoncé, l’estimation et la mise à jour des paramètres de conception d’enquête se font rarement de façon systématique. Dans la présentation, nous proposons un cadre bayésien qui permet de prendre en compte et de mettre à jour les connaissances acquises et les opinions des experts concernant les paramètres. Ce cadre est établi dans le contexte de plans de collecte adaptatifs, dans lesquels les différentes unités de population peuvent être traitées différemment compte tenu des objectifs de qualité et de coût. Pour ce type d’enquête, l’exactitude des paramètres de conception devient encore plus cruciale pour prendre des décisions efficaces. Le cadre permet une analyse bayésienne du rendement d’une enquête pendant la collecte des données et entre les vagues. Nous démontrons l’analyse bayésienne au moyen d’une étude de simulation réaliste.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014713
    Description :

    Le terme mégadonnées peut signifier différentes choses pour différentes personnes. Pour certaines, il s’agit d’ensembles de données que nos systèmes classiques de traitement et d’analyse ne peuvent plus traiter. Pour d’autres, cela veut simplement dire tirer parti des ensembles de données existants de toutes tailles et trouver des façons de les fusionner, avec comme objectif de produire de nouveaux éléments de connaissance. La première perspective présente un certain nombre de défis importants pour les études traditionnelles de marché, recherches sur l’opinion et recherches sociales. Dans l’un ou l’autre cas, il existe des répercussions pour l’avenir des enquêtes, qu’on commence à peine à explorer.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014725
    Description :

    Les données fiscales sont de plus en plus exploitées pour la mesure et l’analyse de la population et de ses caractéristiques. Un des enjeux soulevés par l’utilisation croissante de ce type de données concerne la définition du concept du lieu de résidence. Si le recensement se base sur le concept du lieu habituel de résidence, les données fiscales nous renseignent sur l’adresse postale des déclarants. Au moyen d’un couplage d’enregistrements entre le recensement, l’Enquête nationale auprès des ménages et les données fiscales du fichier T1 sur la famille, cette étud

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014278
    Description :

    En janvier et février 2014, Statistique Canada a réalisé un essai en vue de mesurer l’efficacité des diverses stratégies de collecte au moyen d’une enquête en ligne fondée sur l’autodéclaration. On a communiqué avec les unités échantillonnées en leur envoyant des lettres de présentation par la poste et on leur a demandé de répondre à l’enquête en ligne, sans contact avec un intervieweur. L’essai visait à mesurer les taux de participation à une enquête en ligne, ainsi que les profils des répondants et des non-répondants. On a mis à l’essai différents échantillons et lettres, afin de déterminer l’efficacité relative des diverses méthodes. Les résultats du projet serviront à renseigner les responsables de diverses enquêtes sociales qui se préparent à ajouter à leurs enquêtes la possibilité d’y répondre par Internet. Le document présentera la méthode générale de l’essai, ainsi que les résultats observés pendant la collecte et l’analyse des profils.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014259
    Description :

    Dans l’optique de réduire le fardeau de réponse des exploitants agricoles, Statistique Canada étudie d’autres approches que les enquêtes par téléphone pour produire des estimations des grandes cultures. Une option consiste à publier des estimations de la superficie récoltée et du rendement en septembre, comme cela se fait actuellement, mais de les calculer au moyen de modèles fondés sur des données par satellite et des données météorologiques, ainsi que les données de l’enquête téléphonique de juillet. Toutefois, avant d’adopter une telle approche, on doit trouver une méthode pour produire des estimations comportant un niveau d’exactitude suffisant. Des recherches sont en cours pour examiner différentes possibilités. Les résultats de la recherche initiale et les enjeux à prendre en compte sont abordés dans ce document.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014253
    Description :

    Les progrès en informatique, ainsi que les nouveaux défis sociétaux, tels que la hausse des taux de non-réponse et la diminution des budgets, peuvent entraîner des changements de méthodes d’enquête pour la production des statistiques officielles. De nos jours, l’usage des panels en ligne est devenu très répandu dans le domaine des études de marché. La question qui se pose est celle de savoir si ces panels conviennent pour les statistiques officielles. Permettent-ils de produire des statistiques de haute qualité au sujet de la population générale? Le présent article a pour objet de répondre à cette question en explorant divers aspects méthodologiques, dont le sous-dénombrement, la sélection de l’échantillon et la non-réponse. Statistics Netherlands a procédé à un essai au moyen d’un panel en ligne. Certains résultats sont décrits.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014252
    Description :

    Même si l’estimation de caractéristiques de populations finies à partir d’échantillons probabilistes a obtenu beaucoup de succès pour les grands échantillons, des inférences à partir d’échantillons non probabilistes sont également possibles. Les échantillons non probabilistes ont été critiqués en raison du biais d’auto-sélection et de l’absence de méthodes pour estimer la précision des estimations. L’accès plus vaste à Internet et la capacité de procéder à des collectes de données très peu coûteuses en ligne ont ravivé l’intérêt pour ce sujet. Nous passons en revue des stratégies d’échantillonnage non probabiliste et nous résumons certains des enjeux clés. Nous proposons ensuite des conditions à respecter pour que l’échantillonnage non probabiliste puisse constituer une approche raisonnable. Nous concluons par des idées de recherches futures.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014255
    Description :

    Le Centre d’information de réseau brésilien (NIC.br) a conçu et mené un projet pilote pour recueillir des données sur le Web, afin de produire des statistiques concernant les caractéristiques des pages Web. Les études des caractéristiques et des dimensions du Web exigent la collecte et l’analyse de données dans un environnement dynamique et complexe. L’idée de base est de recueillir des données sur un échantillon de pages Web, automatiquement, en utilisant le logiciel appelé moteur de recherche Web. Le présent article vise à diffuser les méthodes et les résultats de cette étude, ainsi qu’à démontrer les progrès actuels liés aux techniques d’échantillonnage dans un environnement dynamique.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800011001
    Description :

    Présentement en cours, l'Enquête québécoise sur la santé de la population (EQSP), dont la collecte se terminera en février 2009, offre l'opportunité, de par l'envergure de son échantillon, d'évaluer l'impact de l'envoi de lettres d'information aux répondants sur le taux de réponse, et ce, dans un environnement contrôlé. En effet, avec plus de 38 000 répondants attendus, une partie de l'échantillon de cette enquête téléphonique à portée régionale a pu être utilisée pour permettre cette étude, sans toutefois avoir un impact trop important sur le taux de réponse global de l'enquête. Dans les enquêtes à génération aléatoire de numéro de téléphone (GANT), telle que l'EQSP, un des principaux défis de l'envoi d'une lettre d'information est l'atteinte de l'unité enquêtée. Or, cette réussite dépend en grande partie de notre capacité à associer une adresse aux unités échantillonnées et de la qualité de celle-ci.

    Cet article décrit l'étude contrôlée mise de l'avant par l'Institut de la statistique du Québec pour mesurer l'incidence de l'envoi de lettres d'information aux répondants sur le taux de réponse de l'enquête.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010948
    Description :

    Les anciens instruments d'enquête, qu'il s'agisse de questionnaires imprimés ou de scénarios téléphoniques, constituaient leur propre documentation. Ce contexte est celui dans lequel la banque de questions de l'ESRC a été créée, en vue d'offrir l'accès gratuit aux questionnaires publiés sur Internet et de permettre aux chercheurs de réutiliser les questions, leur évitant ainsi certaines difficultés tout en améliorant la comparabilité de leurs données avec celles recueillies par d'autres. Cependant aujourd'hui, alors que la technologie des enquêtes et les programmes informatiques sont devenus plus perfectionnés, il semble plus difficile de comprendre exactement les questionnaires les plus récents, particulièrement quand chaque équipe d'enquête utilise ses propres conventions pour fournir des renseignements sur les questions complexes dans les rapports techniques. Le présent article a pour but d'illustrer ces problèmes et de proposer des normes provisoires de présentation à utiliser jusqu'à ce que le processus soit automatisé.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010996
    Description :

    Au cours des dernières années, l'utilisation des paradonnées a pris de plus en plus d'importance dans le cadre de la gestion des activités de collecte à Statistique Canada. Une attention particulière a été accordée aux enquêtes sociales menées par téléphone, comme l'Enquête sur la dynamique du travail et du revenu (EDTR). Lors des dernières activités de collecte de l'EDTR, une limite de 40 tentatives d'appel a été instaurée. Des examens des fichiers de l'historique des transactions Blaise de l'EDTR ont été entrepris afin d'évaluer l'incidence de la limite des tentatives d'appel. Tandis que l'objectif de la première étude était de réunir les renseignements nécessaires à l'établissement de la limite des tentatives d'appel, la seconde étude portait sur la nature de la non-réponse dans le contexte de la limite de 40 tentatives.

    L'utilisation des paradonnées comme information auxiliaire pour étudier et expliquer la non-réponse a aussi été examinée. Des modèles d'ajustement pour la non-réponse utilisant différentes variables de paradonnées recueillies à l'étape de la collecte ont été comparés aux modèles actuels basés sur de l'information auxiliaire tirée de l'Enquête sur la population active.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011011
    Description :

    Le Système de rapports sur la qualité de vie (SRQDV) de la Fédération canadienne des municipalités (FCM) offre un moyen de mesurer et de surveiller la qualité de vie dans les municipalités canadiennes et d'en rendre compte. Pour relever le défi que représente la collecte de données administratives auprès des diverses municipalités membres, l'équipe technique du SRQDV a collaboré au développement de l'Outil de collecte de données municipales (OCDM) qui est devenu une composante clé de la méthodologie d'acquisition de données du SRQDV. Soumis en tant qu'étude de cas de la collecte des données administratives, le présent article soutient que le lancement récent de l'OCDM a permis à la FCM d'avoir accès à des données administratives municipales pancanadiennes fiables pour le SRQDV.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010981
    Description :

    L'une des caractéristiques principales du recensement de la population de l'Espagne de 2001 a été l'utilisation des données d'un registre de population administratif (El Padrón) pour la préimpression des questionnaires, ainsi que des dossiers des recenseurs sur les secteurs de recensement. Dans le présent article, nous décrivons les grandes caractéristiques du lien entre le registre de la population et le recensement de la population, ainsi que les principaux changements qu'il est prévu d'apporter au prochain recensement qui aura lieu en 2011.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011000
    Description :

    Le présent rapport décrit les résultats d'une expérience d'envoi par la poste qui a eu lieu dans le cadre d'un projet de démonstration à grande échelle. Une carte postale et des autocollants ont été envoyés à un groupe aléatoire de participants au projet durant la période entre un appel de prise de contact et une enquête. Les chercheurs ont émis l'hypothèse qu'à cause de l'envoi par la poste supplémentaire (le traitement), les taux de réponse à l'enquête à venir augmenteraient. Toutefois, aucune différence n'a été observée entre les taux de réponse du groupe de traitement ayant reçu l'envoi par la poste supplémentaire et ceux du groupe témoin. Dans les conditions particulières de l'expérience d'envoi par la poste, expédier une carte postale et des autocollants aux participants au projet pour leur rappeler l'enquête à venir et leur participation au projet pilote n'a pas été un moyen efficace d'accroître les taux de réponse.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010978
    Description :

    Les personnes chargées de l'élaboration des recensements et les chercheurs en sciences sociales en sont à une étape critique de la détermination des modes de collecte qui seront utilisés dans l'avenir. La collecte des données par Internet est techniquement possible, mais l'investissement initial en matériel et en logiciels est important. Étant donné le grand fossé qui existe entre les uns et les autres en matière de connaissances informatiques et d'accès aux ordinateurs, la collecte des données par Internet est viable pour certains, mais pas pour tous. Par conséquent, Internet ne peut pas remplacer entièrement les questionnaires imprimés existants, du moins dans un avenir proche.

    Le Canada, l'Australie et la Nouvelle-Zélande sont des pionniers en matière de collecte des données du recensement par Internet. Le présent article porte sur les quatre éléments qui dictent ce mode de collecte, à savoir 1) répondre aux attentes de la société et du public, 2) obtenir des avantages économiques à long terme, 3) améliorer la qualité des données et 4) améliorer la couverture.

    Les problèmes qu'il convient de résoudre à l'heure actuelle consistent à 1) estimer le taux d'utilisation de la réponse par Internet et maximiser les avantages sans prendre de risque exagéré, 2) concevoir un questionnaire adapté à plusieurs modes de collecte, 3) établir de multiples approches de communication avec le public et 4) obtenir une réaction favorable et la confiance du public à l'égard de l'utilisation d'Internet.

    Le présent article résume la pensée et les expériences collectives de divers pays quant aux avantages et aux limites de la collecte des données par Internet dans le contexte d'un recensement de la population et des logements. Il décrit aussi dans les grandes lignes vers où les pays s'en iront dans l'avenir en ce qui concerne la collecte des données par Internet.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010989
    Description :

    À première vue, les enquêtes en ligne semblent constituer une façon intéressante et attrayante de recueillir des données. Elles permettent d'avoir un accès simple, économique et rapide à un grand nombre de personnes. Il y a cependant un revers à cette médaille. Compte tenu des problèmes d'ordre méthodologique qu'elles posent, les enquêtes en ligne peuvent produire des résultats fortement biaisés, surtout si elles ont recours à la méthode d'autosélection des répondants plutôt qu'à l'échantillonnage probabiliste, comme cela devrait être le cas. Le sous-dénombrement constitue également un grave problème. On peut alors se demander si les enquêtes en ligne conviennent à la collecte des données pour les besoins de la statistique officielle. La présente communication porte sur les problèmes du sous-dénombrement et de l'autosélection dans les enquêtes en ligne et tente de montrer comment on peut intégrer la collecte des données par Internet aux pratiques courantes de collecte des données pour les besoins de la statistique officielle.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010955
    Description :

    Les gestionnaires d'enquête commencent tout juste à découvrir les nombreuses utilités de l'enregistrement audionumérique pour la surveillance et la gestion du personnel sur le terrain. Jusqu'ici, cette technique a surtout permis de garantir l'authenticité des interviews, de déceler la falsification, de fournir des exemples concrets permettant d'évaluer le rendement sur le terrain puis de renseigner les gestionnaires de la collecte des données sur les interviews menées en personne. Par ailleurs, l'interview enregistrée assistée par ordinateur (IEAO) permet d'améliorer certains aspects de la qualité des données d'enquête en corroborant ou en corrigeant les réponses codées par le personnel travaillant sur le terrain. À l'avenir, l'enregistrement sonore pourrait même remplacer ou suppléer la transcription textuelle des réponses libres, sur le terrain, d'autant plus qu'il promet de gagner en efficacité grâce aux logiciels de traduction de la voix en texte.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010975
    Description :

    Un problème important dans le domaine de la statistique officielle est l'accès à des mesures objectives permettant de prendre des décisions fondées sur des données factuelles. Istat a mis en place un système d'information en vue d'évaluer la qualité des enquêtes. Entre autres indicateurs standard de la qualité, les taux de non-réponse sont calculés et sauvegardés systématiquement pour toutes les enquêtes. Cette riche base d'information permet d'effecteur des analyses au cours du temps et des comparaisons entre enquêtes. Le présent article porte sur l'analyse des interdépendances entre le mode de collecte des données, ainsi que d'autres caractéristiques des enquêtes et la non-réponse totale. Une attention particulière est accordée à la mesure dans laquelle la collecte de données multimode améliore les taux de réponse.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011008
    Description :

    Dans un certain sens, un questionnaire n'est jamais achevé. Les résultats des essais, les paradonnées et les constatations émanant des travaux de recherche fournissent constamment des raisons de le mettre à jour et de l'améliorer. En outre, les établissements évoluent au cours du temps et les questions doivent être modifiées en conséquence. Dans la réalité, toutefois, il n'en est pas toujours ainsi. Statistics Sweden compte plusieurs exemples de questionnaires qui ont rarement été améliorés après avoir été conçus. Néanmoins, nous essayons à l'heure actuelle de passer, pour la conception des questionnaires, d'une perspective linéaire à une perspective cyclique. Nous élaborons un modèle cyclique permettant d'améliorer continuellement les questionnaires en plusieurs cycles. Le présent article décrit ce modèle et la façon dont nous l'utilisons.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011004
    Description :

    L'idée de réduire le fardeau de réponse n'est pas nouvelle. Statistics Sweden cherche par plusieurs moyens à réduire le fardeau de réponse et les coûts administratifs liés à la collecte de données auprès d'entreprises et d'organisations. En vertu de la loi, Statistics Sweden est tenu de réduire le fardeau de réponse des entreprises; cette tâche constitue donc une priorité. L'État a décidé de réduire les coûts administratifs des enquêtes auprès des entreprises de 25 % d'ici 2010. Cet objectif vaut également pour la collecte de données à des fins statistiques. Les enquêtes visées sont celles auxquelles la participation est obligatoire en vertu de la loi, ainsi que bon nombre d'autres enquêtes pour lesquelles il faut mesurer et réduire le fardeau de réponse. Afin de mesurer, d'analyser et de réduire le fardeau de réponse, Statistics Sweden a mis au point le Registre des fournisseurs de données concernant les entreprises et les organisations (le registre ULR), dont l'objectif est double : mesurer et analyser le fardeau de réponse au niveau agrégé et fournir à chaque entreprise des renseignements sur les enquêtes auxquelles elle participe.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010976
    Description :

    Bon nombre d’organismes statistiques considèrent le taux de réponse comme un indicateur de la qualité des données d’enquête. Ils mettent donc en oeuvre diverses mesures pour réduire la non-réponse ou pour maintenir un niveau de réponse acceptable. Toutefois, le taux de réponse ne constitue pas nécessairement un bon indicateur du biais de non-réponse. Un taux de réponse élevé ne suppose pas un faible biais de non-réponse. Ce qui compte, c’est l’écart entre la composition de la réponse et celle de l’ensemble de l’échantillon. Dans le présent exposé, nous décrivons le concept des indicateurs R pour évaluer les écarts possibles entre l’échantillon et la réponse. Ces indicateurs peuvent faciliter l’analyse de la réponse aux enquêtes au fil du temps, quels que soient les stratégies d’enquête sur le terrain ou les modes de collecte des données. Nous présentons des exemples tirés de la pratique.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110811
    Description :

    L'imputation composite est souvent utilisée dans le cadre des enquêtes-entreprises. Elle survient lorsque plusieurs méthodes d'imputation sont utilisées pour imputer une seule variable d'intérêt. Le choix d'une méthode plutôt qu'une autre dépend de la disponibilité de certaines variables auxiliaires. Par exemple, l'imputation par la méthode du quotient pourrait être utilisée pour imputer une valeur manquante lorsqu'une valeur auxiliaire existe, sinon l'imputation par la moyenne pourrait être utilisée.

    Bien que l'imputation composite se rencontre fréquemment en pratique, l'estimation de la variance fondée sur l'imputation composite n'a pas été beaucoup documentée. Nous examinons la méthodologie générale proposée par Särndal et coll. (1992), qui nécessite la validité d'un modèle d'imputation, c.-à-d. un modèle pour la variable imputée. À première vue, l'application de cette méthodologie à l'imputation composite semble fort fastidieuse, jusqu'à ce que nous remarquions que la plupart des méthodes d'imputation utilisées en pratique donnent lieu à des estimateurs imputés qui sont linéaires dans les valeurs observées de la variable d'intérêt. Ainsi, il devient considérablement plus simple de dériver un estimateur de la variance, même lorsqu'une seule méthode d'imputation est utilisée. Pour estimer la partie échantillonnage de la variance totale, nous employons une méthodologie légèrement différente de celle que proposent Särndal et coll. (1992). Notre méthodologie s'apparente à l'estimateur de la variance de l'échantillonnage fondé sur l'imputation multiple avec un nombre infini d'imputations.

    Cette méthodologie est l'essence même de la version 2.0 du Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), qui est en cours de développement à Statistique Canada. Au moyen du SEVANI, nous allons illustrer notre méthode par le biais d'un exemple fondé sur des données réelles.

    Date de diffusion : 2009-08-11

Date de modification :