Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

79 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

79 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

79 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

79 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (130)

Tout (130) (25 of 130 results)

  • Articles et rapports : 12-001-X201700114836
    Description :

    La collecte de données par sondage axée sur le Web, qui consiste à prendre contact avec les enquêtés par la poste pour leur demander de répondre par Internet et à retenir les autres modes de réponse jusqu’à un stade ultérieur du processus de mise en œuvre, a connu un essor rapide au cours de la dernière décennie. Le présent article décrit les raisons pour lesquelles cette combinaison novatrice de modes de prise de contact et de réponse aux enquêtes était nécessaire, les principales étant la diminution de l’efficacité de la téléphonie vocale et l’élaboration plus lente que prévu de méthodes de collecte de données par courriel/Internet uniquement. Les obstacles historiques et institutionnels à cette combinaison de modes d’enquête sont également examinés. Vient ensuite une description de la recherche fondamentale sur l’utilisation des listes d’adresses postales aux États-Unis, ainsi que les effets de la communication auditive et visuelle sur la mesure par sondage, suivie d’une discussion des efforts expérimentaux en vue de créer une méthodologie axée sur le Web comme remplacement viable des enquêtes à réponse par téléphone ou par la poste. De nombreux exemples d’usage courant ou prévu de la collecte de données axée sur le Web sont fournis. L’article se termine par une discussion des promesses et des défis considérables qui résultent du recours plus important aux méthodes d’enquête axées sur le Web.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Produits techniques : 11-522-X201700014751
    Description :

    Pratiquement tous les grands détaillants utilisent des lecteurs optiques pour enregistrer de l’information sur les transactions avec leurs clients (consommateurs). Ces données comprennent habituellement un code de produits, une brève description, un prix et une quantité vendue. Il s’agit d’une source hautement pertinente pour les programmes statistiques comme l’Indice des prix à la consommation (IPC) de Statistique Canada, l’un des plus importants indicateurs économiques au pays. L’utilisation des données de lecteurs optiques pourrait améliorer la qualité de l’IPC par, entre autres, l’augmentation du nombre de prix utilisés dans les calculs, une plus grande couverture géographique et l’utilisation des quantités vendues, tout en réduisant les coûts de collecte. Cependant, l’utilisation de ces données présente de nombreux défis. L’exploration de données de lecteurs optiques obtenues auprès d’un premier détaillant a démontré un taux de changement élevé au cours d’une année parmi les codes identifiant les produits. Les conséquences de ces changements posent des défis d’un point de vue de la classification des produits et de la qualité des estimations. Cet article se concentrera sur les enjeux reliés à l’acquisition, la classification et l’exploration de ces données afin d’évaluer la qualité pour leur utilisation dans l’IPC.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014757
    Description :

    Le Système de santé unifié brésilien (SUS) a été créé en 1988 et, afin d’organiser les systèmes d’information sur la santé et les bases de données déjà utilisées, une banque de données unifiée (DataSUS) a été créée en 1991. Les fichiers de DataSUS sont facilement disponibles sur Internet. L’accès à ces données et leur consultation se font actuellement au moyen d’un nombre limité de tableaux personnalisés et de diagrammes simples, qui ne répondent pas entièrement aux besoins des gestionnaires de la santé et des autres utilisateurs, qui souhaitent un outil souple et facile à utiliser, qui peut tenir compte des différents aspects de la santé qui les concernent, en vue de la recherche de connaissances et de la prise de décisions. Le projet actuel propose la production mensuelle interactive de rapports épidémiologiques synthétiques, qui sont non seulement facilement accessibles, mais aussi faciles à interpréter et à comprendre. L’accent est mis sur la visualisation des données, grâce à des diagrammes et des cartes plus informatifs.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014743
    Description :

    Le couplage probabiliste est susceptible de donner des erreurs d’appariement telles que les faux positifs et les faux négatifs . Dans de nombreux cas, ces erreurs peuvent être mesurées fiablement par des vérifications manuelles, c’est-à-dire l’inspection visuelle d’un échantillon de paires d’enregistrements pour déterminer si elles sont appariées. Nous décrivons un cadre pour la bonne exécution de ces vérifications qui se fonde sur un échantillon probabiliste de paires, des vérifications indépendantes répétées de mêmes paires et une analyse de classes latentes pour tenir compte des erreurs de vérification manuelle.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014726
    Description :

    La migration interne constitue l’une des composantes de l’accroissement démographique estimées à Statistique Canada. Elle est estimée en comparant l’adresse des individus au début et à la fin d’une période donnée. Les principales données exploitées sont celles de la Prestation fiscale canadienne pour enfants et celles du fichier T1 sur la famille. La qualité des adresses et la couverture de sous-populations plus mobiles jouent un rôle capital dans le calcul d’estimations de bonne qualité. L’objectif de cet article est de présenter les résultats d’évaluations reliées à ces aspects, profitant de l’accès à un plus grand nombre de sources de données fiscales à Statistique Canada.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501114243
    Description :

    Un outil de surveillance a été élaboré afin d’évaluer les données sur l’apport alimentaire recueillies dans le cadre d’enquêtes en fonction de Bien manger avec le Guide alimentaire canadien (GAC). L’outil permet de classer les aliments du Fichier canadien sur les éléments nutritifs (FCÉN) en fonction de leur degré de conformité avec les recommandations du GAC. Le présent article décrit l’exercice de validation effectué pour s’assurer que les aliments du FCÉN considérés « conformes aux recommandations du GAC » aient été classés de façon appropriée.

    Date de diffusion : 2015-11-18

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014265
    Description :

    Le couplage d’enregistrements exact est un outil essentiel à l’exploitation des fichiers administratifs, surtout quand on étudie les relations entre de nombreuses variables qui ne sont pas toutes contenues dans un fichier administratif unique. L’objectif est de trouver des paires d’enregistrements associées à une même personne ou entité. Le résultat est un fichier couplé qui peut être utilisé pour estimer les paramètres de population, y compris les totaux et les ratios. Malheureusement, le processus de couplage est complexe et sujet à erreurs parce qu’il s’appuie habituellement sur des variables d’appariement qui ne sont pas uniques et qui peuvent être consignées avec des erreurs. Par conséquent, le fichier couplé contient des erreurs d’appariement, y compris des appariements incorrects d’enregistrements non apparentés et des appariements manquants d’enregistrements apparentés. Ces erreurs peuvent donner lieu à des estimateurs biaisés s’il n’en est pas tenu compte dans le processus d’estimation. Dans le cadre de travaux antérieurs dans ce domaine, ces erreurs ont été prises en considération au moyen d’hypothèses au sujet de leur distribution. En général, la distribution supposée est en fait une approximation très grossière de la distribution réelle, en raison de la complexité intrinsèque du processus de couplage. Donc, les estimateurs résultants peuvent présenter un biais. Un nouveau cadre méthodologique, fondé sur la théorie classique des sondages, est proposé pour obtenir des estimateurs fondés sur le plan de sondage à partir de fichiers administratifs d’enregistrements couplés. Il comprend trois étapes. Pour commencer, on tire un échantillon probabiliste de paires d’enregistrements. Ensuite, on procède à un examen manuel de toutes les paires échantillonnées. Enfin, on calcule des estimateurs fondés sur le plan de sondage en fonction des résultats de l’examen. Cette méthodologie mène à des estimateurs dont l’erreur d’échantillonnage est fondée sur le plan de sondage, même si le processus repose uniquement sur deux fichiers administratifs. Elle s’écarte des travaux antérieurs s’appuyant sur un modèle et fournit des estimateurs plus robustes. Ce résultat est obtenu en plaçant les examens manuels au coeur du processus d’estimation. Le recours aux examens manuels est essentiel, parce qu’il s’agit de fait d’une norme de référence en ce qui a trait à la qualité des décisions au sujet des appariements. Le cadre proposé peut également être appliqué à l’estimation au moyen de données administratives et de données d’enquête couplées.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014261
    Description :

    Les instituts nationaux de statistique sont confrontés à une double exigence difficile à concilier. D’un côté, ils doivent fournir des informations toujours plus précises sur des sujets spécifiques, des populations difficiles d’accès ou minoritaires, avec des protocoles innovants permettant d’objectiver la mesure ou d’assurer sa confidentialité, etc. D’un autre côté, ils doivent faire face à des restrictions budgétaires dans un contexte où les ménages sont de plus en plus difficiles à joindre. Cette double injonction n’est pas sans effet sur la qualité des enquêtes, qualité au sens large, c’est-à-dire non seulement en termes de précision mais encore en termes de pertinence, comparabilité, cohérence, clarté, fraîcheur. Compte tenu du faible coût de la collecte par internet et de la très large diffusion d’internet au sein de la population, ces instituts voient dans ce mode de collecte moderne une solution pour résoudre leurs problèmes. Ainsi, le développement du recours à la collecte par internet, et plus généralement à la collecte multimode, serait la solution pour maximiser la qualité d’enquête, en particulier en termes d’erreur d’enquête totale, en faisant face aux problèmes de couverture, d’échantillonnage, de non-réponse ou de mesure, tout en respectant ces contraintes budgétaires. Cependant, si la collecte par internet est un mode peu coûteux, elle pose des problèmes méthodologiques non négligeables : couverture, auto-sélection ou biais de sélection, non-réponse et les difficultés de sa correction, « satisficing », etc. Aussi, avant de développer ou généraliser l’utilisation du multimode, l’Insee s’est lancé dans une vaste opération d’expérimentations afin d’étudier ces différentes questions méthodologiques, dont les premiers résultats montrent que le multimode est à la fois source de solutions et de nouveaux problèmes méthodologiques.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014287
    Description :

    Le dispositif EpiNano vise à surveiller les travailleurs potentiellement exposés aux nanomatériaux intentionnellement produits en France. Ce dispositif est basé, d’une part, sur les données d’hygiène industrielle recueillies au sein des entreprises afin de caractériser l’exposition aux nanomatériaux des postes de travail et d’autre part celles issues d’auto-questionnaires complétés par les participants. Ces données seront ensuite appariées aux données de santé des bases médico-administratives nationales (suivi passif des évènements de santé). Des questionnaires de suivi seront soumis régulièrement aux participants. Les modalités mises en place afin d’optimiser la collecte et l’appariement des données sont décrites.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014255
    Description :

    Le Centre d’information de réseau brésilien (NIC.br) a conçu et mené un projet pilote pour recueillir des données sur le Web, afin de produire des statistiques concernant les caractéristiques des pages Web. Les études des caractéristiques et des dimensions du Web exigent la collecte et l’analyse de données dans un environnement dynamique et complexe. L’idée de base est de recueillir des données sur un échantillon de pages Web, automatiquement, en utilisant le logiciel appelé moteur de recherche Web. Le présent article vise à diffuser les méthodes et les résultats de cette étude, ainsi qu’à démontrer les progrès actuels liés aux techniques d’échantillonnage dans un environnement dynamique.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014283
    Description :

    Le projet Methodologies for an integrated use of administrative data (MIAD) du Réseau statistique a pour but d’élaborer des méthodologies en vue d’un usage intégré des données administratives (DA) dans le processus statistique. Le principal objectif du projet MIAD est de fournir des lignes directrices pour l’exploitation des DA à des fins statistiques. En particulier, les membres du projet ont élaboré un cadre de la qualité, ont fourni une représentation des utilisations possibles des DA et proposé un schéma des différents contextes informatifs. Le présent article est axé sur ce dernier aspect. En particulier, nous faisons la distinction entre les dimensions en rapport avec les caractéristiques de la source associées à l’accessibilité, d’une part, et les caractéristiques associées à la structure des DA et à leurs liens avec les concepts statistiques, d’autre part. Nous désignons la première catégorie de caractéristiques comme étant le cadre de l’accès et la deuxième catégorie de caractéristiques comme étant le cadre des données. Dans le présent article, nous nous concentrons principalement sur la deuxième catégorie de caractéristiques qui sont reliées spécifiquement au type d’information qui peut être obtenu à partir de la source secondaire. En particulier, ces caractéristiques ont trait à la population administrative cible et à la mesure de cette population ainsi que la façon dont elle est (ou pourrait être) liée à la population cible et aux concepts statistiques cibles.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014258
    Description :

    L’Enquête sur la consommation de carburant (ECC) a été créée en 2013 et est une enquête nationale trimestrielle qui est conçue pour analyser la distance parcourue et la consommation d’essence des véhicules de passagers et d’autres véhicules pesant moins de 4 500 kilogrammes. La base de sondage est constituée de véhicules extraits des fichiers d’immatriculation de véhicules qui sont conservés par les ministères provinciaux. L’ECC utilise des puces de voiture comme mode de collecte pour une partie des unités échantillonnées, afin de recueillir des données sur les déplacements et l’essence consommée. L’utilisation de cette nouvelle technologie comporte de nombreux avantages, par exemple, la réduction du fardeau de réponse, des coûts de collecte et des effets sur la qualité des données. Pour les trimestres de 2013, 95 % des unités échantillonnées ont reçu des questionnaires papier, et 5 %, des puces de voiture, et au T1 de 2014, les données de 40 % des unités échantillonnées ont été recueillies au moyen de puces de voiture. Cette étude décrit la méthodologie du processus d’enquête, examine les avantages et les défis du traitement et de l’imputation pour les deux modes de collecte, présente certains résultats initiaux et conclut avec un sommaire des leçons apprises.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014269
    Description :

    L’Étude sur le surdénombrement du recensement (ESR) est une étude essentielle de mesure postcensitaire de la couverture. Son principal objectif est de produire des estimations du nombre de personnes dénombrées de façon erronée, selon la province et le territoire, et d’examiner les caractéristiques des personnes dénombrées plus d’une fois, afin de déterminer les raisons possibles de ces erreurs. L’ESR est fondée sur l’échantillonnage et l’examen manuel de groupes d’enregistrements reliés, qui sont le résultat d’un couplage de la base de données des réponses du recensement et d’une base administrative. Dans cette communication, nous décrivons la nouvelle méthodologie de l’ESR de 2011. De nombreuses améliorations ont été apportées à cette méthodologie, y compris une plus grande utilisation du couplage d’enregistrements probabiliste, l’estimation de paramètres de couplage au moyen d’un algorithme espérance-maximisation (EM), et l’utilisation efficace de données sur les ménages pour déceler davantage de cas de surdénombrement.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014263
    Description :

    Recueillir des données par Internet ou par la poste auprès d’unités échantillonnées est plus économique que le faire par interview. Ces méthodes font de l’autodénombrement une approche de collecte des données intéressante pour les enquêtes et les recensements. En dépit de ses avantages, la collecte de données par autodénombrement, en particulier la collecte de données par Internet, peut produire des taux de réponse plus faibles que ceux obtenus par interview. Pour accroître les taux de réponse, on soumet les non-répondants à un mode mixte de traitements de suivi, qui influent sur la probabilité résultante de réponse, afin de les encourager à participer. Les analyses de régression comprennent habituellement des facteurs et des interactions qui ont une incidence importante sur l’interprétation des modèles statistiques. Comme l’occurrence d’une réponse est intrinsèquement conditionnelle, nous commençons par enregistrer l’occurrence des réponses en intervalles discrets, et nous caractérisons la probabilité de réponse comme étant un risque en temps discret. Cette approche facilite l’examen du moment où une réponse est la plus susceptible d’avoir lieu et de la façon dont la probabilité de réponse varie au fil du temps. Le biais de non-réponse peut être évité en multipliant le poids d’échantillonnage des répondants par l’inverse d’une estimation de la probabilité de réponse. Les estimateurs des paramètres du modèle, ainsi que des paramètres de la population finie sont présentés. Les résultats de simulations en vue d’évaluer la performance des estimateurs proposés sont également présentés.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014288
    Description :

    Les enquêtes probabilistes, c’est-à-dire celles réalisées à partir d’échantillons sélectionnés selon un mécanisme aléatoire connu, sont considérées par plusieurs comme étant la norme par excellence comparativement aux enquêtes réalisées à partir d’échantillons non probabilistes. La théorie de l’échantillonnage probabiliste a vu le jour au début des années 1930 et sert encore aujourd’hui à prouver le bien-fondé d’estimer les valeurs d’une quelconque population à partir des données de ces enquêtes. Les études sur les échantillons non probabilistes, quant à elles, ont retenu davantage l’attention ces dernières années, mais elles ne sont pas nouvelles. Vantées comme étant moins coûteuses, plus rapides (voire meilleures) que les études avec plan probabiliste, ces enquêtes s’appuient, pour recruter les participants, sur diverses méthodes « de terrain » (p. ex., enquête en ligne à participation volontaire). Mais, quel type d’enquêtes est le meilleur? Le présent article est le premier d’une série portant sur la recherche d’un cadre de la qualité permettant de mesurer toutes les enquêtes, probabilistes ou non, en les plaçant davantage sur un pied d’égalité. D’abord, nous donnons un aperçu de quelques cadres utilisés à l’heure actuelle, en notant que le terme « meilleur » se rapporte presque toujours à la notion « d’adaptation de l’enquête à son but poursuivi » (fit for purpose). Ensuite, nous nous concentrons sur la question de la validité, surtout la validité externe, lorsque des estimations pour la population sont souhaitées. Nous passons en revue les techniques d’estimation appliquées jusqu’à présent aux enquêtes non probabilistes, ainsi que quelques études comparant ces estimations à celles obtenues avec un échantillon probabiliste. Enfin, nous décrivons les prochaines étapes de recherche et concluons par quelques remarques.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014273
    Description :

    De plus en plus de données sont produites au moyen du nombre croissant de dispositifs électroniques qui nous entourent et que l’on retrouve sur Internet. La grande quantité de données et la fréquence élevée à laquelle elles sont produites ont donné lieu à l’introduction du terme « mégadonnées ». Compte tenu du fait que ces données rendent compte de nombreux aspects différents de nos vies au quotidien, et en raison de leur abondance et de leur disponibilité, les sources de mégadonnées sont très intéressantes du point de vue des statistiques officielles. Toutefois, les premières expériences obtenues suite aux analyses de grandes quantités d’enregistrements de boucles de détection de véhicules au Pays-Bas, d’enregistrements des détails des appels de téléphones mobiles et de messages des médias sociaux aux Pays-Bas révèlent qu’un certain nombre de défis doivent être résolus pour permettre l’application de ces sources de données aux statistiques officielles. Ces défis, ainsi que les leçons apprises pendant les études initiales, seront traitées et illustrées au moyen d’exemples. De façon plus particulière, les sujets suivants sont abordés : les trois types généraux de mégadonnées définis, la nécessité d’accéder à des quantités importantes de données et de les analyser, la façon de traiter les données qui comportent du bruit et d’aborder la sélectivité (ainsi que notre propre biais concernant ce sujet), comment aller au-delà de la corrélation, la façon de trouver les personnes ayant les compétences adéquates et la bonne attitude pour exécuter ce travail, et comment nous avons traité les problèmes de protection des renseignements personnels et de sécurité.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211869
    Description :

    Statistics Netherlands s'appuie sur la méthode du ratio prix de vente-évaluation ou méthode SPAR (pour Sale Price Appraisal Ratio) pour produire son indice des prix des logements. Cette méthode combine les prix de vente aux évaluations foncières faites par l'administration publique. Le présent article décrit une approche de rechange dans laquelle les évaluations foncières servent d'information auxiliaire dans un cadre de régression généralisée (GREG). Une application aux données des Pays Bas montre que, même si l'indice GREG est plus lisse que le ratio des moyennes d'échantillon, il donne une série très semblable à la série SPAR. Pour expliquer ce résultat, nous montrons que l'indice SPAR est un estimateur de notre indice GREG plus général et qu'en pratique, il est presque aussi efficace.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211888
    Description :

    Lorsque les variables étudiées sont fonctionnelles et que les capacités de stockage sont limitées ou que les coûts de transmission sont élevés, les sondages, qui permettent de sélectionner une partie des observations de la population, sont des alternatives intéressantes aux techniques de compression du signal. Notre étude est motivée, dans ce contexte fonctionnel, par l'estimation de la courbe de charge électrique moyenne sur une période d'une semaine. Nous comparons différentes stratégies d'estimation permettant de prendre en compte une information auxiliaire telle que la consommation moyenne de la période précédente. Une première stratégie consiste à utiliser un plan de sondage aléatoire simple sans remise, puis de prendre en compte l'information auxiliaire dans l'estimateur en introduisant un modèle linéaire fonctionnel. La seconde approche consiste à incorporer l'information auxiliaire dans les plans de sondage en considérant des plans à probabilités inégales tels que les plans stratifiés et les plans pi. Nous considérons ensuite la question de la construction de bandes de confiance pour ces estimateurs de la moyenne. Lorsqu'on dispose d'estimateurs performants de leur fonction de covariance et si l'estimateur de la moyenne satisfait un théorème de la limite centrale fonctionnel, il est possible d'utiliser une technique rapide de construction de bandes de confiance qui repose sur la simulation de processus Gaussiens. Cette approche est comparée avec des techniques de bootstrap qui ont été adaptées afin de tenir compte du caractère fonctionnel des données.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201200211756
    Description :

    Nous proposons une nouvelle approche d'estimation sur petits domaines fondée sur la modélisation conjointe des moyennes et des variances. Le modèle et la méthodologie que nous proposons améliorent non seulement les estimateurs sur petits domaines, mais donnent aussi des estimateurs « lissés » des vraies variances d'échantillonnage. Le maximum de vraisemblance des paramètres du modèle est estimé au moyen de l'algorithme EM en raison de la forme non classique de la fonction de vraisemblance. Les intervalles de confiance des paramètres de petit domaine sont obtenus en adoptant une approche de la théorie de la décision plus générale que l'approche classique de minimisation de la perte quadratique. Les propriétés numériques de la méthode proposée sont étudiées au moyen d'études par simulation et comparées à celles de méthodes concurrentes proposées dans la littérature. Une justification théorique des propriétés effectives des estimateurs et intervalles de confiance résultants est également présentée.

    Date de diffusion : 2012-12-19

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (73)

Analyses (73) (25 of 73 results)

  • Articles et rapports : 12-001-X201700114836
    Description :

    La collecte de données par sondage axée sur le Web, qui consiste à prendre contact avec les enquêtés par la poste pour leur demander de répondre par Internet et à retenir les autres modes de réponse jusqu’à un stade ultérieur du processus de mise en œuvre, a connu un essor rapide au cours de la dernière décennie. Le présent article décrit les raisons pour lesquelles cette combinaison novatrice de modes de prise de contact et de réponse aux enquêtes était nécessaire, les principales étant la diminution de l’efficacité de la téléphonie vocale et l’élaboration plus lente que prévu de méthodes de collecte de données par courriel/Internet uniquement. Les obstacles historiques et institutionnels à cette combinaison de modes d’enquête sont également examinés. Vient ensuite une description de la recherche fondamentale sur l’utilisation des listes d’adresses postales aux États-Unis, ainsi que les effets de la communication auditive et visuelle sur la mesure par sondage, suivie d’une discussion des efforts expérimentaux en vue de créer une méthodologie axée sur le Web comme remplacement viable des enquêtes à réponse par téléphone ou par la poste. De nombreux exemples d’usage courant ou prévu de la collecte de données axée sur le Web sont fournis. L’article se termine par une discussion des promesses et des défis considérables qui résultent du recours plus important aux méthodes d’enquête axées sur le Web.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501114243
    Description :

    Un outil de surveillance a été élaboré afin d’évaluer les données sur l’apport alimentaire recueillies dans le cadre d’enquêtes en fonction de Bien manger avec le Guide alimentaire canadien (GAC). L’outil permet de classer les aliments du Fichier canadien sur les éléments nutritifs (FCÉN) en fonction de leur degré de conformité avec les recommandations du GAC. Le présent article décrit l’exercice de validation effectué pour s’assurer que les aliments du FCÉN considérés « conformes aux recommandations du GAC » aient été classés de façon appropriée.

    Date de diffusion : 2015-11-18

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211869
    Description :

    Statistics Netherlands s'appuie sur la méthode du ratio prix de vente-évaluation ou méthode SPAR (pour Sale Price Appraisal Ratio) pour produire son indice des prix des logements. Cette méthode combine les prix de vente aux évaluations foncières faites par l'administration publique. Le présent article décrit une approche de rechange dans laquelle les évaluations foncières servent d'information auxiliaire dans un cadre de régression généralisée (GREG). Une application aux données des Pays Bas montre que, même si l'indice GREG est plus lisse que le ratio des moyennes d'échantillon, il donne une série très semblable à la série SPAR. Pour expliquer ce résultat, nous montrons que l'indice SPAR est un estimateur de notre indice GREG plus général et qu'en pratique, il est presque aussi efficace.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211888
    Description :

    Lorsque les variables étudiées sont fonctionnelles et que les capacités de stockage sont limitées ou que les coûts de transmission sont élevés, les sondages, qui permettent de sélectionner une partie des observations de la population, sont des alternatives intéressantes aux techniques de compression du signal. Notre étude est motivée, dans ce contexte fonctionnel, par l'estimation de la courbe de charge électrique moyenne sur une période d'une semaine. Nous comparons différentes stratégies d'estimation permettant de prendre en compte une information auxiliaire telle que la consommation moyenne de la période précédente. Une première stratégie consiste à utiliser un plan de sondage aléatoire simple sans remise, puis de prendre en compte l'information auxiliaire dans l'estimateur en introduisant un modèle linéaire fonctionnel. La seconde approche consiste à incorporer l'information auxiliaire dans les plans de sondage en considérant des plans à probabilités inégales tels que les plans stratifiés et les plans pi. Nous considérons ensuite la question de la construction de bandes de confiance pour ces estimateurs de la moyenne. Lorsqu'on dispose d'estimateurs performants de leur fonction de covariance et si l'estimateur de la moyenne satisfait un théorème de la limite centrale fonctionnel, il est possible d'utiliser une technique rapide de construction de bandes de confiance qui repose sur la simulation de processus Gaussiens. Cette approche est comparée avec des techniques de bootstrap qui ont été adaptées afin de tenir compte du caractère fonctionnel des données.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201200211756
    Description :

    Nous proposons une nouvelle approche d'estimation sur petits domaines fondée sur la modélisation conjointe des moyennes et des variances. Le modèle et la méthodologie que nous proposons améliorent non seulement les estimateurs sur petits domaines, mais donnent aussi des estimateurs « lissés » des vraies variances d'échantillonnage. Le maximum de vraisemblance des paramètres du modèle est estimé au moyen de l'algorithme EM en raison de la forme non classique de la fonction de vraisemblance. Les intervalles de confiance des paramètres de petit domaine sont obtenus en adoptant une approche de la théorie de la décision plus générale que l'approche classique de minimisation de la perte quadratique. Les propriétés numériques de la méthode proposée sont étudiées au moyen d'études par simulation et comparées à celles de méthodes concurrentes proposées dans la littérature. Une justification théorique des propriétés effectives des estimateurs et intervalles de confiance résultants est également présentée.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 82-003-X201100111404
    Description :

    La présente étude vise à évaluer trois échelles de comportement parental déclaré par l'enfant (nurturance, rejet et surveillance) utilisées dans l'Enquête nationale longitudinale sur les enfants et les jeunes.

    Date de diffusion : 2011-02-16

  • Articles et rapports : 12-001-X201000211380
    Description :

    Diverses formes d'estimateurs de variance par linéarisation pour les estimateurs par calage généralisé sont définies en choisissant différents poids à appliquer a) aux résidus et b) aux coefficients de régression estimés utilisés dans le calcul des résidus. Des éléments de théorie sont présentés pour trois formes de l'estimateur par calage généralisé, à savoir l'estimateur par ratissage croisé classique, l'estimateur par calage basé sur le « maximum de vraisemblance » et l'estimateur par la régression généralisée, ainsi que pour les estimateurs de variance par linéarisation connexes. Une étude par simulation est effectuée en se servant des données d'une enquête sur la population active et d'une enquête sur les revenus et dépenses. Les propriétés des estimateurs sont évaluées en fonction de l'échantillonnage ainsi que de la non-réponse. L'étude révèle peu de différences entre les propriétés des divers estimateurs par calage pour un plan d'échantillonnage et un modèle de non-réponse donnés. En ce qui concerne les estimateurs de variance, l'approche consistant à pondérer les résidus par les poids de sondage peut être fortement biaisée en présence de non-réponse. L'approche de pondération des résidus par les poids calés a tendance à produire un biais nettement plus faible. Le choix de différents types de poids pour produire les coefficients de régression a peu d'incidence.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000211381
    Description :

    Les méthodes de linéarisation de Taylor sont souvent utilisées pour obtenir des estimateurs de la variance d'estimateurs par calage de totaux et de paramètres de population finie (ou de recensement) non linéaires, tels que des ratios ou des coefficients de régression et de corrélation, qui peuvent être exprimés sous forme de fonctions lisses de totaux. La linéarisation de Taylor s'applique généralement à tout plan d'échantillonnage, mais elle peut produire de multiples estimateurs de la variance qui sont asymptotiquement sans biais par rapport au plan en cas d'échantillonnage répété. Le choix parmi les estimateurs de variance doit donc s'appuyer sur d'autres critères, tels que i) l'absence approximative de biais dans la variance par rapport au modèle de l'estimateur obtenu sous un modèle hypothétique et ii) la validité sous échantillonnage répété conditionnel. Demnati et Rao (2004) ont proposé une méthode unifiée de calcul des estimateurs de variance par linéarisation de Taylor produisant directement un estimateur de variance unique qui satisfait aux critères susmentionnés pour des plans de sondage généraux. Dans l'analyse des données d'enquête, on suppose généralement que les populations finies sont générées au moyen de modèles de superpopulation et l'on s'intéresse aux inférences analytiques concernant les paramètres de ces modèles. Si les fractions d'échantillonnage sont faibles, la variance d'échantillonnage reflète presque toute la variation due aux processus aléatoires liés au plan de sondage et au modèle. Par contre, si les fractions d'échantillonnage ne sont pas négligeables, il faut tenir compte de la variance du modèle pour construire des inférences valides concernant les paramètres du modèle sous le processus combiné de génération de la population finie à partir du modèle hypothétique de superpopulation et de sélection de l'échantillon conformément au plan de l'échantillonnage spécifié. Dans le présent article, nous obtenons un estimateur de la variance totale selon l'approche de Demnati-Rao en supposant que les caractéristiques d'intérêt sont des variables aléatoires générées au moyen d'un modèle de superpopulation. Nous illustrons la méthode à l'aide d'estimateurs par le ratio et d'estimateurs définis comme des solutions d'équations d'estimation pondérées par calage. Nous présentons aussi les résultats de simulations en vue de déterminer la performance de l'estimateur de variance proposé pour les paramètres du modèle.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000111251
    Description :

    Les méthodes de calage, telles que la poststratification, s'appuient sur de l'information auxiliaire pour accroître l'efficacité des estimations par sondage. L'hypothèse est que les totaux de contrôle, en fonction desquels les poids de sondage sont poststratifiés (ou calés), sont les valeurs de population. Toutefois, les totaux de contrôle sont souvent estimés d'après d'autres enquêtes. De nombreux chercheurs appliquent les estimateurs classiques d'estimation de la variance par poststratification à des situations où les totaux de contrôle sont estimés, supposant donc que toute variance d'échantillonnage supplémentaire associée à ces totaux estimés est négligeable. Le but de l'étude présentée ici est d'évaluer des estimateurs de la variance pour des plans de sondage stratifiés à plusieurs degrés, sous une poststratification en fonction de totaux de contrôle estimés (CE) en utilisant des valeurs de contrôle sans biais par rapport au plan. Nous comparons les propriétés théoriques et empiriques des estimateurs de variance par linéarisation et par le jackknife pour un estimateur poststratifié d'un total de population. Nous donnons des exemples des effets qu'ont sur les variances divers niveaux de précision des totaux de contrôle estimés. Notre étude donne à penser que i) les estimateurs de variance classiques peuvent sous-estimer considérablement la variance théorique et que ii) deux estimateurs de variance par poststratification CE peuvent atténuer le biais négatif.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200900211039
    Description :

    La pondération par la propension à répondre est une méthode de rajustement pour tenir compte de la non-réponse totale dans les enquêtes. Une forme de mise en oeuvre de cette méthode consiste à diviser les poids d'échantillonnage par les estimations de la probabilité que les unités échantillonnées répondent à l'enquête. Habituellement, ces estimations sont obtenues par ajustement de modèles paramétriques, tels qu'une régression logistique. Les estimateurs corrigés résultants peuvent devenir biaisés si les modèles paramétriques sont spécifiés incorrectement. Afin d'éviter les erreurs de spécification du modèle, nous considérons l'estimation non paramétrique des probabilités de réponse par la régression par polynômes locaux. Nous étudions les propriétés asymptotiques de l'estimateur résultant sous quasi randomisation. Nous évaluons en pratique le comportement de la méthode proposée de correction de la non-réponse en nous servant de données de la NHANES.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200800210762
    Description :

    Le présent article porte sur le traitement de la répartition optimale dans l'échantillonnage stratifié multivarié comme une optimisation matricielle non linéaire en nombres entiers. Un problème non linéaire d'optimisation multi-objectifs en nombres entiers est étudié à titre de cas particulier. Enfin, un exemple détaillé, y compris certaines méthodes proposées, est donné à la fin de l'exposé.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 82-003-S200700010364
    Description :

    Le présent article décrit comment ont été abordées les questions éthiques, juridiques et sociales (QEJS) qu'a soulevées le développement de l'Enquête canadienne sur les mesures de la santé. L'établissement des procédures appropriées et leur justification sont exposés en détail pour des QEJS particulières.

    Date de diffusion : 2007-12-05

  • Articles et rapports : 12-001-X20070019847
    Description :

    Nous étudions l'effet de l'échantillonnage en grappes sur les erreurs-types dans l'analyse des données d'enquête longitudinale. Nous considérons une classe de modèles de régression pour données longitudinales d'usage très répandu et une classe standard d'estimateurs ponctuels de type moindres carrés généralisés. Nous soutenons théoriquement que l'effet de la non prise en compte de la mise en grappes dans l'estimation de l'erreur type a tendance à augmenter avec le nombre de vagues de l'enquête incluses dans l'analyse, sous certains scénarios de mise en grappes raisonnables pour de nombreuses enquêtes sociales. La conséquence est qu'en général, il est au moins aussi important de tenir compte de la mise en grappes dans le calcul des erreurs types dans le cas des analyses longitudinales que dans celui des analyses transversales. Nous illustrons cet argument théorique à l'aide des résultats empiriques d'une analyse par régression de données longitudinales sur les attitudes à l'égard des rôles de l'homme et de la femme provenant de l'enquête par panel menée auprès des ménages au Royaume-Uni (British Household Panel Survey). Nous comparons aussi deux approches d'estimation de la variance dans l'analyse des données d'enquête longitudinale, à savoir une approche par plan de sondage basée sur la linéarisation et une approche par modélisation multiniveaux. Nous concluons que l'effet de la mise en grappes peut être sérieusement sous estimé si l'on se contente, en vue d'en tenir compte, d'inclure un effet aléatoire additif pour représenter la mise en grappes dans un modèle multiniveaux.

    Date de diffusion : 2007-06-28

  • Articles et rapports : 12-001-X20060029554
    Description :

    L'échantillonnage en vue d'estimer un indice des prix à la consommation (IPC) est assez compliqué et requiert généralement la combinaison de données provenant d'au moins deux enquêtes, l'une donnant les prix et l'autre, la pondération par les dépenses. Deux approches fondamentalement différentes du processus d'échantillonnage - l'échantillonnage probabiliste et l'échantillonnage par choix raisonné - ont été vivement recommandées et sont utilisées par divers pays en vue de recueillir les données sur les prix. En construisant un petit « univers » d'achats et de prix à partir de données scannées sur les céréales, puis en simulant diverses méthodes d'échantillonnage et d'estimation, nous comparons les résultats de deux approches du plan de sondage et de l'estimation, à savoir l'approche probabiliste adoptée aux États Unis et l'approche par choix raisonné adoptée au Royaume Uni. Pour la même quantité d'information recueillie, mais avec l'utilisation d'estimateurs différents, les méthodes du Royaume Uni semblent offrir une meilleure exactitude globale du ciblage d'un indice superlatif des prix à la consommation basé sur la population.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060029552
    Description :

    On doit procéder à une enquête portant sur la fréquentation touristique d'origine intra ou extra-régionale en Bretagne. Pour des raisons matérielles concrètes, les « enquêtes aux frontières » ne peuvent plus s'organiser. Le problème majeur est l'absence de base de sondage permettant d'atteindre directement les touristes. Pour contourner ce problème, on applique la méthode d'échantillonnage indirect dont la pondération est obtenue par la méthode généralisée de partage des poids développée récemment par Lavallée (1995), Lavallée (2002), Deville (1999) et présentée également dans Lavallée et Caron (2001). Cet article montre comment adapter cette méthode à l'enquête. Certaines extensions s'avèrent nécessaires. On développera l'une d'elle destinée à estimer le total d'une population dont on a tiré un échantillon bernoullien.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060029551
    Description :

    Lorsqu'on veut sélectionner un échantillon, il arrive qu'au lieu de disposer d'une base de sondage contenant les unités de collecte souhaitées, on ait accès à une base de sondage contenant des unités liées d'une certaine façon à la liste d'unités de collecte. On peut alors envisager de sélectionner un échantillon dans la base de sondage disponible afin de produire une estimation pour la population cible souhaitée en s'appuyant sur les liens qui existent entre les deux. On donne à cette approche le nom de sondage indirect.

    L'estimation des caractéristiques de la population cible étudiée par sondage indirect peut poser un défi de taille, en particulier si les liens entre les unités des deux populations ne sont pas bijectifs. Le problème vient surtout de la difficulté à associer une probabilité de sélection, ou un poids d'estimation, aux unités étudiées de la population cible. La méthode généralisée du partage des poids (MGPP) a été mise au point par Lavallée (1995) et Lavallée (2002) afin de résoudre ce genre de problème d'estimation. La MGPP fournit un poids d'estimation pour chaque unité enquêtée de la population cible.

    Le présent article débute par une description du sondage indirect, qui constitue le fondement de la MGPP. En deuxième lieu, nous donnons un aperçu de la MGPP dans lequel nous la formulons dans un cadre théorique en utilisant la notation matricielle. En troisième lieu, nous présentons certaines propriétés de la MGPP, comme l'absence de biais et la transitivité. En quatrième lieu, nous considérons le cas particulier où les liens entre les deux populations sont exprimés par des variables indicatrices. En cinquième lieu, nous étudions certains liens typiques spéciaux afin d'évaluer leur effet sur la MGPP. Enfin, nous examinons le problème de l'optimalité. Nous obtenons des poids optimaux dans un sens faible (pour des valeurs particulières de la variable d'intérêt), ainsi que les conditions dans lesquelles ces poids sont également optimaux au sens fort et indépendants de la variable d'intérêt.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060019255
    Description :

    Le présent article traite de l'application du paradigme de calage à l'estimation des quantiles. La méthodologie proposée suit une approche semblable à celle qui donne lieu aux estimateurs par calage originaux de Deville et Särndal (1992). Une propriété intéressante de cette nouvelle méthodologie est qu'elle ne nécessite pas la connaissance des valeurs des variables auxiliaires pour toutes les unités de la population. Il suffit de connaître les quantiles correspondants de ces variables auxiliaires. L'adoption d'une métrique quadratique permet d'obtenir une représentation analytique des poids de calage, qui sont alors similaires à ceux menant à l'estimateur par la régression généralisée (GREG). Nous discutons de l'estimation de la variance et de la construction des intervalles de confiance. Au moyen d'une petite étude par simulation, nous comparons l'estimateur par calage à d'autres estimateurs fréquemment utilisés des quantiles qui s'appuient également sur des données auxiliaires.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20060019260
    Description :

    Nous examinons le recours à l'imputation et à la pondération pour corriger l'erreur de mesure dans l'estimation d'une fonction de distribution. Le problème qui a motivé l'étude est celui de l'estimation de la distribution de la rémunération horaire au Royaume Uni au moyen de données provenant de l'Enquête sur la population active. Les erreurs de mesure causent un biais et le but est d'utiliser des données auxiliaires, mesurées avec précision pour un sous échantillon, en vue de le corriger. Nous envisageons divers estimateurs ponctuels, fondés sur différentes approches d'imputation et de pondération, dont l'imputation fractionnaire, l'imputation par la méthode du plus proche voisin, l'appariement d'après la moyenne prévisionnelle et la pondération par le score de propension à répondre. Nous comparons ensuite ces estimateurs ponctuels d'un point de vue théorique et par simulation. Nous recommandons d'adopter une approche d'imputation fractionnaire par appariement d'après la moyenne prévisionnelle. Elle donne les mêmes résultats que la pondération par le score de propension, mais a l'avantage d'être légèrement plus robuste et efficace.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018083
    Description :

    L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

    Date de diffusion : 2005-07-21

Références (57)

Références (57) (25 of 57 results)

  • Produits techniques : 11-522-X201700014751
    Description :

    Pratiquement tous les grands détaillants utilisent des lecteurs optiques pour enregistrer de l’information sur les transactions avec leurs clients (consommateurs). Ces données comprennent habituellement un code de produits, une brève description, un prix et une quantité vendue. Il s’agit d’une source hautement pertinente pour les programmes statistiques comme l’Indice des prix à la consommation (IPC) de Statistique Canada, l’un des plus importants indicateurs économiques au pays. L’utilisation des données de lecteurs optiques pourrait améliorer la qualité de l’IPC par, entre autres, l’augmentation du nombre de prix utilisés dans les calculs, une plus grande couverture géographique et l’utilisation des quantités vendues, tout en réduisant les coûts de collecte. Cependant, l’utilisation de ces données présente de nombreux défis. L’exploration de données de lecteurs optiques obtenues auprès d’un premier détaillant a démontré un taux de changement élevé au cours d’une année parmi les codes identifiant les produits. Les conséquences de ces changements posent des défis d’un point de vue de la classification des produits et de la qualité des estimations. Cet article se concentrera sur les enjeux reliés à l’acquisition, la classification et l’exploration de ces données afin d’évaluer la qualité pour leur utilisation dans l’IPC.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014757
    Description :

    Le Système de santé unifié brésilien (SUS) a été créé en 1988 et, afin d’organiser les systèmes d’information sur la santé et les bases de données déjà utilisées, une banque de données unifiée (DataSUS) a été créée en 1991. Les fichiers de DataSUS sont facilement disponibles sur Internet. L’accès à ces données et leur consultation se font actuellement au moyen d’un nombre limité de tableaux personnalisés et de diagrammes simples, qui ne répondent pas entièrement aux besoins des gestionnaires de la santé et des autres utilisateurs, qui souhaitent un outil souple et facile à utiliser, qui peut tenir compte des différents aspects de la santé qui les concernent, en vue de la recherche de connaissances et de la prise de décisions. Le projet actuel propose la production mensuelle interactive de rapports épidémiologiques synthétiques, qui sont non seulement facilement accessibles, mais aussi faciles à interpréter et à comprendre. L’accent est mis sur la visualisation des données, grâce à des diagrammes et des cartes plus informatifs.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014743
    Description :

    Le couplage probabiliste est susceptible de donner des erreurs d’appariement telles que les faux positifs et les faux négatifs . Dans de nombreux cas, ces erreurs peuvent être mesurées fiablement par des vérifications manuelles, c’est-à-dire l’inspection visuelle d’un échantillon de paires d’enregistrements pour déterminer si elles sont appariées. Nous décrivons un cadre pour la bonne exécution de ces vérifications qui se fonde sur un échantillon probabiliste de paires, des vérifications indépendantes répétées de mêmes paires et une analyse de classes latentes pour tenir compte des erreurs de vérification manuelle.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014726
    Description :

    La migration interne constitue l’une des composantes de l’accroissement démographique estimées à Statistique Canada. Elle est estimée en comparant l’adresse des individus au début et à la fin d’une période donnée. Les principales données exploitées sont celles de la Prestation fiscale canadienne pour enfants et celles du fichier T1 sur la famille. La qualité des adresses et la couverture de sous-populations plus mobiles jouent un rôle capital dans le calcul d’estimations de bonne qualité. L’objectif de cet article est de présenter les résultats d’évaluations reliées à ces aspects, profitant de l’accès à un plus grand nombre de sources de données fiscales à Statistique Canada.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014265
    Description :

    Le couplage d’enregistrements exact est un outil essentiel à l’exploitation des fichiers administratifs, surtout quand on étudie les relations entre de nombreuses variables qui ne sont pas toutes contenues dans un fichier administratif unique. L’objectif est de trouver des paires d’enregistrements associées à une même personne ou entité. Le résultat est un fichier couplé qui peut être utilisé pour estimer les paramètres de population, y compris les totaux et les ratios. Malheureusement, le processus de couplage est complexe et sujet à erreurs parce qu’il s’appuie habituellement sur des variables d’appariement qui ne sont pas uniques et qui peuvent être consignées avec des erreurs. Par conséquent, le fichier couplé contient des erreurs d’appariement, y compris des appariements incorrects d’enregistrements non apparentés et des appariements manquants d’enregistrements apparentés. Ces erreurs peuvent donner lieu à des estimateurs biaisés s’il n’en est pas tenu compte dans le processus d’estimation. Dans le cadre de travaux antérieurs dans ce domaine, ces erreurs ont été prises en considération au moyen d’hypothèses au sujet de leur distribution. En général, la distribution supposée est en fait une approximation très grossière de la distribution réelle, en raison de la complexité intrinsèque du processus de couplage. Donc, les estimateurs résultants peuvent présenter un biais. Un nouveau cadre méthodologique, fondé sur la théorie classique des sondages, est proposé pour obtenir des estimateurs fondés sur le plan de sondage à partir de fichiers administratifs d’enregistrements couplés. Il comprend trois étapes. Pour commencer, on tire un échantillon probabiliste de paires d’enregistrements. Ensuite, on procède à un examen manuel de toutes les paires échantillonnées. Enfin, on calcule des estimateurs fondés sur le plan de sondage en fonction des résultats de l’examen. Cette méthodologie mène à des estimateurs dont l’erreur d’échantillonnage est fondée sur le plan de sondage, même si le processus repose uniquement sur deux fichiers administratifs. Elle s’écarte des travaux antérieurs s’appuyant sur un modèle et fournit des estimateurs plus robustes. Ce résultat est obtenu en plaçant les examens manuels au coeur du processus d’estimation. Le recours aux examens manuels est essentiel, parce qu’il s’agit de fait d’une norme de référence en ce qui a trait à la qualité des décisions au sujet des appariements. Le cadre proposé peut également être appliqué à l’estimation au moyen de données administratives et de données d’enquête couplées.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014261
    Description :

    Les instituts nationaux de statistique sont confrontés à une double exigence difficile à concilier. D’un côté, ils doivent fournir des informations toujours plus précises sur des sujets spécifiques, des populations difficiles d’accès ou minoritaires, avec des protocoles innovants permettant d’objectiver la mesure ou d’assurer sa confidentialité, etc. D’un autre côté, ils doivent faire face à des restrictions budgétaires dans un contexte où les ménages sont de plus en plus difficiles à joindre. Cette double injonction n’est pas sans effet sur la qualité des enquêtes, qualité au sens large, c’est-à-dire non seulement en termes de précision mais encore en termes de pertinence, comparabilité, cohérence, clarté, fraîcheur. Compte tenu du faible coût de la collecte par internet et de la très large diffusion d’internet au sein de la population, ces instituts voient dans ce mode de collecte moderne une solution pour résoudre leurs problèmes. Ainsi, le développement du recours à la collecte par internet, et plus généralement à la collecte multimode, serait la solution pour maximiser la qualité d’enquête, en particulier en termes d’erreur d’enquête totale, en faisant face aux problèmes de couverture, d’échantillonnage, de non-réponse ou de mesure, tout en respectant ces contraintes budgétaires. Cependant, si la collecte par internet est un mode peu coûteux, elle pose des problèmes méthodologiques non négligeables : couverture, auto-sélection ou biais de sélection, non-réponse et les difficultés de sa correction, « satisficing », etc. Aussi, avant de développer ou généraliser l’utilisation du multimode, l’Insee s’est lancé dans une vaste opération d’expérimentations afin d’étudier ces différentes questions méthodologiques, dont les premiers résultats montrent que le multimode est à la fois source de solutions et de nouveaux problèmes méthodologiques.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014287
    Description :

    Le dispositif EpiNano vise à surveiller les travailleurs potentiellement exposés aux nanomatériaux intentionnellement produits en France. Ce dispositif est basé, d’une part, sur les données d’hygiène industrielle recueillies au sein des entreprises afin de caractériser l’exposition aux nanomatériaux des postes de travail et d’autre part celles issues d’auto-questionnaires complétés par les participants. Ces données seront ensuite appariées aux données de santé des bases médico-administratives nationales (suivi passif des évènements de santé). Des questionnaires de suivi seront soumis régulièrement aux participants. Les modalités mises en place afin d’optimiser la collecte et l’appariement des données sont décrites.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014255
    Description :

    Le Centre d’information de réseau brésilien (NIC.br) a conçu et mené un projet pilote pour recueillir des données sur le Web, afin de produire des statistiques concernant les caractéristiques des pages Web. Les études des caractéristiques et des dimensions du Web exigent la collecte et l’analyse de données dans un environnement dynamique et complexe. L’idée de base est de recueillir des données sur un échantillon de pages Web, automatiquement, en utilisant le logiciel appelé moteur de recherche Web. Le présent article vise à diffuser les méthodes et les résultats de cette étude, ainsi qu’à démontrer les progrès actuels liés aux techniques d’échantillonnage dans un environnement dynamique.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014283
    Description :

    Le projet Methodologies for an integrated use of administrative data (MIAD) du Réseau statistique a pour but d’élaborer des méthodologies en vue d’un usage intégré des données administratives (DA) dans le processus statistique. Le principal objectif du projet MIAD est de fournir des lignes directrices pour l’exploitation des DA à des fins statistiques. En particulier, les membres du projet ont élaboré un cadre de la qualité, ont fourni une représentation des utilisations possibles des DA et proposé un schéma des différents contextes informatifs. Le présent article est axé sur ce dernier aspect. En particulier, nous faisons la distinction entre les dimensions en rapport avec les caractéristiques de la source associées à l’accessibilité, d’une part, et les caractéristiques associées à la structure des DA et à leurs liens avec les concepts statistiques, d’autre part. Nous désignons la première catégorie de caractéristiques comme étant le cadre de l’accès et la deuxième catégorie de caractéristiques comme étant le cadre des données. Dans le présent article, nous nous concentrons principalement sur la deuxième catégorie de caractéristiques qui sont reliées spécifiquement au type d’information qui peut être obtenu à partir de la source secondaire. En particulier, ces caractéristiques ont trait à la population administrative cible et à la mesure de cette population ainsi que la façon dont elle est (ou pourrait être) liée à la population cible et aux concepts statistiques cibles.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014258
    Description :

    L’Enquête sur la consommation de carburant (ECC) a été créée en 2013 et est une enquête nationale trimestrielle qui est conçue pour analyser la distance parcourue et la consommation d’essence des véhicules de passagers et d’autres véhicules pesant moins de 4 500 kilogrammes. La base de sondage est constituée de véhicules extraits des fichiers d’immatriculation de véhicules qui sont conservés par les ministères provinciaux. L’ECC utilise des puces de voiture comme mode de collecte pour une partie des unités échantillonnées, afin de recueillir des données sur les déplacements et l’essence consommée. L’utilisation de cette nouvelle technologie comporte de nombreux avantages, par exemple, la réduction du fardeau de réponse, des coûts de collecte et des effets sur la qualité des données. Pour les trimestres de 2013, 95 % des unités échantillonnées ont reçu des questionnaires papier, et 5 %, des puces de voiture, et au T1 de 2014, les données de 40 % des unités échantillonnées ont été recueillies au moyen de puces de voiture. Cette étude décrit la méthodologie du processus d’enquête, examine les avantages et les défis du traitement et de l’imputation pour les deux modes de collecte, présente certains résultats initiaux et conclut avec un sommaire des leçons apprises.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014269
    Description :

    L’Étude sur le surdénombrement du recensement (ESR) est une étude essentielle de mesure postcensitaire de la couverture. Son principal objectif est de produire des estimations du nombre de personnes dénombrées de façon erronée, selon la province et le territoire, et d’examiner les caractéristiques des personnes dénombrées plus d’une fois, afin de déterminer les raisons possibles de ces erreurs. L’ESR est fondée sur l’échantillonnage et l’examen manuel de groupes d’enregistrements reliés, qui sont le résultat d’un couplage de la base de données des réponses du recensement et d’une base administrative. Dans cette communication, nous décrivons la nouvelle méthodologie de l’ESR de 2011. De nombreuses améliorations ont été apportées à cette méthodologie, y compris une plus grande utilisation du couplage d’enregistrements probabiliste, l’estimation de paramètres de couplage au moyen d’un algorithme espérance-maximisation (EM), et l’utilisation efficace de données sur les ménages pour déceler davantage de cas de surdénombrement.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014263
    Description :

    Recueillir des données par Internet ou par la poste auprès d’unités échantillonnées est plus économique que le faire par interview. Ces méthodes font de l’autodénombrement une approche de collecte des données intéressante pour les enquêtes et les recensements. En dépit de ses avantages, la collecte de données par autodénombrement, en particulier la collecte de données par Internet, peut produire des taux de réponse plus faibles que ceux obtenus par interview. Pour accroître les taux de réponse, on soumet les non-répondants à un mode mixte de traitements de suivi, qui influent sur la probabilité résultante de réponse, afin de les encourager à participer. Les analyses de régression comprennent habituellement des facteurs et des interactions qui ont une incidence importante sur l’interprétation des modèles statistiques. Comme l’occurrence d’une réponse est intrinsèquement conditionnelle, nous commençons par enregistrer l’occurrence des réponses en intervalles discrets, et nous caractérisons la probabilité de réponse comme étant un risque en temps discret. Cette approche facilite l’examen du moment où une réponse est la plus susceptible d’avoir lieu et de la façon dont la probabilité de réponse varie au fil du temps. Le biais de non-réponse peut être évité en multipliant le poids d’échantillonnage des répondants par l’inverse d’une estimation de la probabilité de réponse. Les estimateurs des paramètres du modèle, ainsi que des paramètres de la population finie sont présentés. Les résultats de simulations en vue d’évaluer la performance des estimateurs proposés sont également présentés.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014288
    Description :

    Les enquêtes probabilistes, c’est-à-dire celles réalisées à partir d’échantillons sélectionnés selon un mécanisme aléatoire connu, sont considérées par plusieurs comme étant la norme par excellence comparativement aux enquêtes réalisées à partir d’échantillons non probabilistes. La théorie de l’échantillonnage probabiliste a vu le jour au début des années 1930 et sert encore aujourd’hui à prouver le bien-fondé d’estimer les valeurs d’une quelconque population à partir des données de ces enquêtes. Les études sur les échantillons non probabilistes, quant à elles, ont retenu davantage l’attention ces dernières années, mais elles ne sont pas nouvelles. Vantées comme étant moins coûteuses, plus rapides (voire meilleures) que les études avec plan probabiliste, ces enquêtes s’appuient, pour recruter les participants, sur diverses méthodes « de terrain » (p. ex., enquête en ligne à participation volontaire). Mais, quel type d’enquêtes est le meilleur? Le présent article est le premier d’une série portant sur la recherche d’un cadre de la qualité permettant de mesurer toutes les enquêtes, probabilistes ou non, en les plaçant davantage sur un pied d’égalité. D’abord, nous donnons un aperçu de quelques cadres utilisés à l’heure actuelle, en notant que le terme « meilleur » se rapporte presque toujours à la notion « d’adaptation de l’enquête à son but poursuivi » (fit for purpose). Ensuite, nous nous concentrons sur la question de la validité, surtout la validité externe, lorsque des estimations pour la population sont souhaitées. Nous passons en revue les techniques d’estimation appliquées jusqu’à présent aux enquêtes non probabilistes, ainsi que quelques études comparant ces estimations à celles obtenues avec un échantillon probabiliste. Enfin, nous décrivons les prochaines étapes de recherche et concluons par quelques remarques.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014273
    Description :

    De plus en plus de données sont produites au moyen du nombre croissant de dispositifs électroniques qui nous entourent et que l’on retrouve sur Internet. La grande quantité de données et la fréquence élevée à laquelle elles sont produites ont donné lieu à l’introduction du terme « mégadonnées ». Compte tenu du fait que ces données rendent compte de nombreux aspects différents de nos vies au quotidien, et en raison de leur abondance et de leur disponibilité, les sources de mégadonnées sont très intéressantes du point de vue des statistiques officielles. Toutefois, les premières expériences obtenues suite aux analyses de grandes quantités d’enregistrements de boucles de détection de véhicules au Pays-Bas, d’enregistrements des détails des appels de téléphones mobiles et de messages des médias sociaux aux Pays-Bas révèlent qu’un certain nombre de défis doivent être résolus pour permettre l’application de ces sources de données aux statistiques officielles. Ces défis, ainsi que les leçons apprises pendant les études initiales, seront traitées et illustrées au moyen d’exemples. De façon plus particulière, les sujets suivants sont abordés : les trois types généraux de mégadonnées définis, la nécessité d’accéder à des quantités importantes de données et de les analyser, la façon de traiter les données qui comportent du bruit et d’aborder la sélectivité (ainsi que notre propre biais concernant ce sujet), comment aller au-delà de la corrélation, la façon de trouver les personnes ayant les compétences adéquates et la bonne attitude pour exécuter ce travail, et comment nous avons traité les problèmes de protection des renseignements personnels et de sécurité.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010993
    Description :

    Jusqu'à maintenant, il fallait des années d'expérience en conception de questionnaires afin d'estimer le temps requis, en moyenne, par les répondants pour remplir le questionnaire ITAO d'une nouvelle enquête. Cet exposé porte sur une nouvelle méthode qui produit des estimations du temps requis pour remplir le questionnaire à l'étape de l'élaboration. La méthode s'appuie sur les données Blaise de vérification à rebours et sur des enquêtes antérieures. Elle a été élaborée, mise à l'essai et soumise à une vérification de l'exactitude dans le cadre de quelques grandes enquêtes.

    Tout d'abord, les données de vérification à rebours servent à déterminer le temps moyen qu'ont pris les répondants dans les enquêtes antérieures pour répondre à des types particuliers de questions. Il s'agit, entre autres, de questions exigeant des réponses par oui ou par non, des réponses indiquées sur une échelle, ou de type « cochez tout ce qui s'applique ». Ensuite, pour un questionnaire donné, les parcours des sous-groupes de la population sont représentés pour déterminer les séries de questions auxquelles ont répondu différents types de répondants, et chronométrés pour déterminer la durée maximale de l'interview. Enfin, le temps global prévu pour remplir le questionnaire est calculé en fonction de l'estimation de la proportion de la population qui devrait répondre à chacune des questions.

    Jusqu'à présent, nous avons utilisé les paradonnées pour estimer avec exactitude le temps requis, en moyenne, par les répondants pour terminer l'interview. Toutefois, la méthode que nous avons mise au point peut également servir à déterminer le temps de réponse requis pour des répondants particuliers.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010968
    Description :

    Statistique Canada a lancé un programme destiné à intensifier et à améliorer l'utilisation de la technologie d'imagerie pour le traitement des questionnaires d'enquête imprimés. Le but est d'en faire une méthode efficace, fiable et économique de saisie des données. L'objectif est de continuer de se servir de la reconnaissance optique de caractères (ROC) pour saisir les données des questionnaires, des documents et des télécopies reçus, tout en améliorant l'intégration du processus et l'assurance de la qualité/le contrôle de la qualité (CQ) du processus de saisie des données. Ces améliorations sont exposées dans le présent article.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010992
    Description :

    L'Enquête sur la santé dans les collectivités canadiennes (ESCC) a été remaniée en 2007 de façon à être menée selon une méthode de collecte des données continue. Depuis, un nouvel échantillon est prélevé tous les deux mois et les données sont également recueillies sur une période de deux mois. L'enquête utilise deux modes de collecte : l'interview personnelle assistée par ordinateur (IPAO) pour l'échantillon tiré d'une base aréolaire et l'interview téléphonique assistée par ordinateur (ITAO) pour l'échantillon tiré d'une base liste téléphonique. Statistique Canada a récemment mis en oeuvre certaines initiatives de collecte de données afin de réduire le fardeau de réponse et les coûts de l'enquête tout en maintenant ou améliorant la qualité des données. Entres autres, le recours à un outil de gestion des appels dans le système ITAO ainsi que la limite imposée sur le nombre d'appels font partie de ces nouvelles mesures. Celles-ci permettent de mieux gérer les appels téléphoniques et de limiter le nombre d'appels effectués pour joindre un répondant. Aussi, la disponibilité toute récente des paradonnées a permis de mettre en place des rapports permettant de mieux évaluer et surveiller les procédures et l'efficacité de la collecte en temps réel. Enfin, l'ESCC est ciblée par d'autres initiatives de collecte à venir. Le présent article décrit brièvement l'enquête, expose les avantages de recourir à une méthode de collecte continue et présente l'incidence des nouvelles initiatives sur l'enquête.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200600110421
    Description :

    Afin d'augmenter le taux de réponse et de réduire les coûts, un grand nombre d'organismes d'enquête ont commencé à utiliser plusieurs modes de collecte pour recueillir des données pertinentes. Bien que la National Health Interview Survey (NHIS), une enquête polyvalente sur la santé des ménages menée annuellement par le National Center for Health Statistics des Centers for Disease Control and Prevention, soit essentiellement une enquête par interview sur place, il arrive que les interviewers réalisent certaines interviews par téléphone. Cette situation soulève des questions quant à la qualité des données résultantes. Pour y répondre, les données de la NHIS de 2005 sont utilisées pour analyser l'effet du mode de collecte sur huit indicateurs clés de la santé.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110451
    Description :

    Les taux de réponse des ménages à de nombreuses enquêtes sociales de grande portée ne cessent de baisser. Dans le cas de la Health Survey for England, le taux a diminué de neuf points de pourcentage sur une période de onze ans. Des données provenant d'autres études donnent à penser que l'offre sans condition d'une récompense, ou incitatif, ayant une faible valeur pécuniaire peut améliorer les taux de coopération. Une expérience avec des incitatifs intégrée dans la Health Survey for England visait à reproduire les résultats d'une expérience antérieure intégrée dans la Family Resources Study indiquant un accroissement significatif du taux de réponse des ménages ayant reçu un carnet de timbres poste avec la lettre envoyée préalablement. Toutefois, l'expérience avec des incitatifs de la HSE n'a révélé aucune différence significative entre les taux de réponse des ménages, les taux de réponse à d'autres stades de l'enquête et les profils des répondants selon les deux conditions expérimentales (timbres poste inclus avec la lettre préalable, signet inclus avec la lettre) et le groupe témoin (lettre préalable uniquement).

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110450
    Description :

    À l'aide de données d'enquête et de données historiques sur les tentatives de prise de contact recueillies au cours de la National Health Interview Survey (NHIS) de 2005, qui est une enquête polyvalente sur la santé réalisée par le National Center for Health Statistics (NCHS) des Centers for Disease Control and Prevention (CDC), nous examinons l'incidence des préoccupations ou des réticences des participants sur la qualité des données, telle qu'elle est mesurée par les taux d'interviews partiellement achevées et de non réponse partielle. Dans l'ensemble, les résultats indiquent que les répondants provenant de ménages dans lesquels une certaine forme de préoccupations ou de réticences (p. ex., "Trop occupé", "Pas intéressé") a été exprimée produisent des taux plus élevés d'interviews partiellement achevées et de non réponse partielle que ceux provenant de ménages dans lesquels aucune préoccupation ou réticence n'a été exprimée. Les différences selon le type de préoccupations sont également relevées.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110435
    Description :

    En 1999, la première enquête représentative à l'échelle nationale de la santé mentale des enfants et des jeunes de 5 à 15 ans a été menée en Grande-Bretagne. Une deuxième enquête a été réalisée en 2004. Ces enquêtes avaient trois objectifs : estimer la prévalence des troubles mentaux chez les jeunes, examiner leur utilisation des services de santé, des services sociaux et des services éducatifs et analyser les facteurs de risque liés aux troubles mentaux. On a mené respectivement 10 500 et 8 000 interviews. Il a fallu aborder certaines questions essentielles concernant un grand nombre d'enjeux méthodologiques et prendre des décisions en tenant compte des facteurs étudiés dans le présent document.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110444
    Description :

    Les enquêtes générales sur la santé des populations comportent souvent de petits échantillons de fumeurs. Peu d'études longitudinales portant spécifiquement sur l'usage du tabac ont été réalisées. Nous discutons de l'élaboration de l'Enquête sur le tabagisme en Ontario (OTS pour Ontario Tobacco Survey) qui combine une composante longitudinale avec échantillons successifs et des composantes transversales répétées. Lancée en juillet 2005, l'OTS est une enquête par échantillonnage aléatoire et collecte téléphonique des données. Tous les six mois, de nouveaux échantillons de fumeurs et de non fumeurs fournissent des données sur leurs comportements et attitudes relatifs à l'usage du tabac. Les fumeurs participent à une étude par panel et font l'objet d'un suivi afin de déterminer l'évolution des influences et des comportements relatifs à l'usage du tabac. Le plan d'enquête permet de répondre de manière rentable aux exigences d'échantillonnage associées à des objectifs d'étude multiples.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110398
    Description :

    L'étude de données longitudinales est essentielle si l'on veut observer correctement l'évolution des variables d'intérêt chez les personnes, les collectivités et les populations plus importantes au cours du temps. Les modèles linéaires à effets mixtes (pour les réponses continues observées au fil du temps), ainsi que les modèles linéaires généralisés à effets mixtes et les équations d'estimation généralisées (pour les réponses plus générales, telles que les données binaires ou les dénombrements observés au fil du temps) sont les méthodes les plus répandues pour analyser les données longitudinales provenant d'études sur la santé, même si, comme toute méthode de modélisation, elles ont leurs limites, dues en partie aux hypothèses sous jacentes. Dans le présent article, nous discutons de certains progrès, dont l'utilisation de méthodes fondées sur des courbes, qui rendent la modélisation des données longitudinales plus souple. Nous présentons trois exemples d'utilisation de ces méthodes plus souples tirés de la littérature sur la santé, dans le but de démontrer que certaines questions par ailleurs difficiles peuvent être résolues raisonnablement lors de l'analyse de données longitudinales complexes dans les études sur la santé des populations.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110441
    Description :

    Comment estime t on efficacement la taille de l'échantillon tout en établissant un consensus entre de nombreux chercheurs pour des projets polyvalents? Nous présentons un modèle s'appuyant sur un tableur ordinaire pour produire des estimations de la puissance analytique, de la précision et des coûts financiers selon divers scénarios d'échantillonnage, tel qu'il a été utilisé lors de l'élaboration de l'Enquête sur le tabagisme en Ontario. En plus des estimations des coûts, des formules complexes de calcul de la taille d'échantillon ont été imbriquées dans un tableur pour déterminer la puissance et la précision des analyses, en tenant compte des effets de plan et des cas perdus de vue au suivi définis par l'utilisateur. Un tableur ordinaire peut être combiné à des formules complexes afin de faciliter l'échange de connaissances entre les méthodologistes et les intervenants, et en fait, de démystifier la "boîte noire de la taille d'échantillon".

    Date de diffusion : 2008-03-17

Date de modification :