Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

78 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

78 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

78 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

78 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (100)

Tout (100) (25 of 100 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Produits techniques : 11-522-X201700014755
    Description :

    La National Children Study, dans sa phase pilote, est une étude de cohorte épidémiologique à grande échelle des enfants et de leurs parents. Des mesures ont été recueillies, de la période précédant la grossesse jusqu’à ce que l’enfant atteigne l’âge adulte. L’utilisation des données existantes visait à compléter la collecte directe de données auprès des répondants. Notre document énonce la stratégie pour le catalogage et l’évaluation des sources de données existantes, en vue de leur utilisation longitudinale à grande échelle. Dans le cadre de notre examen, nous avons sélectionné cinq facteurs d’évaluation pour guider les chercheurs à l’égard des sources de données disponibles : 1) pertinence, 2) actualité, 3) spatialité, 4) accessibilité et 5) exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014750
    Description :

    Le Fichier maître de l’éducation (FME) est un système qui a été élaboré pour permettre l’analyse des programmes d’enseignement au Canada. Le noyau du système est constitué de fichiers administratifs comprenant toutes les inscriptions aux programmes postsecondaires et d’apprentissage au Canada. De nouveaux fichiers administratifs deviennent disponibles sur une base annuelle. Lorsqu’un nouveau fichier devient disponible, il est d’abord sujet à un traitement initial, qui comprend un couplage avec d’autres dossiers administratifs. Ce couplage produit de l’information qui peut améliorer la qualité du fichier; il permet d’autres couplages avec d’autres données décrivant le marché du travail, et il constitue la première étape pour ajouter le fichier au FME. Une fois qu’elle fait partie du FME, l’information du fichier peut être incluse dans des projets transversaux ou longitudinaux, afin d’étudier les cheminements scolaires et les résultats sur le marché du travail par suite de l’obtention du diplôme. À l’heure actuelle, le FME comprend des données de 2005 à 2013, mais il évolue à mesure que de nouvelles données deviennent disponibles. Le présent document donne un aperçu des mécanismes utilisés pour créer le FME, en mettant l’accent sur la structure du système final et une partie de son potentiel analytique.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Produits techniques : 11-522-X201300014279
    Description :

    Dans le cadre du projet européen SustainCity, un modèle de microsimulation des individus et des ménages a été créé en vue de simuler la population de différentes métropoles européennes. L’objectif du projet était d’unir plusieurs modèles de microsimulation de transports et d’occupation des sols (land use modelling), de leur adjoindre un module dynamique de population et d’appliquer ces approches de microsimulation à trois zones géographiques d’Europe (la région d’Île de France et les agglomérations de Bruxelles et Zurich).

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014276
    Description :

    En France, les contraintes budgétaires rendent plus difficile l’embauche d’enquêteurs occasionnels pour prendre en compte des problèmes de collecte. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée. Pour les enquêtes Insee, réalisées à partir d’un échantillon maître, les difficultés apparaissent lors de l’absence prolongée d’un enquêteur sur l’ensemble de la durée de la collecte d’une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l’enquête, ce qui génère de fait un biais. Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en oeuvre en fonction du moment où le problème est diagnostiqué. Si l’ « abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en oeuvre. Elle consiste à interroger un minimum de ménages dans chaque zone de collecte au détriment d’autres zones pour lesquelles aucun problème de collecte n’est a priori diagnostiqué. Il s’agit donc de minimiser la dispersion des poids sous contrainte de respect de la charge de collecte. Si l’ « abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en oeuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d’un échantillon par rapport à la population de base. L’objectif de cette priorisation en cours de collecte est de s’approcher le plus possible au final d’une équi-probabilité de réponse des répondants. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d’analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d’intensifier les efforts de collecte sur les groupes précédemment identifiés. Lors de la présentation orale, les deux points avaient été évoqués succinctement. Toutefois, cet article ne traite que du premier point évoqué ci-dessus, à savoir la « sous-allocation ». La priorisation est en cours de mise en oeuvre pour la première fois à l’Insee pour l’enquête Patrimoine et elle donnera lieu à un article spécifique qui sera rédigé par A. Rebecq.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014273
    Description :

    De plus en plus de données sont produites au moyen du nombre croissant de dispositifs électroniques qui nous entourent et que l’on retrouve sur Internet. La grande quantité de données et la fréquence élevée à laquelle elles sont produites ont donné lieu à l’introduction du terme « mégadonnées ». Compte tenu du fait que ces données rendent compte de nombreux aspects différents de nos vies au quotidien, et en raison de leur abondance et de leur disponibilité, les sources de mégadonnées sont très intéressantes du point de vue des statistiques officielles. Toutefois, les premières expériences obtenues suite aux analyses de grandes quantités d’enregistrements de boucles de détection de véhicules au Pays-Bas, d’enregistrements des détails des appels de téléphones mobiles et de messages des médias sociaux aux Pays-Bas révèlent qu’un certain nombre de défis doivent être résolus pour permettre l’application de ces sources de données aux statistiques officielles. Ces défis, ainsi que les leçons apprises pendant les études initiales, seront traitées et illustrées au moyen d’exemples. De façon plus particulière, les sujets suivants sont abordés : les trois types généraux de mégadonnées définis, la nécessité d’accéder à des quantités importantes de données et de les analyser, la façon de traiter les données qui comportent du bruit et d’aborder la sélectivité (ainsi que notre propre biais concernant ce sujet), comment aller au-delà de la corrélation, la façon de trouver les personnes ayant les compétences adéquates et la bonne attitude pour exécuter ce travail, et comment nous avons traité les problèmes de protection des renseignements personnels et de sécurité.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 12-001-X201200211755
    Description :

    La question de la non-réponse dans les études longitudinales est abordée en évaluant l'exactitude des modèles de propension à répondre construits pour distinguer et prédire les divers types de non-réponse. Une attention particulière est accordée aux mesures sommaires dérivées des courbes de la fonction d'efficacité du receveur, ou courbes ROC (de l'anglais receiver operating characteristics), ainsi que des courbes de type logit sur rangs. Les concepts sont appliqués à des données provenant de la Millennium Cohort Study du Royaume-Uni. Selon les résultats, la capacité de faire la distinction entre les divers types de non-répondants et de les prévoir n'est pas grande. Les poids produits au moyen des modèles de propension à répondre ne donnent lieu qu'à de faibles corrections des transitions entre situations d'emploi. Des conclusions sont tirées quant aux possibilités d'intervention en vue de prévenir la non-réponse.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 82-003-X201200111633
    Description :

    Le présent document explique la méthode servant à créer les géozones, qui représentent des seuils de caractéristiques de population fondés sur la région géographique, à partir des données du recensement, et qui peuvent servir à l'analyse des différences sociales ou économiques au chapitre de la santé et de l'utilisation des services de santé.

    Date de diffusion : 2012-03-21

  • Articles et rapports : 12-001-X201100211602
    Description :

    Cet article tente de répondre aux trois questions énoncées dans le titre. Il commence par une discussion des caractéristiques uniques des données d'enquêtes complexes qui diffèrent de celles des autres ensembles de données ; ces caractéristiques requièrent une attention spéciale, mais suggèrent une vaste gamme de procédures d'inférence. Ensuite, un certain nombre d'approches proposées dans la documentation pour traiter ces caractéristiques sont passées en revue en discutant de leurs mérites et de leurs limites. Ces approches diffèrent en ce qui a trait aux conditions qui sous-tendent leur utilisation, aux données additionnelles requises pour leur application, aux tests d'adéquation de l'ajustement du modèle, aux objectifs d'inférence qu'elles permettent de satisfaire, à l'efficacité statistique, aux demandes de ressources informatiques et aux compétences que doivent posséder les analystes qui ajustent les modèles. La dernière partie de l'article présente les résultats de simulations conçues pour comparer le biais, la variance et les taux de couverture des diverses approches dans le cas de l'estimation des coefficients de régression linéaire en partant d'un échantillon stratifié. Enfin, l'article se termine par une brève discussion des questions en suspens.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201000211383
    Description :

    La collecte de données en vue d'évaluer la pauvreté en Afrique prend du temps, est coûteuse et peut présenter de nombreux obstacles. Dans le présent article, nous décrivons une procédure de collecte des données auprès de ménages vivant de la pêche continentale artisanale, ainsi que d'activités agricoles. Un plan d'échantillonnage a été établi afin de tenir compte de l'hétérogénéité des conditions écologiques et de la saisonnalité des moyens de subsistance possibles. Ce plan d'échantillonnage comprend une enquête par panel en trois points auprès de 300 ménages. Les répondants appartiennent à quatre groupes ethniques distincts sélectionnés aléatoirement parmi trois strates, chacune représentant une zone écologique différente. La première partie de l'article donne des renseignements contextuels sur les objectifs de la recherche, le lieu de l'étude et le plan de sondage, qui ont orienté le processus de collecte des données. La deuxième partie de l'article offre une discussion des obstacles qui entravent habituellement les travaux empiriques en Afrique subsaharienne et montre comment divers problèmes ont été résolus. Ces leçons pourraient aider les chercheurs à concevoir des enquêtes socioéconomiques appropriées dans des conditions comparables.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X200900211044
    Description :

    Dans les enquêtes par sondage de grande portée, il est fréquent d'employer des plans de sondage stratifiés à plusieurs degrés où les unités sont sélectionnées par échantillonnage aléatoire simple sans remise à chaque degré. L'exécution de l'estimation de la variance sous ce genre de plan peut être assez fastidieuse, particulièrement pour les estimateurs non linéaires. Diverses méthodes bootstrap d'estimation de la variance ont été proposées, mais la plupart sont limitées à des plans à un seul degré ou à des plans en grappes à deux degrés. Nous proposons une extension de la méthode du bootstrap rééchelonné (Rao et Wu 1988) aux plans stratifiés à plusieurs degrés qui peut être adaptée facilement à n'importe quel nombre de degrés. Cette méthode convient pour une grande gamme de méthodes de repondération, y compris la classe générale des estimateurs par calage. Nous avons réalisé une étude par simulation Monte Carlo pour examiner la performance de l'estimateur de variance bootstrap rééchelonné à plusieurs degrés.

    Date de diffusion : 2009-12-23

  • Produits techniques : 11-522-X200800010954
    Description :

    Au cours de la dernière année, Statistique Canada a conçu et mis à l'essai un nouveau moyen d'évaluer le rendement des intervieweurs qui procèdent aux interviews sur place assistées par ordinateur (IPAO). Un processus officiel existe déjà pour la surveillance des interviews téléphoniques centralisées. Les surveillants écoutent les interviews téléphoniques pendant qu'elles ont lieu pour évaluer l'exécution des tâches par l'intervieweur en fonction de critères préétablis et faire des commentaires à ce dernier pour lui indiquer ce qu'il a bien fait et ce qu'il doit améliorer. Pour les programmes d'IPAO, nous avons élaboré et mettons à l'essai une méthode pilote par laquelle des interviews sont enregistrées de façon numérique puis le surveillant écoute ces enregistrements afin d'évaluer le rendement de l'intervieweur sur le terrain et de lui fournir de la rétroaction qui aidera la qualité des données. Dans le présent article, nous donnons un aperçu du projet de surveillance de l'IPAO à Statistique Canada en décrivant la méthodologie de surveillance de l'IPAO et les plans de mise en oeuvre.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010950
    Description :

    Le prochain recensement aura lieu en mai 2011. Cette enquête d'envergure représente un défi particulier pour Statistique Canada et demande beaucoup de temps et de ressources. Une planification serrée a été mise en place afin d'atteindre tous les échéanciers. Plusieurs étapes de mise à l'essai du questionnaire ont été prévues. Ces tests portent sur le contenu du recensement mais abordent aussi la stratégie de communication prévue. Cet article a pour but de présenter un portrait global de la stratégie. De plus, l'emphase sera mise sur l'intégration des études qualitatives à l'étude quantitative faites en 2008 afin de pouvoir analyser les résultats et ainsi obtenir une meilleure évaluation des propositions.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010996
    Description :

    Au cours des dernières années, l'utilisation des paradonnées a pris de plus en plus d'importance dans le cadre de la gestion des activités de collecte à Statistique Canada. Une attention particulière a été accordée aux enquêtes sociales menées par téléphone, comme l'Enquête sur la dynamique du travail et du revenu (EDTR). Lors des dernières activités de collecte de l'EDTR, une limite de 40 tentatives d'appel a été instaurée. Des examens des fichiers de l'historique des transactions Blaise de l'EDTR ont été entrepris afin d'évaluer l'incidence de la limite des tentatives d'appel. Tandis que l'objectif de la première étude était de réunir les renseignements nécessaires à l'établissement de la limite des tentatives d'appel, la seconde étude portait sur la nature de la non-réponse dans le contexte de la limite de 40 tentatives.

    L'utilisation des paradonnées comme information auxiliaire pour étudier et expliquer la non-réponse a aussi été examinée. Des modèles d'ajustement pour la non-réponse utilisant différentes variables de paradonnées recueillies à l'étape de la collecte ont été comparés aux modèles actuels basés sur de l'information auxiliaire tirée de l'Enquête sur la population active.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010965
    Description :

    Les enquêtes qui reposent sur plus d'un mode de collecte des données (enquête Web, ITAO, questionnaire papier) sont de plus en plus fréquentes. Mathematica Policy Research, Inc. (MPR) a déployé plusieurs enquêtes de ce type avec le logiciel Blaise. La présente communication passe en revue les résultats de ces expériences en abordant l'instrumentation, la gestion d'une enquête, ainsi que d'autres aspects. Elle met en relief la mise en oeuvre électronique de ces enquêtes et couvre des sujets qui découlent uniquement de la nature multimodale des enquêtes, soit des aspects qui vont au-delà de la mise en oeuvre d'une enquête à mode de collecte unique.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011005
    Description :

    En 2006, Statistics New Zealand a entrepris d'élaborer une stratégie de coordination des initiatives nouvelles et existantes centrées sur le fardeau imposé au répondant. L'élaboration de cette stratégie a duré plus d'un an, et l'engagement qu'a ensuite pris l'organisme de réduire le fardeau de réponse l'a obligé à résoudre un certain nombre de questions ayant une incidence sur la façon dont il exécute ses enquêtes.

    Le prochain défi que doit relever Statistics New Zealand est de passer des initiatives axées sur des projets décrits dans la stratégie à la gestion continue du fardeau de réponse.

    Date de diffusion : 2009-12-03

Données (1)

Données (1) (1 result)

  • Tableau : 62-010-X19970023422
    Description :

    La période de base officielle de l'indice des prix à la consommation (IPC) est actuellement 1986=100. Cette période de base a été utilisée pour la première fois au moment de la diffusion des données de l'IPC pour juin 1990. Statistique Canada s'apprête à convertir toutes les séries des indices de prix à la période de base 1992=100. Par conséquent, toutes les séries en dollars constants seront aussi converties en dollars de 1992. L'IPC adoptera la nouvelle période de base lorsque paraîtront les données de l'indice pour janvier 1998 dès le 27 février 1998.

    Date de diffusion : 1997-11-17

Analyses (55)

Analyses (55) (25 of 55 results)

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 12-001-X201200211755
    Description :

    La question de la non-réponse dans les études longitudinales est abordée en évaluant l'exactitude des modèles de propension à répondre construits pour distinguer et prédire les divers types de non-réponse. Une attention particulière est accordée aux mesures sommaires dérivées des courbes de la fonction d'efficacité du receveur, ou courbes ROC (de l'anglais receiver operating characteristics), ainsi que des courbes de type logit sur rangs. Les concepts sont appliqués à des données provenant de la Millennium Cohort Study du Royaume-Uni. Selon les résultats, la capacité de faire la distinction entre les divers types de non-répondants et de les prévoir n'est pas grande. Les poids produits au moyen des modèles de propension à répondre ne donnent lieu qu'à de faibles corrections des transitions entre situations d'emploi. Des conclusions sont tirées quant aux possibilités d'intervention en vue de prévenir la non-réponse.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 82-003-X201200111633
    Description :

    Le présent document explique la méthode servant à créer les géozones, qui représentent des seuils de caractéristiques de population fondés sur la région géographique, à partir des données du recensement, et qui peuvent servir à l'analyse des différences sociales ou économiques au chapitre de la santé et de l'utilisation des services de santé.

    Date de diffusion : 2012-03-21

  • Articles et rapports : 12-001-X201100211602
    Description :

    Cet article tente de répondre aux trois questions énoncées dans le titre. Il commence par une discussion des caractéristiques uniques des données d'enquêtes complexes qui diffèrent de celles des autres ensembles de données ; ces caractéristiques requièrent une attention spéciale, mais suggèrent une vaste gamme de procédures d'inférence. Ensuite, un certain nombre d'approches proposées dans la documentation pour traiter ces caractéristiques sont passées en revue en discutant de leurs mérites et de leurs limites. Ces approches diffèrent en ce qui a trait aux conditions qui sous-tendent leur utilisation, aux données additionnelles requises pour leur application, aux tests d'adéquation de l'ajustement du modèle, aux objectifs d'inférence qu'elles permettent de satisfaire, à l'efficacité statistique, aux demandes de ressources informatiques et aux compétences que doivent posséder les analystes qui ajustent les modèles. La dernière partie de l'article présente les résultats de simulations conçues pour comparer le biais, la variance et les taux de couverture des diverses approches dans le cas de l'estimation des coefficients de régression linéaire en partant d'un échantillon stratifié. Enfin, l'article se termine par une brève discussion des questions en suspens.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201000211383
    Description :

    La collecte de données en vue d'évaluer la pauvreté en Afrique prend du temps, est coûteuse et peut présenter de nombreux obstacles. Dans le présent article, nous décrivons une procédure de collecte des données auprès de ménages vivant de la pêche continentale artisanale, ainsi que d'activités agricoles. Un plan d'échantillonnage a été établi afin de tenir compte de l'hétérogénéité des conditions écologiques et de la saisonnalité des moyens de subsistance possibles. Ce plan d'échantillonnage comprend une enquête par panel en trois points auprès de 300 ménages. Les répondants appartiennent à quatre groupes ethniques distincts sélectionnés aléatoirement parmi trois strates, chacune représentant une zone écologique différente. La première partie de l'article donne des renseignements contextuels sur les objectifs de la recherche, le lieu de l'étude et le plan de sondage, qui ont orienté le processus de collecte des données. La deuxième partie de l'article offre une discussion des obstacles qui entravent habituellement les travaux empiriques en Afrique subsaharienne et montre comment divers problèmes ont été résolus. Ces leçons pourraient aider les chercheurs à concevoir des enquêtes socioéconomiques appropriées dans des conditions comparables.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X200900211044
    Description :

    Dans les enquêtes par sondage de grande portée, il est fréquent d'employer des plans de sondage stratifiés à plusieurs degrés où les unités sont sélectionnées par échantillonnage aléatoire simple sans remise à chaque degré. L'exécution de l'estimation de la variance sous ce genre de plan peut être assez fastidieuse, particulièrement pour les estimateurs non linéaires. Diverses méthodes bootstrap d'estimation de la variance ont été proposées, mais la plupart sont limitées à des plans à un seul degré ou à des plans en grappes à deux degrés. Nous proposons une extension de la méthode du bootstrap rééchelonné (Rao et Wu 1988) aux plans stratifiés à plusieurs degrés qui peut être adaptée facilement à n'importe quel nombre de degrés. Cette méthode convient pour une grande gamme de méthodes de repondération, y compris la classe générale des estimateurs par calage. Nous avons réalisé une étude par simulation Monte Carlo pour examiner la performance de l'estimateur de variance bootstrap rééchelonné à plusieurs degrés.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200900110884
    Description :

    Le présent article traite de l'estimation pour petits domaines de la proportion de personnes sans assurance maladie dans divers groupes minoritaires. Les petits domaines sont définis par le croisement de l'âge, du sexe et d'autres caractéristiques démographiques. Des méthodes d'estimation bayésiennes hiérarchiques ainsi qu'empiriques sont appliquées. En outre, des approximations exactes jusqu'à l'ordre deux des erreurs quadratiques moyennes des estimateurs bayésiens empiriques et des estimateurs corrigés du biais de ces erreurs quadratiques moyennes sont fournies. La méthodologie générale est illustrée au moyen d'estimations de la proportion de personnes non assurées pour plusieurs petits domaines de la sous population asiatique.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200900110883
    Description :

    Nous appliquons une méthode bayésienne pour résoudre le problème des solutions limites de l'estimation du maximum de vraisemblance (MV) dans un tableau de contingence à double entrée incomplet en utilisant un modèle log-linéaire et des lois a priori de Dirichlet. Nous comparons cinq lois a priori de Dirichlet pour estimer les probabilités multinomiales par case sous un modèle de non réponse non ignorable. Trois de ces lois a priori ont été utilisées dans le cas d'un tableau à simple entrée incomplet et les deux autres sont deux nouvelles lois a priori proposées afin de tenir compte de la différence entre les profils de réponse des répondants et des électeurs indécis. Les estimations bayésiennes obtenues à l'aide des trois premières lois a priori n'ont pas systématiquement de meilleures propriétés que les estimations du MV, contrairement à ce qu'indiquaient des études antérieures, tandis que les deux nouvelles lois a priori donnent de meilleurs résultats que les trois lois a priori antérieures et que les estimations du MV chaque fois qu'est obtenue une solution limite. Nous utilisons quatre jeux de données provenant des sondages électoraux réalisés en 1998 dans l'État de l'Ohio pour illustrer comment il convient d'utiliser et d'interpréter les résultats des estimations pour les élections. Nous procédons à des études par simulation pour comparer les propriétés de cinq estimations bayésiennes sous un modèle de non réponse non ignorable.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800210755
    Description :

    L'interview avec rétroinformation (IRI) est utilisée dans de nombreuses enquêtes longitudinales pour « reporter » les données d'une vague à la suivante. Bien qu'il s'agisse d'une technique prometteuse qui a permis d'améliorer la qualité des données à certains égards, on en sait assez peu sur la façon dont elle est effectivement appliquée sur le terrain. La présente étude a pour but d'aborder cette question par la voie du codage du comportement. Divers styles d'IRI ont été employés dans l'English Longitudinal Study of Ageing (ELSA) de janvier 2006 et les interviews pilotes sur le terrain ont été enregistrées. Les enregistrements ont été analysés afin de déterminer si les questions (particulièrement les éléments d'IRI) étaient administrées convenablement et d'explorer la réaction des répondants à l'égard des données reportées. Un des objectifs était de déterminer si les répondants confirmaient ou contestaient l'information déclarée antérieurement, si les données de la vague précédente jouaient un rôle quand les répondants fournissaient les réponses à la vague courante et la façon dont toute discordance était négociée par l'intervieweur et le répondant. Un autre objectif était d'examiner l'efficacité de divers styles d'IRI. Par exemple, dans certains cas, les données de la vague précédente ont été reportées et on a demandé aux répondants de les confirmer explicitement ; dans d'autres, les données antérieures ont été lues et ont a demandé aux répondants si la situation était encore la même. Les résultats révèlent divers niveaux de conformité en ce qui a trait à la lecture initiale de la question et donnent à penser que certains styles d'IRI pourraient être plus efficaces que d'autres.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200800210764
    Description :

    Le présent article traite de situations où la valeur de la réponse cible est zéro ou une observation issue d'une loi continue. Un exemple type analysé dans l'article est l'évaluation des compétences en littératie, dont le résultat peut être zéro, ce qui représente l'analphabétisme, ou un score positif mesurant le niveau de littératie. Nous cherchons à déterminer comment obtenir des estimations valides de la réponse moyenne ou de la proportion de réponses positives pour des petits domaines pour lesquels nous ne disposons que de petits échantillons, voire aucun. Comme dans d'autres problèmes d'estimation pour petits domaines, la petite taille de l'échantillon pour au moins certains domaines échantillonnés et/ou l'existence de domaines non échantillonnés obligent à utiliser des méthodes fondées sur un modèle. Toutefois, les méthodes disponibles ne conviennent pas pour ce genre de données, à cause de la distribution mixte des réponses caractérisée par un pic important à zéro juxtaposé à une distribution continue pour le reste des réponses. Par conséquent, nous élaborons un modèle à effets aléatoires en deux parties et montrons comment l'ajuster et évaluer la qualité de son ajustement, et comment calculer les estimations sur petits domaines d'intérêt et mesurer leur précision. Nous illustrons la méthode proposée au moyen de données simulées et de données provenant d'une enquête sur la littératie réalisée au Cambodge.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200800210759
    Description :

    L'analyse des données recueillies auprès d'un échantillon stratifié à plusieurs degrés requiert de l'information sur le plan de sondage, telle que les identificateurs de strate et d'unité primaire d'échantillonnage (UPE), ou les poids de rééchantillonnage connexes, pour l'estimation de la variance. Dans certains fichiers de données à grande diffusion, l'information sur le plan de sondage est masquée en vue d'éviter le risque de divulgation, tout en permettant à l'utilisateur d'obtenir des estimations valides des variances. Par exemple, dans le cas des enquêtes aréolaires comptant un nombre limité d'UPE, les UPE originales sont divisées et (ou) recombinées pour construire des pseudo UPE dans lesquelles sont permutées les unités d'échantillonnage de deuxième degré et de degré subséquent. Cependant, ces méthodes de masquage des UPE faussent manifestement la structure de mise en grappes du plan d'échantillonnage, ce qui donne des estimations de variance biaisées pouvant présenter un rapport systématique entre les deux estimations de variance obtenues avec et sans masquage des identificateurs d'UPE. Certains travaux antérieurs ont révélé certaines tendances du ratio des estimations de la variance obtenues avec et sans masquage si on représente ce ratio graphiquement en fonction de l'effet de plan sans masquage. Le présent article traite de l'effet du masquage des UPE sur les estimations de la variance sous échantillonnage en grappes en fonction de divers aspects, dont la structure de mise en grappes et le degré de masquage. En outre, nous tâchons d'établir une stratégie de masquage des UPE par permutation des unités d'échantillonnage du degré subséquent qui réduit le biais résultant des estimations de la variance. En guise d'illustration, nous utilisons des données provenant de la National Health Interview Survey (NHIS) auxquelles nous avons apporté certaines modifications artificielles. La stratégie proposée permet de bien réduire le biais des estimations de la variance. Les résultats tant théoriques qu'empiriques indiquent que l'effet du masquage des UPE sur les estimations de la variance est modeste si la permutation des unités d'échantillonnage de degré subséquent est minimale. Nous avons appliqué la stratégie de masquage proposée aux données diffusées de la National Health and Nutrition Examination Survey (NHANES) de 2003 2004.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200700210494
    Description :

    L'Australian Bureau of Statistics vient de développer un système généralisé d'estimation pour traiter les données de ses enquêtes entreprises annuelles et infra annuelles de grande portée. Les plans de sondage de ces enquêtes comportent d'un grand nombre de strates, un échantillonnage aléatoire simple dans les strates, des fractions d'échantillonnage non négligeables, ainsi qu'un chevauchement d'échantillons pour des périodes consécutives et peuvent faire l'objet de modifications de la base de sondage. Un défi important consistait à choisir la méthode d'estimation de la variance répondant le mieux aux critères suivants : être valide pour une grande gamme d'estimateurs (par exemple, ratio et régression généralisée), nécessiter un temps de calcul limité, être facilement adaptable à divers plans de sondage et estimateurs, et avoir de bonnes propriétés théoriques en ce qui concerne le biais et la variance. Le présent article décrit le bootstrap rééchelonné sans remise (BRSR) qui a été mis en oeuvre par l'ABS et montre qu'il est sensiblement plus efficace que le bootstrap rééchelonné avec remise (BRAR) de Rao et Wu (1988). Les principaux avantages du bootstrap comparativement à d'autres estimateurs de variance par rééchantillonnage sont son efficacité (c'est à dire son exactitude par unité d'espace de mémorisation) et la simplicité relative avec laquelle il peut être spécifié dans un système. Le présent article décrit l'estimateur de variance du bootstrap BRSR pour les estimations ponctuelles et les estimations des changements qui peut être exprimé comme une fonction des moyennes de population finie. Les résultats des simulations entreprises dans le cadre du processus d'évaluation montrent que le BRSR est plus efficace que le BRAR, particulièrement dans les situations où la taille des échantillons dans les strates peut être aussi petite que 5.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 12-001-X200700210496
    Description :

    Le panel communautaire de ménages (PCM) est une enquête par panel qui porte sur un large éventail de sujets concernant les conditions socio-économiques et les conditions de vie. Plus précisément, cette enquête permet de calculer le revenu équivalent disponible des ménages, qui constitue une variable clé de l'étude de l'inégalité économique et de la pauvreté. Pour obtenir des estimations fiables de la moyenne de cette variable pour des régions données de pays, il faut avoir recours aux méthodes d'estimation pour petits domaines. Dans le présent document, nous nous attardons sur les prédicteurs linéaires empiriques du revenu équivalent moyen en fonction de l'emprunt d'information des « modèles au niveau des unités », d'une région à l'autre et d'une période à l'autre. En nous appuyant sur une étude par simulation basée sur les données du PCM, nous comparons les estimateurs suggérés avec les estimateurs transversaux, fondés sur les modèles et fondés sur le plan de sondage. Dans le cas de ces prédicteurs empiriques, nous comparons également trois différents types d'estimateurs de l'EQM. Les résultats indiquent que les estimateurs qui sont rattachés aux modèles qui tiennent compte de l'autocorrélation des unités entrainent d'importants gains d'efficience, même en l'absence de covariables dont on connaît la moyenne de population.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 82-003-S200700010362
    Description :

    Le présent article résume la conception, la méthodologie et les résultats du prétest de l'Enquête canadienne sur les mesures de la santé, qui s'est déroulé d'octobre à décembre 2004 à Calgary, Alberta.

    Date de diffusion : 2007-12-05

  • Articles et rapports : 12-001-X20070019856
    Description :

    Le concept de « plan d'échantillonnage proportionnel à la taille le plus proche » proposé par Gabler (1987) est utilisé en vue d'obtenir un plan d'échantillonnage contrôlé optimal assurant que les probabilités de sélection des échantillons non privilégiés soient nulles. L'estimation de la variance pour un plan d'échantillonnage contrôlé optimal à l'aide de la forme de Yates Grundy de l'estimateur d'Horvitz-Thompson est discutée. La variance d'échantillonnage réelle de la méthode proposée est comparée à celle des méthodes existantes de sélection contrôlée et non contrôlée sous grande entropie. L'utilité de la méthode proposée est démontrée au moyen d'exemples.

    Date de diffusion : 2007-06-28

Références (44)

Références (44) (25 of 44 results)

  • Produits techniques : 11-522-X201700014755
    Description :

    La National Children Study, dans sa phase pilote, est une étude de cohorte épidémiologique à grande échelle des enfants et de leurs parents. Des mesures ont été recueillies, de la période précédant la grossesse jusqu’à ce que l’enfant atteigne l’âge adulte. L’utilisation des données existantes visait à compléter la collecte directe de données auprès des répondants. Notre document énonce la stratégie pour le catalogage et l’évaluation des sources de données existantes, en vue de leur utilisation longitudinale à grande échelle. Dans le cadre de notre examen, nous avons sélectionné cinq facteurs d’évaluation pour guider les chercheurs à l’égard des sources de données disponibles : 1) pertinence, 2) actualité, 3) spatialité, 4) accessibilité et 5) exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014750
    Description :

    Le Fichier maître de l’éducation (FME) est un système qui a été élaboré pour permettre l’analyse des programmes d’enseignement au Canada. Le noyau du système est constitué de fichiers administratifs comprenant toutes les inscriptions aux programmes postsecondaires et d’apprentissage au Canada. De nouveaux fichiers administratifs deviennent disponibles sur une base annuelle. Lorsqu’un nouveau fichier devient disponible, il est d’abord sujet à un traitement initial, qui comprend un couplage avec d’autres dossiers administratifs. Ce couplage produit de l’information qui peut améliorer la qualité du fichier; il permet d’autres couplages avec d’autres données décrivant le marché du travail, et il constitue la première étape pour ajouter le fichier au FME. Une fois qu’elle fait partie du FME, l’information du fichier peut être incluse dans des projets transversaux ou longitudinaux, afin d’étudier les cheminements scolaires et les résultats sur le marché du travail par suite de l’obtention du diplôme. À l’heure actuelle, le FME comprend des données de 2005 à 2013, mais il évolue à mesure que de nouvelles données deviennent disponibles. Le présent document donne un aperçu des mécanismes utilisés pour créer le FME, en mettant l’accent sur la structure du système final et une partie de son potentiel analytique.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014279
    Description :

    Dans le cadre du projet européen SustainCity, un modèle de microsimulation des individus et des ménages a été créé en vue de simuler la population de différentes métropoles européennes. L’objectif du projet était d’unir plusieurs modèles de microsimulation de transports et d’occupation des sols (land use modelling), de leur adjoindre un module dynamique de population et d’appliquer ces approches de microsimulation à trois zones géographiques d’Europe (la région d’Île de France et les agglomérations de Bruxelles et Zurich).

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014276
    Description :

    En France, les contraintes budgétaires rendent plus difficile l’embauche d’enquêteurs occasionnels pour prendre en compte des problèmes de collecte. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée. Pour les enquêtes Insee, réalisées à partir d’un échantillon maître, les difficultés apparaissent lors de l’absence prolongée d’un enquêteur sur l’ensemble de la durée de la collecte d’une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l’enquête, ce qui génère de fait un biais. Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en oeuvre en fonction du moment où le problème est diagnostiqué. Si l’ « abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en oeuvre. Elle consiste à interroger un minimum de ménages dans chaque zone de collecte au détriment d’autres zones pour lesquelles aucun problème de collecte n’est a priori diagnostiqué. Il s’agit donc de minimiser la dispersion des poids sous contrainte de respect de la charge de collecte. Si l’ « abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en oeuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d’un échantillon par rapport à la population de base. L’objectif de cette priorisation en cours de collecte est de s’approcher le plus possible au final d’une équi-probabilité de réponse des répondants. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d’analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d’intensifier les efforts de collecte sur les groupes précédemment identifiés. Lors de la présentation orale, les deux points avaient été évoqués succinctement. Toutefois, cet article ne traite que du premier point évoqué ci-dessus, à savoir la « sous-allocation ». La priorisation est en cours de mise en oeuvre pour la première fois à l’Insee pour l’enquête Patrimoine et elle donnera lieu à un article spécifique qui sera rédigé par A. Rebecq.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014273
    Description :

    De plus en plus de données sont produites au moyen du nombre croissant de dispositifs électroniques qui nous entourent et que l’on retrouve sur Internet. La grande quantité de données et la fréquence élevée à laquelle elles sont produites ont donné lieu à l’introduction du terme « mégadonnées ». Compte tenu du fait que ces données rendent compte de nombreux aspects différents de nos vies au quotidien, et en raison de leur abondance et de leur disponibilité, les sources de mégadonnées sont très intéressantes du point de vue des statistiques officielles. Toutefois, les premières expériences obtenues suite aux analyses de grandes quantités d’enregistrements de boucles de détection de véhicules au Pays-Bas, d’enregistrements des détails des appels de téléphones mobiles et de messages des médias sociaux aux Pays-Bas révèlent qu’un certain nombre de défis doivent être résolus pour permettre l’application de ces sources de données aux statistiques officielles. Ces défis, ainsi que les leçons apprises pendant les études initiales, seront traitées et illustrées au moyen d’exemples. De façon plus particulière, les sujets suivants sont abordés : les trois types généraux de mégadonnées définis, la nécessité d’accéder à des quantités importantes de données et de les analyser, la façon de traiter les données qui comportent du bruit et d’aborder la sélectivité (ainsi que notre propre biais concernant ce sujet), comment aller au-delà de la corrélation, la façon de trouver les personnes ayant les compétences adéquates et la bonne attitude pour exécuter ce travail, et comment nous avons traité les problèmes de protection des renseignements personnels et de sécurité.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010954
    Description :

    Au cours de la dernière année, Statistique Canada a conçu et mis à l'essai un nouveau moyen d'évaluer le rendement des intervieweurs qui procèdent aux interviews sur place assistées par ordinateur (IPAO). Un processus officiel existe déjà pour la surveillance des interviews téléphoniques centralisées. Les surveillants écoutent les interviews téléphoniques pendant qu'elles ont lieu pour évaluer l'exécution des tâches par l'intervieweur en fonction de critères préétablis et faire des commentaires à ce dernier pour lui indiquer ce qu'il a bien fait et ce qu'il doit améliorer. Pour les programmes d'IPAO, nous avons élaboré et mettons à l'essai une méthode pilote par laquelle des interviews sont enregistrées de façon numérique puis le surveillant écoute ces enregistrements afin d'évaluer le rendement de l'intervieweur sur le terrain et de lui fournir de la rétroaction qui aidera la qualité des données. Dans le présent article, nous donnons un aperçu du projet de surveillance de l'IPAO à Statistique Canada en décrivant la méthodologie de surveillance de l'IPAO et les plans de mise en oeuvre.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010950
    Description :

    Le prochain recensement aura lieu en mai 2011. Cette enquête d'envergure représente un défi particulier pour Statistique Canada et demande beaucoup de temps et de ressources. Une planification serrée a été mise en place afin d'atteindre tous les échéanciers. Plusieurs étapes de mise à l'essai du questionnaire ont été prévues. Ces tests portent sur le contenu du recensement mais abordent aussi la stratégie de communication prévue. Cet article a pour but de présenter un portrait global de la stratégie. De plus, l'emphase sera mise sur l'intégration des études qualitatives à l'étude quantitative faites en 2008 afin de pouvoir analyser les résultats et ainsi obtenir une meilleure évaluation des propositions.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010996
    Description :

    Au cours des dernières années, l'utilisation des paradonnées a pris de plus en plus d'importance dans le cadre de la gestion des activités de collecte à Statistique Canada. Une attention particulière a été accordée aux enquêtes sociales menées par téléphone, comme l'Enquête sur la dynamique du travail et du revenu (EDTR). Lors des dernières activités de collecte de l'EDTR, une limite de 40 tentatives d'appel a été instaurée. Des examens des fichiers de l'historique des transactions Blaise de l'EDTR ont été entrepris afin d'évaluer l'incidence de la limite des tentatives d'appel. Tandis que l'objectif de la première étude était de réunir les renseignements nécessaires à l'établissement de la limite des tentatives d'appel, la seconde étude portait sur la nature de la non-réponse dans le contexte de la limite de 40 tentatives.

    L'utilisation des paradonnées comme information auxiliaire pour étudier et expliquer la non-réponse a aussi été examinée. Des modèles d'ajustement pour la non-réponse utilisant différentes variables de paradonnées recueillies à l'étape de la collecte ont été comparés aux modèles actuels basés sur de l'information auxiliaire tirée de l'Enquête sur la population active.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010965
    Description :

    Les enquêtes qui reposent sur plus d'un mode de collecte des données (enquête Web, ITAO, questionnaire papier) sont de plus en plus fréquentes. Mathematica Policy Research, Inc. (MPR) a déployé plusieurs enquêtes de ce type avec le logiciel Blaise. La présente communication passe en revue les résultats de ces expériences en abordant l'instrumentation, la gestion d'une enquête, ainsi que d'autres aspects. Elle met en relief la mise en oeuvre électronique de ces enquêtes et couvre des sujets qui découlent uniquement de la nature multimodale des enquêtes, soit des aspects qui vont au-delà de la mise en oeuvre d'une enquête à mode de collecte unique.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011005
    Description :

    En 2006, Statistics New Zealand a entrepris d'élaborer une stratégie de coordination des initiatives nouvelles et existantes centrées sur le fardeau imposé au répondant. L'élaboration de cette stratégie a duré plus d'un an, et l'engagement qu'a ensuite pris l'organisme de réduire le fardeau de réponse l'a obligé à résoudre un certain nombre de questions ayant une incidence sur la façon dont il exécute ses enquêtes.

    Le prochain défi que doit relever Statistics New Zealand est de passer des initiatives axées sur des projets décrits dans la stratégie à la gestion continue du fardeau de réponse.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010979
    Description :

    Avant 2006, il fallait compter sur le personnel sur le terrain pour livrer les questionnaires du Recensement de la population à tous les logements du Canada. En 2006, on a établi une base de sondage des adresses couvrant presque 70 % des logements du pays et ces questionnaires ont été livrés par Postes Canada. Pour le Recensement de 2011, Statistique Canada prévoit élargir cette base de sondage afin d'envoyer les questionnaires par la poste à quelque 80 % à 85 % des logements. L'envoi des questionnaires du recensement par la poste soulève un certain nombre d'enjeux : s'assurer que les questionnaires renvoyés sont comptabilisés dans le bon secteur, mettre à jour la base de sondage des adresses au fur et à mesure des ajouts et déterminer les secteurs où il n'est pas indiqué de poster les questionnaires. Les modifications apportées à la méthode de mise à jour de la base de sondage pour 2011, notamment la décision d'utiliser des données purement administratives dans la mesure du possible et d'effectuer des mises à jour sur le terrain uniquement lorsque cela s'avère nécessaire, comportent de nouveaux défis pour la tenue du Recensement de 2011.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010958
    Description :

    L'entrée de données par téléphone (EDT) est un système qui permet aux participants aux enquêtes d'envoyer leurs données à l'Office for National Statistics (ONS) en se servant du clavier de leur téléphone et qui, à l'heure actuelle, représente environ 12 % du total des réponses aux enquêtes auprès des entreprises de l'ONS. Ce dernier a entrepris d'accroître le nombre d'enquêtes dans lesquelles l'EDT est utilisée comme mode principal de réponse et le présent article donne un aperçu du projet de redéveloppement, du remaniement du questionnaire imprimé, des améliorations apportées au système d'EDT et des résultats de l'essai pilote de ces changements. L'amélioration de la qualité des données reçues et l'accroissement de la réponse par EDT à la suite de ces travaux de développement donnent à penser qu'il est possible d'améliorer la qualité des données et de réduire les coûts en promouvant l'utilisation de l'EDT comme mode principal de réponse aux enquêtes à court terme.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010970
    Description :

    RTI International mène une étude longitudinale sur l'éducation. L'un des volets de l'étude consistait à recueillir des relevés de notes et des catalogues de cours auprès des écoles secondaires fréquentées par les personnes comprises dans l'échantillon. Il fallait aussi saisir et coder les renseignements tirés de ces documents. Le défi était de taille puisque les relevés et les catalogues, dont le contenu et la présentation variaient grandement, ont été recueillis auprès de différents types d'écoles, dont des écoles publiques, privées et religieuses de tout le pays. La difficulté consistait à concevoir un système perfectionné pouvant être utilisé simultanément par de nombreux utilisateurs. RTI a mis au point un système de saisie et de codage des données tirées des relevés de notes et des catalogues de cours d'études secondaires. Doté de toutes les caractéristiques d'un système de saisie et de codage haut de gamme, évolué, multi-utilisateur, multitâche, convivial et d'entretien peu coûteux, le système est basé sur le Web et possède trois grandes fonctions : la saisie et le codage des données des relevés et des catalogues, le contrôle de la qualité des données à l'étape de la saisie (par les opérateurs) et le contrôle de la qualité des données à l'étape du codage (par les gestionnaires). Compte tenu de la nature complexe de la saisie et du codage des données des relevés et des catalogues, le système a été conçu pour être souple et pour permettre le transport des données saisies et codées dans tout le système afin de réduire le temps de saisie. Il peut aussi guider logiquement les utilisateurs dans toutes les pages liées à un type d'activité, afficher l'information nécessaire pour faciliter la saisie et suivre toutes les activités de saisie, de codage et de contrôle de la qualité. Les données de centaines de catalogues et de milliers de relevés de notes ont été saisies, codées et vérifiées à l'aide du système. La présente communication aborde les besoins et la conception du système, les problèmes de mise en oeuvre et les solutions adoptées, ainsi que les leçons tirées de cette expérience.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011015
    Description :

    Le bureau sud-africain de la statistique (BSAS) est fier de l'exactitude et de la validité des données recueillies, traitées et diffusées. L'adoption d'un système de gestion en temps réel (SGTR) et du système mondial de localisation (GPS) dans les opérations sur le terrain a pour objectif d'améliorer le processus de collecte des données, de réduire au minimum les erreurs relatives à la localisation des logements échantillonnés et de suivre le matériel d'un maillon de la chaîne d'enquête à l'autre.

    La Quarterly Labour Force Survey (QLFS) est un projet novateur du BSAS : l'échantillon principal (EP) est lié à une base de données GPS, de telle sorte que chaque enregistrement inscrit sur la liste de cet EP est rattaché aux coordonnées GPS correspondantes. Ces coordonnées GPS permettent à l'agent d'enquête de consigner spatialement la localisation des enregistrements sur le terrain (magasins, logements, écoles, églises, etc.). L'information saisie est ensuite liée à un fichier forme qui indique où se trouvent les structures sur le terrain relativement aux dossiers manuels de listage.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010962
    Description :

    L'ÉLDEQ a entrepris, en mars 2008, une collecte de données spéciale avec cueillette de matériel biologique auprès de 1 973 familles sollicitées. Lors d'une visite-type, l'infirmière recueille un prélèvement de sang ou de salive auprès de l'enfant-cible et procède à une série de mesures : anthropométrie, rythme cardiaque, tension artérielle, et administration de questionnaires. Planifiée et supervisée par l'Institut de la Statistique du Québec (ISQ) et l'Université de Montréal, cette collecte est réalisée en collaboration avec deux firmes privées et plusieurs hôpitaux. Le choix des modes de collecte, le partage des rôles entre les différents acteurs, la séquence des communications et contacts auprès des répondants, le dépistage des familles non retracées ainsi que le suivi des prélèvements biologiques sont abordés dans cet article. Des résultats préliminaires de terrain sont aussi présentés.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110812
    Description :

    L'estimation de la variance en présence de données imputées a fait couler beaucoup d'encre. Il est bien connu que le fait de traiter les valeurs imputées comme s'il s'agissait de valeurs observées peut entraîner une sous-estimation grave de la variance de l'estimateur imputé. Plusieurs approches et techniques ont été mises au point ces dernières années. Plus précisément, Rao et Shao (1992) ont proposé un estimateur jackknife modifié qui fonctionne bien lorsque la fraction de sondage est petite. Toutefois, dans bien des cas, cette condition n'est pas satisfaite. Par conséquent, l'estimateur jackknife modifié de Rao-Shao peut donner lieu à des estimateurs invalides de la variance. Pour surmonter ce problème, Lee, Rancourt et Särndal (1995) ont proposé d'apporter un rectificatif simple à l'estimateur jackknife modifié de Rao-Shao. Dans notre présentation, nous expliquons les propriétés de l'estimateur de la variance obtenu dans le cadre d'un échantillonnage aléatoire simple stratifié sans remplacement. Par ailleurs, en utilisant l'approche inversée élaborée par Shao et Steel (1999), nous examinons un autre estimateur de la variance qui fonctionne bien lorsque les fractions de sondage ne sont pas négligeables. Nous aborderons brièvement le cas des plans de sondage probabilistes inégaux, tels que la probabilité proportionnelle à la taille.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110452
    Description :

    Des renseignements exacts sur le moment de l'accès aux soins de santé mentale primaires sont d'importance capitale pour permettre de cerner les facteurs éventuellement modifiables qui pourraient faciliter la gestion permanente et en temps opportun des soins. Comme il n'existe pas de mesure "idéale" de l'utilisation des soins de santé mentale, il est utile de savoir comment les points forts, les lacunes et les limites des différentes sources de données influent sur les résultats des études. La présente étude compare deux mesures des données sur l'utilisation des soins de santé mentale primaires à l'échelle de la population, soit le volet Santé mentale et bien être de l'Enquête sur la santé dans les collectivités canadiennes (ESCC, cycle 1.2) et les dossiers d'assurance maladie dans la province de la Colombie Britannique. Elle porte sur les quatre questions suivantes : 1) La prévalence sur 12 mois des contacts avec les omnipraticiens concernant des problèmes de santé mentale est elle la même d'après les données d'enquête et les données administratives? (2) Quel est le niveau de concordance entre les données d'enquête et les données administratives en ce qui concerne les contacts avec un omnipraticien pour des problèmes de santé mentale durant les 12 mois précédant l'interview d'enquête? (3) Le niveau de concordance est il constant au cours de la période de 12 mois ou bien baisse t il au cours de sous périodes plus éloignées durant la période de 12 mois? (4) Quelles sortes de caractéristiques des répondants, y compris les troubles mentaux, sont associées à la concordance ou à l'absence de concordance? Les résultats de cette étude fourniront des renseignements utiles sur la façon d'utiliser et d'interpréter chaque mesure de l'utilisation des soins de santé. En outre, cette étude contribuera de façon utile aux recherches sur le plan d'enquête et à celles qui visent à améliorer les méthodes d'utilisation des données administratives aux fins de recherches sur les services de santé mentale.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019469
    Description :

    Les années 1990 ont été la décennie des enquêtes longitudinales au Canada. L'accent était mis nettement sur les avantages que l'on pourrait tirer du pouvoir analytique accru offert par ces enquêtes. La communication traite de questions comme les éclaircissements obtenus, l'actualité des données, l'accès aux données, le plan de sondage, la complexité, la capacité de recherche, la gouvernance des enquêtes et la mobilisation des connaissances. La communication expose dans les grandes lignes des questions qui seront vraisemblablement soulevées lors de tout débat concernant les enquêtes longitudinales.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019454
    Description :

    Le projet de refonte du RE vise à simplifier, optimiser et harmoniser les processus et les méthodes. La présente communication fournit un aperçu de la refonte du RE et met l'accent sur les enjeux qui affectent la méthodologie des enquêtes auprès des entreprises.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019493
    Description :

    Cet article présente l'Office général de la statistique du Vietnam, établi à Hanoï, et décrit les enquêtes socioéconomiques menées au Vietnam depuis le début des années 1990 en faisant état de leurs méthodes, de leurs réalisations et des problèmes qui restent à résoudre.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019453
    Description :

    L'Office for National Statistics (ONS) du Royaume-Uni lance un programme de développement visant les enquêtes entreprises, en vue de satisfaire aux recommandations d'un rapport gouvernemental récent demandant que l'on améliore les statistiques économiques, et plus particulièrement les statistiques économiques régionales.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20040018749
    Description :

    Pour mesurer la santé mentale des réfugiés cambodgiens aux É-U, ce document présente une nouvelle méthode efficiente de dénombrement, de sélection et de caractérisation des ménages afin de créer un échantillon aléatoire de participants admissibles.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018757
    Description :

    Pour traiter de mauvaises bases et mesurer des caractéristiques rares, l'ONS dresse des registres satellites basés sur une source administrative, construit un panel contenant l'information historique, ou utilise des questions filtres d'enquêtes générales.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017714
    Description :

    Ce document porte sur les nouveaux outils conceptuels, organisationnels et statistiques ainsi que les outils consacrés au calcul qui servent à améliorer les enquêtes.

    Date de diffusion : 2005-01-26

Date de modification :