Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

127 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

127 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

127 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Auteur(s)

127 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (167)

Tout (167) (25 of 167 results)

  • Articles et rapports : 82-003-X201700614829
    Description :

    Le POHEM-IMC est un outil de microsimulation comprenant un modèle de l’IMC chez les adultes et un modèle des antécédents en matière d’IMC pendant l’enfance. Cet aperçu décrit l’élaboration de modèles de prédiction de l’IMC chez les adultes et des antécédents en matière d’IMC pendant l’enfance, et compare les estimations de l’IMC projetées aux estimations issues de données d’enquête représentatives de la population canadienne pour en établir la validité.

    Date de diffusion : 2017-06-21

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Produits techniques : 11-522-X201700014729
    Description :

    Les ensembles de données administratives servent de plus en plus couramment de sources de données en statistique officielle dans le cadre d’efforts visant à produire plus efficacement un plus grand nombre de produits. De nombreux produits résultent du couplage de deux ensembles de données ou plus, souvent réalisé en plusieurs phases en appliquant différentes méthodes et règles. Dans ces situations, nous aimerions pouvoir évaluer la qualité du couplage, ce qui comprend une certaine réévaluation des liens ainsi que des non-liens. Dans le présent article, nous discutons de méthodes d’échantillonnage en vue d’obtenir des estimations du nombre de faux négatifs et de faux positifs, en exerçant un contrôle raisonnable sur l’exactitude des estimations ainsi que sur les coûts. Des approches de stratification des liens (non-liens) pour l’échantillonnage sont évaluées en utilisant des données provenant du recensement de la population de l’Angleterre et du Pays de Galles de 2011.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014755
    Description :

    La National Children Study, dans sa phase pilote, est une étude de cohorte épidémiologique à grande échelle des enfants et de leurs parents. Des mesures ont été recueillies, de la période précédant la grossesse jusqu’à ce que l’enfant atteigne l’âge adulte. L’utilisation des données existantes visait à compléter la collecte directe de données auprès des répondants. Notre document énonce la stratégie pour le catalogage et l’évaluation des sources de données existantes, en vue de leur utilisation longitudinale à grande échelle. Dans le cadre de notre examen, nous avons sélectionné cinq facteurs d’évaluation pour guider les chercheurs à l’égard des sources de données disponibles : 1) pertinence, 2) actualité, 3) spatialité, 4) accessibilité et 5) exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014719
    Description :

    Les initiatives de données ouvertes transforment la façon dont les gouvernements et d’autres institutions publiques interagissent et fournissent des services à leurs mandants. Elles accroissent la transparence et la valeur de l’information pour les citoyens, réduisent les inefficacités et les obstacles à l’information, rendent possible des applications guidées par les données qui améliorent la prestation des services publics, et fournissent des données publiques pouvant susciter des possibilités économiques novatrices. Étant l’un des premiers organismes internationaux à adopter une politique de données ouvertes, la Banque mondiale a orienté et offert des conseils techniques aux pays en voie de développement qui envisagent de mettre en place ou qui conçoivent leurs propres initiatives. La présente communication donnera un aperçu des faits nouveaux en matière de données ouvertes sur le plan international, ainsi que des expériences, des défis et des possibilités actuels et futurs. M. Herzog discutera des raisons qui poussent les gouvernements à adopter les données ouvertes, des avantages prouvés de celles-ci pour les secteurs public et privé, de l’éventail d’approches que suivent les gouvernements, et des outils à la disposition des décideurs, en insistant tout spécialement sur les rôles et perspectives des bureaux nationaux de la statistique au sein d’une initiative pangouvernementale.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014740
    Description :

    Dans le présent document, nous abordons les répercussions des prestations d’emploi et mesures de soutien versées au Canada, en vertu des Ententes sur le développement du marché du travail. Nous utilisons un ensemble riche de données administratives longitudinales couplées englobant tous les participants aux EDMT de 2002 à 2005. Sur la base d’un appariement par score de propension, comme dans Blundell et coll. (2002), Gerfin et Lechner (2002), et Sianesi (2004), nous avons produit des estimations de l’impact différentiel à l’échelle nationale à partir d’un estimateur de l’écart des différences et d’un estimateur par la méthode du noyau (Heckman et Smith, 1999). Les résultats laissent supposer que, tant pour les Services d’aide à l’emploi que pour les programmes de prestations d’emploi, comme le Développement des compétences et les Subventions salariales ciblées, des effets positifs se font sentir sur la rémunération et l’emploi.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014746
    Description :

    Les recherches sur les paradonnées ont tenté de trouver des occasions d’améliorer la collecte de données d’un point de vue stratégique qui soient viables au niveau opérationnel, qui améliorent la qualité des données ou qui permettent de réaliser des économies. À cet égard, Statistique Canada a élaboré et mis en œuvre une stratégie de plan de collecte adaptatif (PCA) pour les enquêtes auprès des ménages utilisant les interviews téléphoniques assistées par ordinateur (ITAO), afin de maximiser la qualité et de potentiellement réduire les coûts. Le PCA est une approche adaptative pour la collecte de données d’enquêtes qui utilise l’information disponible avant et pendant la collecte des données, afin de rajuster la stratégie de collecte pour le reste des cas en cours. En pratique, les gestionnaires d’enquête contrôlent et analysent les progrès de la collecte par rapport à un ensemble d’indicateurs prédéterminés, à deux fins : déterminer les étapes essentielles de la collecte des données pour lesquelles des changements significatifs doivent être apportés à l’approche de la collecte, et rajuster les stratégies de collecte afin d’utiliser le plus efficacement possible les ressources qui demeurent disponibles. Dans le contexte du PCA, de nombreuses considérations entrent en jeu lorsqu’il faut déterminer les aspects de la collecte des données qui doivent être rajustés et la façon de procéder. Les sources de paradonnées jouent un rôle essentiel dans la planification, l’élaboration et la mise en œuvre de la gestion active dans le cadre des enquêtes fondées sur le PCA. Depuis 2009, Statistique Canada a mené plusieurs enquêtes à l’aide du PCA. Le présent document décrit les expériences de Statistique Canada lors de la mise en œuvre et de la surveillance de ces enquêtes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014742
    Description :

    Cette communication décrit le Quick Match System (QMS), une application interne conçue pour apparier les enregistrements de microdonnées d’entreprises, et les méthodes utilisées pour coupler l’ensemble de données du United States Patent and Trademark Office (USPTO) et le Registre des entreprises (RE) de Statistique Canada pour la période de 2000 à 2011. La communication illustre le cadre de couplage des enregistrements et fait état des techniques utilisées pour préparer et classer chaque enregistrement, ainsi que pour évaluer les résultats de l’appariement. L’ensemble de données du USPTO comprenait 41 619 brevets américains accordés à 14 162 entités canadiennes distinctes. Le processus de couplage d’enregistrements a permis d’apparier les noms, la ville, la province et les codes postaux des cessionnaires de brevets de l’ensemble de données du USPTO avec ceux des entreprises des versions de janvier du Fichier générique de l’univers de l’enquête (FGUE) tiré du RE pour la même période de référence. Étant donné que la grande majorité des particuliers cessionnaires de brevets n’ont pas d’activité commerciale produisant des biens ou des services imposables, ils ont tendance à ne pas figurer dans le RE. Le taux d’appariement relativement faible de 24,5 % parmi les particuliers, comparativement à 84,7 % parmi les établissements, rend compte de cette tendance. Même si les 8 844 particuliers cessionnaires de brevets dépassaient en nombre les 5 318 établissements, ces derniers étaient à l’origine de 73,0 % des brevets, comparativement à 27,0 % pour les particuliers. Par conséquent, cette étude et ses conclusions sont axées principalement sur les cessionnaires de brevets institutionnels. Le couplage des établissements du USPTO et du RE est important parce qu’il donne accès à des microdonnées sur les caractéristiques des entreprises, l’emploi, le revenu, ainsi que l’actif et le passif. En outre, la récupération d’identificateurs administratifs robustes permet un couplage subséquent avec d’autres sources de données d’enquête et de données administratives. L’ensemble de données intégrées appuiera des études analytiques directes et comparatives du rendement des établissements canadiens qui ont obtenu des brevets aux États-Unis entre 2000 et 2011.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014718
    Description :

    La présente étude vise à déterminer si le fait de commencer à participer aux Services d’aide à l’emploi (SAE) tôt après la présentation de la demande d’assurance-emploi (a.-e.) donne de meilleurs résultats pour les chômeurs que leur participation plus tardive durant la période de prestations. Comme dans Sianesi (2004) et dans Hujer et Thomsen (2010), l’analyse s’appuie sur une méthode d’appariement par score de propension stratifié, conditionnelle à la durée discrétisée de la période de chômage jusqu’au commencement du programme. Les résultats montrent que les personnes qui ont participé aux SAE dans les quatre premières semaines après la présentation de la demande d’assurance-emploi sont celles chez lesquelles les effets sur la rémunération et l’incidence de l’emploi ont été les meilleurs et que ces personnes ont également vu se réduire l’utilisation de l’assurance-emploi à partir de la deuxième année après le programme.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014714
    Description :

    Les Ententes sur le développement du marché du travail (EDMT) sont des ententes entre le Canada et les provinces et territoires visant à financer la formation et les services de soutien sur le marché du travail pour les prestataires d’assurance-emploi. L’objectif de cette communication est d’examiner les améliorations au fil des ans de la méthode d’évaluation des répercussions. Le présent document décrit les EDMT et les travaux d’élaboration passés et mentionne les raisons qui motivent une meilleure utilisation de fonds de données administratives importants. Suit une explication détaillée de la façon dont la nouvelle approche a fait en sorte que le processus d’évaluation nécessite moins de ressources, alors que les résultats s’appliquent mieux à l’élaboration de politiques. Le document fait aussi état des leçons apprises d’un point de vue méthodologique et fournit un aperçu des façons de rendre efficace ce type d’utilisation des données administratives, particulièrement dans le contexte des grands programmes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014726
    Description :

    La migration interne constitue l’une des composantes de l’accroissement démographique estimées à Statistique Canada. Elle est estimée en comparant l’adresse des individus au début et à la fin d’une période donnée. Les principales données exploitées sont celles de la Prestation fiscale canadienne pour enfants et celles du fichier T1 sur la famille. La qualité des adresses et la couverture de sous-populations plus mobiles jouent un rôle capital dans le calcul d’estimations de bonne qualité. L’objectif de cet article est de présenter les résultats d’évaluations reliées à ces aspects, profitant de l’accès à un plus grand nombre de sources de données fiscales à Statistique Canada.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014716
    Description :

    Les données administratives, selon leur source et leur objectif original, peuvent être considérées comme plus fiables au chapitre de l’information que les données recueillies dans le cadre d’une enquête. Elles ne nécessitent pas qu’un répondant soit présent et comprenne le libellé des questions, et elles ne sont pas limitées par la capacité du répondant à se rappeler des événements rétrospectivement. La présente communication compare certaines données d’enquête, comme des variables démographiques, tirées de l’Étude longitudinale et internationale des adultes (ELIA), à diverses sources administratives pour lesquelles des ententes de couplage avec l’ELIA sont en place. La correspondance entre les sources de données, et certains des facteurs qui pourraient l’affecter, sont analysés pour divers aspects de l’enquête.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014732
    Description :

    L’Institute for Employment Research (IAB) est le service de recherche de l’Agence fédérale allemande de placement. Par l’entremise du Centre de données de recherche (FDZ) à l’IAB, des données administratives et des données d’enquête sur les personnes et les établissements sont fournies aux chercheurs. En collaboration avec l’Institute for the Study of Labor (IZA), le FDZ a mis en œuvre l’application de soumission des travaux (JoSuA), qui permet aux chercheurs de soumettre des travaux, en vue du traitement des données à distance grâce à une interface Web personnalisée. Par ailleurs, deux types de fichiers de sortie produits pour l’utilisateur peuvent être reconnus dans l’environnement JoSuA, ce qui permet de fournir des services d’examen de la divulgation plus rapides et plus efficaces.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014711
    Description :

    Après le Recensement de 2010, le U.S. Census Bureau a mené deux projets de recherche distincts, en vue d’apparier des données d’enquête et des bases de données. Dans le cadre d’une étude, on a procédé à un appariement avec la base de données du tiers Accurint, et dans un autre cas, avec les fichiers du National Change of Address (NCOA) du U.S. Postal Service. Dans ces deux projets, nous avons évalué l’erreur de réponse dans les dates de déménagement déclarées en comparant les dates de déménagement autodéclarées et les enregistrements de la base de données. Nous avons fait face aux mêmes défis dans le cadre des deux projets. Le présent document aborde notre expérience de l’utilisation des « mégadonnées », en tant que source de comparaison pour les données d’enquête, ainsi que les leçons que nous avons apprises pour des projets futurs similaires à ceux que nous avons menés.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014743
    Description :

    Le couplage probabiliste est susceptible de donner des erreurs d’appariement telles que les faux positifs et les faux négatifs . Dans de nombreux cas, ces erreurs peuvent être mesurées fiablement par des vérifications manuelles, c’est-à-dire l’inspection visuelle d’un échantillon de paires d’enregistrements pour déterminer si elles sont appariées. Nous décrivons un cadre pour la bonne exécution de ces vérifications qui se fonde sur un échantillon probabiliste de paires, des vérifications indépendantes répétées de mêmes paires et une analyse de classes latentes pour tenir compte des erreurs de vérification manuelle.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014725
    Description :

    Les données fiscales sont de plus en plus exploitées pour la mesure et l’analyse de la population et de ses caractéristiques. Un des enjeux soulevés par l’utilisation croissante de ce type de données concerne la définition du concept du lieu de résidence. Si le recensement se base sur le concept du lieu habituel de résidence, les données fiscales nous renseignent sur l’adresse postale des déclarants. Au moyen d’un couplage d’enregistrements entre le recensement, l’Enquête nationale auprès des ménages et les données fiscales du fichier T1 sur la famille, cette étud

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500214236
    Description :

    Nous proposons une extension assistée par modèle des mesures de l’effet de plan dû à la pondération. Nous élaborons une statistique de niveau sommaire pour différentes variables d’intérêt, sous échantillonnage à un degré et ajustement des poids par calage. La mesure de l’effet de plan que nous proposons traduit les effets conjoints d’un plan d’échantillonnage avec probabilités de sélection inégales, des poids inégaux produits en utilisant des ajustements par calage et de la force de l’association entre la variable d’analyse et les variables auxiliaires utilisées pour le calage. Nous comparons la mesure proposée aux mesures existantes de l’effet de plan au moyen de simulations en utilisant des variables semblables à celles pour lesquelles des données sont recueillies dans les enquêtes auprès des établissements et dans les enquêtes téléphoniques auprès des ménages.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214229
    Description :

    L’estimation autopondérée au moyen de méthodes d’échantillonnage avec probabilités égales (epsem pour equal probability selection methods) est souhaitable pour des raisons d’efficacité relativement à la variance. Habituellement, pour obtenir la propriété epsem pour des plans de sondage à deux degrés (et à une phase) en vue d’estimer des paramètres au niveau de la population, on utilise le chiffre de population de chaque unité primaire d’échantillonnage (UPE) comme mesure de taille pour la sélection des UPE, ainsi que l’attribution d’une taille d’échantillon égale aux UPE sous échantillonnage aléatoire simple (EAS) des unités élémentaires. Cependant, si l’on souhaite des estimations autopondérées pour les paramètres correspondant à de multiples domaines sous une répartition préétablie de l’échantillon entre les domaines, Folsom, Potter et Williams (1987) ont montré que l’on peut utiliser une mesure composite de taille pour sélectionner les UPE afin d’obtenir des plans epsem quand on suppose qu’outre les chiffres de population des UPE au niveau des domaines (c’est à dire la répartition de la population entre les domaines dans les UPE), les identificateurs de domaines pour les unités élémentaires sont également disponibles dans la base de sondage. Le terme depsem-A sera utilisé pour désigner ce genre de plan de sondage à deux degrés (et à une phase) pour obtenir l’estimation epsem au niveau du domaine. Folsom et coll. ont également considéré des plans d’échantillonnage à deux phases et à deux degrés quand les chiffres de population des UPE au niveau des domaines sont inconnus, mais que les dénombrements d’UPE entières sont connus. Pour ces plans (que nous désignerons depsem-B) avec les UPE sélectionnées avec probabilité proportionnelle à la mesure de taille habituelle (c’est à dire la population totale de l’UPE) au premier degré, toutes les unités élémentaires dans chaque UPE sélectionnée font d’abord l’objet d’une présélection en vue de les classer par domaine à la première phase de collecte des données, avant la sélection par EAS au deuxième degré d’échantillonnage. Des échantillons stratifiés par domaine sont ensuite sélectionnés dans les UPE en appliquant des taux d’échantillonnage de domaine choisis de manière appropriée pour que les tailles d’échantillon de domaine obtenues soient celles souhaitées et que le plan d’échantillonnage résultant soit autopondéré. Dans le présent article, nous commençons par donner une justification simple des mesures composites de taille pour le plan depsem-A et des taux d’échantillonnage de domaine pour le plan depsem-B. Puis, pour les plans depsem-A et -B, nous proposons des généralisations, premièrement aux cas pour lesquels les identificateurs de domaine pour les unités élémentaires ne sont pas disponibles dans la base de sondage et les chiffres de population des UPE au niveau des domaines ne sont connus qu’approximativement à partir d’autres sources, et deuxièmement, aux cas pour lesquels les mesures de taille des UPE sont préétablies en se basant sur d’autres considérations pratiques et souhaitables de suréchantillonnage ou de sous-échantillonnage de certains domaines. Nous présentons aussi une généralisation supplémentaire en présence de sous-échantillonnage des unités élémentaires et de non-réponse dans certaines UPE à la première phase, avant la sélection des unités élémentaires de deuxième phase dans les domaines à l’intérieur de chaque UPE sélectionnée. Cette dernière généralisation du plan depsem-B est illustrée pour un échantillon aréolaire de logements.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014278
    Description :

    En janvier et février 2014, Statistique Canada a réalisé un essai en vue de mesurer l’efficacité des diverses stratégies de collecte au moyen d’une enquête en ligne fondée sur l’autodéclaration. On a communiqué avec les unités échantillonnées en leur envoyant des lettres de présentation par la poste et on leur a demandé de répondre à l’enquête en ligne, sans contact avec un intervieweur. L’essai visait à mesurer les taux de participation à une enquête en ligne, ainsi que les profils des répondants et des non-répondants. On a mis à l’essai différents échantillons et lettres, afin de déterminer l’efficacité relative des diverses méthodes. Les résultats du projet serviront à renseigner les responsables de diverses enquêtes sociales qui se préparent à ajouter à leurs enquêtes la possibilité d’y répondre par Internet. Le document présentera la méthode générale de l’essai, ainsi que les résultats observés pendant la collecte et l’analyse des profils.

    Date de diffusion : 2014-10-31

Données (1)

Données (1) (1 result)

  • Tableau : 62-010-X19970023422
    Description :

    La période de base officielle de l'indice des prix à la consommation (IPC) est actuellement 1986=100. Cette période de base a été utilisée pour la première fois au moment de la diffusion des données de l'IPC pour juin 1990. Statistique Canada s'apprête à convertir toutes les séries des indices de prix à la période de base 1992=100. Par conséquent, toutes les séries en dollars constants seront aussi converties en dollars de 1992. L'IPC adoptera la nouvelle période de base lorsque paraîtront les données de l'indice pour janvier 1998 dès le 27 février 1998.

    Date de diffusion : 1997-11-17

Analyses (79)

Analyses (79) (25 of 79 results)

  • Articles et rapports : 82-003-X201700614829
    Description :

    Le POHEM-IMC est un outil de microsimulation comprenant un modèle de l’IMC chez les adultes et un modèle des antécédents en matière d’IMC pendant l’enfance. Cet aperçu décrit l’élaboration de modèles de prédiction de l’IMC chez les adultes et des antécédents en matière d’IMC pendant l’enfance, et compare les estimations de l’IMC projetées aux estimations issues de données d’enquête représentatives de la population canadienne pour en établir la validité.

    Date de diffusion : 2017-06-21

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214236
    Description :

    Nous proposons une extension assistée par modèle des mesures de l’effet de plan dû à la pondération. Nous élaborons une statistique de niveau sommaire pour différentes variables d’intérêt, sous échantillonnage à un degré et ajustement des poids par calage. La mesure de l’effet de plan que nous proposons traduit les effets conjoints d’un plan d’échantillonnage avec probabilités de sélection inégales, des poids inégaux produits en utilisant des ajustements par calage et de la force de l’association entre la variable d’analyse et les variables auxiliaires utilisées pour le calage. Nous comparons la mesure proposée aux mesures existantes de l’effet de plan au moyen de simulations en utilisant des variables semblables à celles pour lesquelles des données sont recueillies dans les enquêtes auprès des établissements et dans les enquêtes téléphoniques auprès des ménages.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214229
    Description :

    L’estimation autopondérée au moyen de méthodes d’échantillonnage avec probabilités égales (epsem pour equal probability selection methods) est souhaitable pour des raisons d’efficacité relativement à la variance. Habituellement, pour obtenir la propriété epsem pour des plans de sondage à deux degrés (et à une phase) en vue d’estimer des paramètres au niveau de la population, on utilise le chiffre de population de chaque unité primaire d’échantillonnage (UPE) comme mesure de taille pour la sélection des UPE, ainsi que l’attribution d’une taille d’échantillon égale aux UPE sous échantillonnage aléatoire simple (EAS) des unités élémentaires. Cependant, si l’on souhaite des estimations autopondérées pour les paramètres correspondant à de multiples domaines sous une répartition préétablie de l’échantillon entre les domaines, Folsom, Potter et Williams (1987) ont montré que l’on peut utiliser une mesure composite de taille pour sélectionner les UPE afin d’obtenir des plans epsem quand on suppose qu’outre les chiffres de population des UPE au niveau des domaines (c’est à dire la répartition de la population entre les domaines dans les UPE), les identificateurs de domaines pour les unités élémentaires sont également disponibles dans la base de sondage. Le terme depsem-A sera utilisé pour désigner ce genre de plan de sondage à deux degrés (et à une phase) pour obtenir l’estimation epsem au niveau du domaine. Folsom et coll. ont également considéré des plans d’échantillonnage à deux phases et à deux degrés quand les chiffres de population des UPE au niveau des domaines sont inconnus, mais que les dénombrements d’UPE entières sont connus. Pour ces plans (que nous désignerons depsem-B) avec les UPE sélectionnées avec probabilité proportionnelle à la mesure de taille habituelle (c’est à dire la population totale de l’UPE) au premier degré, toutes les unités élémentaires dans chaque UPE sélectionnée font d’abord l’objet d’une présélection en vue de les classer par domaine à la première phase de collecte des données, avant la sélection par EAS au deuxième degré d’échantillonnage. Des échantillons stratifiés par domaine sont ensuite sélectionnés dans les UPE en appliquant des taux d’échantillonnage de domaine choisis de manière appropriée pour que les tailles d’échantillon de domaine obtenues soient celles souhaitées et que le plan d’échantillonnage résultant soit autopondéré. Dans le présent article, nous commençons par donner une justification simple des mesures composites de taille pour le plan depsem-A et des taux d’échantillonnage de domaine pour le plan depsem-B. Puis, pour les plans depsem-A et -B, nous proposons des généralisations, premièrement aux cas pour lesquels les identificateurs de domaine pour les unités élémentaires ne sont pas disponibles dans la base de sondage et les chiffres de population des UPE au niveau des domaines ne sont connus qu’approximativement à partir d’autres sources, et deuxièmement, aux cas pour lesquels les mesures de taille des UPE sont préétablies en se basant sur d’autres considérations pratiques et souhaitables de suréchantillonnage ou de sous-échantillonnage de certains domaines. Nous présentons aussi une généralisation supplémentaire en présence de sous-échantillonnage des unités élémentaires et de non-réponse dans certaines UPE à la première phase, avant la sélection des unités élémentaires de deuxième phase dans les domaines à l’intérieur de chaque UPE sélectionnée. Cette dernière généralisation du plan depsem-B est illustrée pour un échantillon aréolaire de logements.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 82-003-X201401014098
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211885
    Description :

    Les sondages en ligne sont généralement caractérisés par de faibles taux de réponse. Les suggestions habituelles que l'on trouve dans les manuels sur la recherche par sondage en ligne soulignent le rôle important que joue l'écran d'accueil en vue d'encourager les répondants à participer au sondage. Les travaux de recherche ont donné la preuve empirique de l'importance de cet écran, montrant que la plupart des répondants interrompent la communication à l'étape de l'écran d'accueil. Cependant, peu d'études ont eu pour sujet l'effet de la conception de cet écran sur le taux d'interruption. Dans le cadre d'une étude réalisée à l'Université de Constance, trois traitements expérimentaux ont été ajoutés à un sondage auprès de la population d'étudiants de première année (2 629 étudiants) afin d'évaluer l'effet de diverses caractéristiques de conception de l'écran sur les taux d'interruption. Les expériences méthodologiques comprenaient la variation de la couleur de fond de l'écran d'accueil, la variation de la durée promise de la tâche sur le premier écran et la variation de la longueur de l'information fournie sur l'écran d'accueil pour expliquer aux répondants leurs droits à la protection de la vie privée. Les analyses montrent que plus la durée indiquée de la tâche était longue et plus l'attention donnée à l'explication des droits à la protection de la vie privée sur l'écran d'accueil était importante, plus le nombre d'étudiants qui commençaient à répondre au sondage et achevaient de le faire était faible. Par contre, l'utilisation d'une couleur de fond différente n'a pas produit la différence significative attendue.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211869
    Description :

    Statistics Netherlands s'appuie sur la méthode du ratio prix de vente-évaluation ou méthode SPAR (pour Sale Price Appraisal Ratio) pour produire son indice des prix des logements. Cette méthode combine les prix de vente aux évaluations foncières faites par l'administration publique. Le présent article décrit une approche de rechange dans laquelle les évaluations foncières servent d'information auxiliaire dans un cadre de régression généralisée (GREG). Une application aux données des Pays Bas montre que, même si l'indice GREG est plus lisse que le ratio des moyennes d'échantillon, il donne une série très semblable à la série SPAR. Pour expliquer ce résultat, nous montrons que l'indice SPAR est un estimateur de notre indice GREG plus général et qu'en pratique, il est presque aussi efficace.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211887
    Description :

    Les modèles multiniveaux sont d'usage très répandu pour analyser les données d'enquête en faisant concorder la hiérarchie du plan de sondage avec la hiérarchie du modèle. Nous proposons une approche unifiée, basée sur une log-vraisemblance composite pondérée par les poids de sondage pour des modèles à deux niveaux, qui mène à des estimateurs des paramètres du modèle convergents sous le plan et sous le modèle, même si les tailles d'échantillon dans les grappes sont petites, à condition que le nombre de grappes échantillonnées soit grand. Cette méthode permet de traiter les modèles à deux niveaux linéaires ainsi que linéaires généralisés et requiert les probabilités d'inclusion de niveau 2 et de niveau 1, ainsi que les probabilités d'inclusion conjointe de niveau 1, où le niveau 2 représente une grappe et le niveau 1, un élément dans une grappe. Nous présentons aussi les résultats d'une étude en simulation qui donnent la preuve que la méthode proposée est supérieure aux méthodes existantes sous échantillonnage informatif.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111830
    Description :

    Nous considérons deux méthodes distinctes d'autocalage pour l'estimation des moyennes de petit domaine fondée sur le modèle au niveau du domaine de Fay-Herriot (FH), à savoir la méthode de You et Rao (2002) appliquée au modèle FH et la méthode de Wang, Fuller et Qu (2008) basée sur des modèles augmentés. Nous établissons un estimateur de l'erreur quadratique moyenne de prédiction (EQMP) de l'estimateur de You-Rao (YR) d'une moyenne de petit domaine qui, sous le modèle vrai, est correct jusqu'aux termes de deuxième ordre. Nous présentons les résultats d'une étude en simulation du biais relatif de l'estimateur de l'EQMP de l'estimateur YR et de l'estimateur de l'EQMP de l'estimateur de Wang, Fuller et Qu (WFQ) obtenu sous un modèle augmenté. Nous étudions aussi l'EQMP et les estimateurs de l'EQMP des estimateurs YR et WFQ obtenus sous un modèle mal spécifié.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201200111682
    Description :

    Les questions concernant la répartition de l'échantillon sont étudiées dans le contexte de l'estimation des moyennes de sous-population (strate ou domaine), ainsi que de la moyenne de population agrégée sous-échantillonnage aléatoire simple stratifié. Une méthode de programmation non linéaire est utilisée pour obtenir la répartition « optimale » de l'échantillon entre les strates qui minimise la taille totale d'échantillon sous la contrainte des tolérances spécifiées pour les coefficients de variation des estimateurs des moyennes de strate et de la moyenne de population. La taille totale d'échantillon résultante est alors utilisée pour déterminer les répartitions de l'échantillon par les méthodes de Costa, Satorra et Ventura (2004) s'appuyant sur une répartition intermédiaire ou de compromis et de Longford (2006) fondée sur des « priorités inférencielles » spécifiées. En outre, nous étudions la répartition de l'échantillon entre les strates quand sont également spécifiées des exigences de fiabilité pour des domaines qui recoupent les strates. Les propriétés des trois méthodes sont étudiées au moyen de données provenant de l'Enquête mensuelle sur le commerce de détail (EMCD) menée par Statistique Canada auprès d'établissements uniques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 82-003-X201200111625
    Description :

    La présente étude compare les estimations de la prévalence de l'usage de la cigarette fondées sur des données autodéclarées aux estimations fondées sur les concentrations de cotinine urinaire. Les données proviennent de l'Enquête canadienne sur les mesures de la santé réalisée de 2007 à 2009, dans le cadre de laquelle ont été recueillies des données sur la situation d'usage du tabac autodéclarée et effectuées des mesures de la concentration de cotinine urinaire pour la première fois représentatives de la population nationale.

    Date de diffusion : 2012-02-15

  • Articles et rapports : 12-001-X201000211385
    Description :

    Dans cette note brève, nous montrons que l'échantillonnage aléatoire sans remise et l'échantillonnage de Bernoulli ont à peu près la même entropie quand la taille de la population est grande. Nous donnons un exemple empirique en guise d'illustration.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000211378
    Description :

    L'une des clés de la réduction ou de l'éradication de la pauvreté dans le tiers monde est l'obtention d'information fiable sur les pauvres et sur leur emplacement, afin que les interventions et l'aide soient dirigées vers les personnes les plus nécessiteuses. L'estimation sur petits domaines est une méthode statistique utilisée pour surveiller la pauvreté et décider de la répartition de l'aide de façon à réaliser les Objectifs du millénaire pour le développement. Elbers, Lanjouw et Lanjouw (ELL) (2003) ont proposé, pour produire des mesures de la pauvreté fondées sur le revenu ou sur les dépenses, une méthode d'estimation sur petits domaines qui est mise en oeuvre par la Banque mondiale dans ses projets de cartographie de la pauvreté grâce à la participation des organismes statistiques centraux de nombreux pays du tiers monde, dont le Cambodge, le Laos, les Philippines, la Thaïlande et le Vietnam, et qui est intégrée dans le logiciel PovMap de la Banque mondiale. Dans le présent article, nous présentons la méthode ELL, qui consiste à modéliser d'abord les données d'enquête, puis à appliquer le modèle obtenu à des données de recensement, en nous penchant surtout sur la première phase, c'est-à-dire l'ajustement des modèles de régression, ainsi que sur les erreurs-types estimées à la deuxième phase. Nous présentons d'autres méthodes d'ajustement de modèles de régression, telles que la régression généralisée sur données d'enquête (RGE) (décrite dans Lohr (1999), chapitre 11) et celles utilisées dans les méthodes existantes d'estimations sur petits domaines, à savoir la méthode du meilleur prédicteur linéaire sans biais pseudo-empirique (pseudo-MPLSB) (You et Rao 2002) et la méthode itérative à équations d'estimation pondérées (IEEP) (You, Rao et Kovacevic 2003), et nous les comparons à la stratégie de modélisation de ELL. La différence la plus importante entre la méthode ELL et les autres techniques tient au fondement théorique de la méthode d'ajustement du modèle proposée par ELL. Nous nous servons d'un exemple fondé sur la Family Income and Expenses Survey des Philippines pour illustrer les différences entre les estimations des paramètres et leurs erreurs-types correspondantes, ainsi qu'entre les composantes de la variance générées par les diverses méthodes et nous étendons la discussion à l'effet de ces différences sur l'exactitude estimée des estimations sur petits domaines finales. Nous mettons l'accent sur la nécessité de produire de bonnes estimations des composantes de la variance, ainsi que des coefficients de régression et de leurs erreurs-types aux fins de l'estimation sur petits domaines de la pauvreté.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000211384
    Description :

    Le ralentissement économique aux États-Unis pourrait rendre incertain le maintien de stratégies coûteuses dans les opérations des enquêtes. Dans le Behavioral Risk Factor Surveillance System (BRFSS), une période de collecte de données mensuelle de 31 jours seulement pourrait être une solution de rechange moins coûteuse. Toutefois, elle pourrait exclure une partie des interviews menées après 31 jours (répondants tardifs) et les caractéristiques de ces répondants pourraient être différentes à de nombreux égards de celles des répondants qui ont participé à l'enquête dans les 31 jours (répondants hâtifs). Nous avons tâché de déterminer s'il existe entre les répondants hâtifs et les répondants tardifs des différences d'ordre démographique ou en ce qui a trait à la couverture des soins de santé, à l'état de santé général, aux comportements posant un risque pour la santé et aux maladies ou problèmes de santé chroniques. Nous avons utilisé les données du BRFSS 2007, où un échantillon représentatif de la population adulte aux États-Unis ne vivant pas en établissement a été sélectionné au moyen d'une méthode de composition aléatoire. Les répondants tardifs étaient significativement plus susceptibles d'être de sexe masculin ; de déclarer leur race ou origine ethnique comme étant hispanique ; d'avoir un revenu annuel de plus de 50 000 $ ; d'avoir moins de 45 ans ; d'avoir un niveau de scolarité inférieur au diplôme d'études secondaires ; de bénéficier d'une couverture des soins de santé ; d'être significativement plus susceptibles de déclarer être en bonne santé ; d'être significativement moins susceptibles de déclarer faire de l'hypertension, souffrir de diabète ou être obèses. Les différences observées entre les répondants hâtifs et les répondants tardifs dans les estimations d'enquête pourraient influer à peine sur les estimations nationales et au niveau de l'État. Étant donné que la proportion de répondants tardifs pourrait augmenter à l'avenir, il y a lieu d'examiner son incidence sur les estimations découlant de la surveillance avant de l'exclure de l'analyse. Dans l'analyse portant sur les répondants tardifs, il devrait suffire de combiner plusieurs années de données pour produire des estimations fiables.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000111246
    Description :

    Dans le cas de nombreux sondages, des procédures d'ajustement des poids sont utilisées pour réduire le biais de non-réponse. Ces ajustements s'appuient sur les données auxiliaires disponibles. Le présent article traite de l'estimation de la variance par la méthode du jackknife pour les estimateurs qui ont été corrigés de la non-réponse. En suivant l'approche inversée d'estimation de la variance proposée par Fay (1991), ainsi que par Shao et Steel (1999), nous étudions l'effet dû au fait de ne pas recalculer l'ajustement des poids pour la non-réponse dans chaque réplique jackknife. Nous montrons que l'estimateur de variance jackknife « simplifié » résultant a tendance à surestimer la variance réelle des estimateurs ponctuels dans le cas de plusieurs procédures d'ajustement des poids utilisées en pratique. Ces résultats théoriques sont confirmés au moyen d'une étude par simulation dans laquelle nous comparons l'estimateur de variance jackknife simplifié à l'estimateur de variance jackknife complet obtenu en recalculant l'ajustement des poids pour la non-réponse dans chaque réplique jackknife.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 12-001-X200900110885
    Description :

    La présence de pics dans le spectre d'un processus stationnaire signale l'existence de phénomènes périodiques stochastiques, tels que l'effet saisonnier. Nous proposons une mesure de ces pics spectraux et un test de détection de leur présence qui s'appuient sur l'évaluation de leur pente et de leur convexité agrégées. Notre méthode est élaborée de manière non paramétrique et peut donc être utile durant l'analyse préliminaire d'une série. Elle peut aussi servir à détecter la présence d'une saisonnalité résiduelle dans les données désaisonnalisées. Nous étudions le test diagnostique au moyen d'une simulation et d'une étude de cas à grande échelle portant sur des données provenant du U.S. Census Bureau et de l'Organisation de coopération et de développement économiques (OCDE).

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800110616
    Description :

    Dans le cas de données multivariées complètes, l'algorithme BACON (Billor, Hadi et Vellemann 2000) donne une estimation robuste de la matrice de covariance. La distance de Mahalanobis correspondante peut être utilisée pour la détection des observations aberrantes multivariées. Quand des items manquent, l'algorithme EM est un moyen commode d'estimer la matrice de covariance à chaque étape d'itération de l'algorithme BACON. Dans l'échantillonnage en population finie, l'algorithme EM doit être amélioré pour estimer la matrice de covariance de la population plutôt que de l'échantillon. Une version de l'algorithme EM pour données d'enquête suivant un modèle normal multivarié, appelée algorithme EEM (espérance estimée/maximisation), est proposée. La combinaison des deux algorithmes, dénommée algorithme BACON EEM, est appliquée à deux ensembles de données et comparée à d'autres méthodes.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 12-001-X200700210495
    Description :

    Il s'agit d'obtenir des estimations fiables pour des domaines d'étude où les tailles d'échantillon peuvent être des plus modestes et pour lesquels la strate du plan d'échantillonnage ne coïncide pas avec le domaine. On ignore les tailles de population autant pour le domaine d'étude que pour la strate du plan d'échantillonnage. Dans le calcul des estimations paramétriques des domaines d'étude, le choix d'une taille d'échantillon aléatoire s'impose souvent. Nous proposons une nouvelle famille de modèles mixtes linéaires généralisés (MMLG) à effets aléatoires corrélés lorsqu'il y a plus d'un paramètre inconnu. Le modèle que nous proposons estimera tant la taille de population que le paramètre d'intérêt. Pour ce cadre, nous donnons des formules générales pour les distributions conditionnelles intégrales qu'exigent des simulations de Monte Carlo à chaîne de Markov (MCCM). Nous présentons aussi des équations de prévision et d'estimation bayésiennes pour les domaines d'étude. Nous nous servons enfin de l'enquête de 1998 sur la chasse aux dindons dans le Missouri, laquelle stratifie des échantillons en fonction du lieu de résidence du chasseur, et nous voulons obtenir des estimations au niveau du domaine, c'est à-dire du comté où le chasseur de dindons s'adonne effectivement à cette activité.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 12-001-X200700210493
    Description :

    Dans le présent article, nous étudions le problème de l'estimation de la variance pour un ratio de deux totaux quand l'imputation hot deck aléatoire marginale est utilisée pour remplacer les données manquantes. Nous considérons deux approches d'inférence. Dans la première, l'établissement de la validité d'un modèle d'imputation est nécessaire. Dans la seconde, la validité d'un modèle d'imputation n'est pas nécessaire, mais il faut estimer les probabilités de réponse, auquel cas il est nécessaire d'établir la validité d'un modèle de non réponse. Nous obtenons les estimateurs de la variance sous deux cadres distincts, à savoir le cadre à deux phases habituel et le cadre inversé.

    Date de diffusion : 2008-01-03

Références (87)

Références (87) (25 of 87 results)

  • Produits techniques : 11-522-X201700014729
    Description :

    Les ensembles de données administratives servent de plus en plus couramment de sources de données en statistique officielle dans le cadre d’efforts visant à produire plus efficacement un plus grand nombre de produits. De nombreux produits résultent du couplage de deux ensembles de données ou plus, souvent réalisé en plusieurs phases en appliquant différentes méthodes et règles. Dans ces situations, nous aimerions pouvoir évaluer la qualité du couplage, ce qui comprend une certaine réévaluation des liens ainsi que des non-liens. Dans le présent article, nous discutons de méthodes d’échantillonnage en vue d’obtenir des estimations du nombre de faux négatifs et de faux positifs, en exerçant un contrôle raisonnable sur l’exactitude des estimations ainsi que sur les coûts. Des approches de stratification des liens (non-liens) pour l’échantillonnage sont évaluées en utilisant des données provenant du recensement de la population de l’Angleterre et du Pays de Galles de 2011.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014755
    Description :

    La National Children Study, dans sa phase pilote, est une étude de cohorte épidémiologique à grande échelle des enfants et de leurs parents. Des mesures ont été recueillies, de la période précédant la grossesse jusqu’à ce que l’enfant atteigne l’âge adulte. L’utilisation des données existantes visait à compléter la collecte directe de données auprès des répondants. Notre document énonce la stratégie pour le catalogage et l’évaluation des sources de données existantes, en vue de leur utilisation longitudinale à grande échelle. Dans le cadre de notre examen, nous avons sélectionné cinq facteurs d’évaluation pour guider les chercheurs à l’égard des sources de données disponibles : 1) pertinence, 2) actualité, 3) spatialité, 4) accessibilité et 5) exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014719
    Description :

    Les initiatives de données ouvertes transforment la façon dont les gouvernements et d’autres institutions publiques interagissent et fournissent des services à leurs mandants. Elles accroissent la transparence et la valeur de l’information pour les citoyens, réduisent les inefficacités et les obstacles à l’information, rendent possible des applications guidées par les données qui améliorent la prestation des services publics, et fournissent des données publiques pouvant susciter des possibilités économiques novatrices. Étant l’un des premiers organismes internationaux à adopter une politique de données ouvertes, la Banque mondiale a orienté et offert des conseils techniques aux pays en voie de développement qui envisagent de mettre en place ou qui conçoivent leurs propres initiatives. La présente communication donnera un aperçu des faits nouveaux en matière de données ouvertes sur le plan international, ainsi que des expériences, des défis et des possibilités actuels et futurs. M. Herzog discutera des raisons qui poussent les gouvernements à adopter les données ouvertes, des avantages prouvés de celles-ci pour les secteurs public et privé, de l’éventail d’approches que suivent les gouvernements, et des outils à la disposition des décideurs, en insistant tout spécialement sur les rôles et perspectives des bureaux nationaux de la statistique au sein d’une initiative pangouvernementale.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014740
    Description :

    Dans le présent document, nous abordons les répercussions des prestations d’emploi et mesures de soutien versées au Canada, en vertu des Ententes sur le développement du marché du travail. Nous utilisons un ensemble riche de données administratives longitudinales couplées englobant tous les participants aux EDMT de 2002 à 2005. Sur la base d’un appariement par score de propension, comme dans Blundell et coll. (2002), Gerfin et Lechner (2002), et Sianesi (2004), nous avons produit des estimations de l’impact différentiel à l’échelle nationale à partir d’un estimateur de l’écart des différences et d’un estimateur par la méthode du noyau (Heckman et Smith, 1999). Les résultats laissent supposer que, tant pour les Services d’aide à l’emploi que pour les programmes de prestations d’emploi, comme le Développement des compétences et les Subventions salariales ciblées, des effets positifs se font sentir sur la rémunération et l’emploi.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014746
    Description :

    Les recherches sur les paradonnées ont tenté de trouver des occasions d’améliorer la collecte de données d’un point de vue stratégique qui soient viables au niveau opérationnel, qui améliorent la qualité des données ou qui permettent de réaliser des économies. À cet égard, Statistique Canada a élaboré et mis en œuvre une stratégie de plan de collecte adaptatif (PCA) pour les enquêtes auprès des ménages utilisant les interviews téléphoniques assistées par ordinateur (ITAO), afin de maximiser la qualité et de potentiellement réduire les coûts. Le PCA est une approche adaptative pour la collecte de données d’enquêtes qui utilise l’information disponible avant et pendant la collecte des données, afin de rajuster la stratégie de collecte pour le reste des cas en cours. En pratique, les gestionnaires d’enquête contrôlent et analysent les progrès de la collecte par rapport à un ensemble d’indicateurs prédéterminés, à deux fins : déterminer les étapes essentielles de la collecte des données pour lesquelles des changements significatifs doivent être apportés à l’approche de la collecte, et rajuster les stratégies de collecte afin d’utiliser le plus efficacement possible les ressources qui demeurent disponibles. Dans le contexte du PCA, de nombreuses considérations entrent en jeu lorsqu’il faut déterminer les aspects de la collecte des données qui doivent être rajustés et la façon de procéder. Les sources de paradonnées jouent un rôle essentiel dans la planification, l’élaboration et la mise en œuvre de la gestion active dans le cadre des enquêtes fondées sur le PCA. Depuis 2009, Statistique Canada a mené plusieurs enquêtes à l’aide du PCA. Le présent document décrit les expériences de Statistique Canada lors de la mise en œuvre et de la surveillance de ces enquêtes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014742
    Description :

    Cette communication décrit le Quick Match System (QMS), une application interne conçue pour apparier les enregistrements de microdonnées d’entreprises, et les méthodes utilisées pour coupler l’ensemble de données du United States Patent and Trademark Office (USPTO) et le Registre des entreprises (RE) de Statistique Canada pour la période de 2000 à 2011. La communication illustre le cadre de couplage des enregistrements et fait état des techniques utilisées pour préparer et classer chaque enregistrement, ainsi que pour évaluer les résultats de l’appariement. L’ensemble de données du USPTO comprenait 41 619 brevets américains accordés à 14 162 entités canadiennes distinctes. Le processus de couplage d’enregistrements a permis d’apparier les noms, la ville, la province et les codes postaux des cessionnaires de brevets de l’ensemble de données du USPTO avec ceux des entreprises des versions de janvier du Fichier générique de l’univers de l’enquête (FGUE) tiré du RE pour la même période de référence. Étant donné que la grande majorité des particuliers cessionnaires de brevets n’ont pas d’activité commerciale produisant des biens ou des services imposables, ils ont tendance à ne pas figurer dans le RE. Le taux d’appariement relativement faible de 24,5 % parmi les particuliers, comparativement à 84,7 % parmi les établissements, rend compte de cette tendance. Même si les 8 844 particuliers cessionnaires de brevets dépassaient en nombre les 5 318 établissements, ces derniers étaient à l’origine de 73,0 % des brevets, comparativement à 27,0 % pour les particuliers. Par conséquent, cette étude et ses conclusions sont axées principalement sur les cessionnaires de brevets institutionnels. Le couplage des établissements du USPTO et du RE est important parce qu’il donne accès à des microdonnées sur les caractéristiques des entreprises, l’emploi, le revenu, ainsi que l’actif et le passif. En outre, la récupération d’identificateurs administratifs robustes permet un couplage subséquent avec d’autres sources de données d’enquête et de données administratives. L’ensemble de données intégrées appuiera des études analytiques directes et comparatives du rendement des établissements canadiens qui ont obtenu des brevets aux États-Unis entre 2000 et 2011.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014718
    Description :

    La présente étude vise à déterminer si le fait de commencer à participer aux Services d’aide à l’emploi (SAE) tôt après la présentation de la demande d’assurance-emploi (a.-e.) donne de meilleurs résultats pour les chômeurs que leur participation plus tardive durant la période de prestations. Comme dans Sianesi (2004) et dans Hujer et Thomsen (2010), l’analyse s’appuie sur une méthode d’appariement par score de propension stratifié, conditionnelle à la durée discrétisée de la période de chômage jusqu’au commencement du programme. Les résultats montrent que les personnes qui ont participé aux SAE dans les quatre premières semaines après la présentation de la demande d’assurance-emploi sont celles chez lesquelles les effets sur la rémunération et l’incidence de l’emploi ont été les meilleurs et que ces personnes ont également vu se réduire l’utilisation de l’assurance-emploi à partir de la deuxième année après le programme.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014714
    Description :

    Les Ententes sur le développement du marché du travail (EDMT) sont des ententes entre le Canada et les provinces et territoires visant à financer la formation et les services de soutien sur le marché du travail pour les prestataires d’assurance-emploi. L’objectif de cette communication est d’examiner les améliorations au fil des ans de la méthode d’évaluation des répercussions. Le présent document décrit les EDMT et les travaux d’élaboration passés et mentionne les raisons qui motivent une meilleure utilisation de fonds de données administratives importants. Suit une explication détaillée de la façon dont la nouvelle approche a fait en sorte que le processus d’évaluation nécessite moins de ressources, alors que les résultats s’appliquent mieux à l’élaboration de politiques. Le document fait aussi état des leçons apprises d’un point de vue méthodologique et fournit un aperçu des façons de rendre efficace ce type d’utilisation des données administratives, particulièrement dans le contexte des grands programmes.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014726
    Description :

    La migration interne constitue l’une des composantes de l’accroissement démographique estimées à Statistique Canada. Elle est estimée en comparant l’adresse des individus au début et à la fin d’une période donnée. Les principales données exploitées sont celles de la Prestation fiscale canadienne pour enfants et celles du fichier T1 sur la famille. La qualité des adresses et la couverture de sous-populations plus mobiles jouent un rôle capital dans le calcul d’estimations de bonne qualité. L’objectif de cet article est de présenter les résultats d’évaluations reliées à ces aspects, profitant de l’accès à un plus grand nombre de sources de données fiscales à Statistique Canada.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014716
    Description :

    Les données administratives, selon leur source et leur objectif original, peuvent être considérées comme plus fiables au chapitre de l’information que les données recueillies dans le cadre d’une enquête. Elles ne nécessitent pas qu’un répondant soit présent et comprenne le libellé des questions, et elles ne sont pas limitées par la capacité du répondant à se rappeler des événements rétrospectivement. La présente communication compare certaines données d’enquête, comme des variables démographiques, tirées de l’Étude longitudinale et internationale des adultes (ELIA), à diverses sources administratives pour lesquelles des ententes de couplage avec l’ELIA sont en place. La correspondance entre les sources de données, et certains des facteurs qui pourraient l’affecter, sont analysés pour divers aspects de l’enquête.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014732
    Description :

    L’Institute for Employment Research (IAB) est le service de recherche de l’Agence fédérale allemande de placement. Par l’entremise du Centre de données de recherche (FDZ) à l’IAB, des données administratives et des données d’enquête sur les personnes et les établissements sont fournies aux chercheurs. En collaboration avec l’Institute for the Study of Labor (IZA), le FDZ a mis en œuvre l’application de soumission des travaux (JoSuA), qui permet aux chercheurs de soumettre des travaux, en vue du traitement des données à distance grâce à une interface Web personnalisée. Par ailleurs, deux types de fichiers de sortie produits pour l’utilisateur peuvent être reconnus dans l’environnement JoSuA, ce qui permet de fournir des services d’examen de la divulgation plus rapides et plus efficaces.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014711
    Description :

    Après le Recensement de 2010, le U.S. Census Bureau a mené deux projets de recherche distincts, en vue d’apparier des données d’enquête et des bases de données. Dans le cadre d’une étude, on a procédé à un appariement avec la base de données du tiers Accurint, et dans un autre cas, avec les fichiers du National Change of Address (NCOA) du U.S. Postal Service. Dans ces deux projets, nous avons évalué l’erreur de réponse dans les dates de déménagement déclarées en comparant les dates de déménagement autodéclarées et les enregistrements de la base de données. Nous avons fait face aux mêmes défis dans le cadre des deux projets. Le présent document aborde notre expérience de l’utilisation des « mégadonnées », en tant que source de comparaison pour les données d’enquête, ainsi que les leçons que nous avons apprises pour des projets futurs similaires à ceux que nous avons menés.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014743
    Description :

    Le couplage probabiliste est susceptible de donner des erreurs d’appariement telles que les faux positifs et les faux négatifs . Dans de nombreux cas, ces erreurs peuvent être mesurées fiablement par des vérifications manuelles, c’est-à-dire l’inspection visuelle d’un échantillon de paires d’enregistrements pour déterminer si elles sont appariées. Nous décrivons un cadre pour la bonne exécution de ces vérifications qui se fonde sur un échantillon probabiliste de paires, des vérifications indépendantes répétées de mêmes paires et une analyse de classes latentes pour tenir compte des erreurs de vérification manuelle.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014725
    Description :

    Les données fiscales sont de plus en plus exploitées pour la mesure et l’analyse de la population et de ses caractéristiques. Un des enjeux soulevés par l’utilisation croissante de ce type de données concerne la définition du concept du lieu de résidence. Si le recensement se base sur le concept du lieu habituel de résidence, les données fiscales nous renseignent sur l’adresse postale des déclarants. Au moyen d’un couplage d’enregistrements entre le recensement, l’Enquête nationale auprès des ménages et les données fiscales du fichier T1 sur la famille, cette étud

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014278
    Description :

    En janvier et février 2014, Statistique Canada a réalisé un essai en vue de mesurer l’efficacité des diverses stratégies de collecte au moyen d’une enquête en ligne fondée sur l’autodéclaration. On a communiqué avec les unités échantillonnées en leur envoyant des lettres de présentation par la poste et on leur a demandé de répondre à l’enquête en ligne, sans contact avec un intervieweur. L’essai visait à mesurer les taux de participation à une enquête en ligne, ainsi que les profils des répondants et des non-répondants. On a mis à l’essai différents échantillons et lettres, afin de déterminer l’efficacité relative des diverses méthodes. Les résultats du projet serviront à renseigner les responsables de diverses enquêtes sociales qui se préparent à ajouter à leurs enquêtes la possibilité d’y répondre par Internet. Le document présentera la méthode générale de l’essai, ainsi que les résultats observés pendant la collecte et l’analyse des profils.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014256
    Description :

    Dans le cadre de l’American Community Survey (ACS), on a ajouté un mode de collecte de données par Internet à l’intérieur d’un mode séquentiel en 2013. L’ACS utilise actuellement une seule application Web pour tous les répondants en ligne, peu importe s’ils répondent au moyen d’un ordinateur personnel ou d’un appareil mobile. Toutefois, au fur et à mesure de l’augmentation du nombre d’appareils mobiles sur le marché, de plus en plus de répondants utilisent des tablettes et des téléphones intelligents pour répondre à des enquêtes conçues pour des ordinateurs personnels. L’utilisation d’appareils mobiles pour répondre à ces enquêtes peut être plus difficile pour les répondants, et ces difficultés peuvent se traduire par une qualité de données réduite si les répondants deviennent frustrés ou ne peuvent surmonter ces obstacles. La présente étude se base sur plusieurs indicateurs pour comparer la qualité des données entre les ordinateurs, les tablettes et les téléphones intelligents et compare les caractéristiques démographiques des répondants qui utilisent chacun de ces appareils.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014276
    Description :

    En France, les contraintes budgétaires rendent plus difficile l’embauche d’enquêteurs occasionnels pour prendre en compte des problèmes de collecte. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée. Pour les enquêtes Insee, réalisées à partir d’un échantillon maître, les difficultés apparaissent lors de l’absence prolongée d’un enquêteur sur l’ensemble de la durée de la collecte d’une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l’enquête, ce qui génère de fait un biais. Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en oeuvre en fonction du moment où le problème est diagnostiqué. Si l’ « abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en oeuvre. Elle consiste à interroger un minimum de ménages dans chaque zone de collecte au détriment d’autres zones pour lesquelles aucun problème de collecte n’est a priori diagnostiqué. Il s’agit donc de minimiser la dispersion des poids sous contrainte de respect de la charge de collecte. Si l’ « abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en oeuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d’un échantillon par rapport à la population de base. L’objectif de cette priorisation en cours de collecte est de s’approcher le plus possible au final d’une équi-probabilité de réponse des répondants. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d’analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d’intensifier les efforts de collecte sur les groupes précédemment identifiés. Lors de la présentation orale, les deux points avaient été évoqués succinctement. Toutefois, cet article ne traite que du premier point évoqué ci-dessus, à savoir la « sous-allocation ». La priorisation est en cours de mise en oeuvre pour la première fois à l’Insee pour l’enquête Patrimoine et elle donnera lieu à un article spécifique qui sera rédigé par A. Rebecq.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010952
    Description :

    Dans une enquête où les résultats ont été estimés par des moyennes simples, nous comparons les incidences qu'ont sur les résultats un suivi des cas de non-réponse et une pondération fondée sur les derniers dix pour cent de répondants. Les données utilisées proviennent de l'Enquête sur les conditions de vie des immigrants en Norvège qui a été réalisée en 2006.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011010
    Description :

    L'Enquête sur l'emploi, la rémunération et les heures de travail (EERH) est une enquête mensuelle qui utilise deux sources de données : un recensement des formulaires de retenues sur la paye (PD7) (données administratives) et une enquête auprès des établissements. Le présent document est axé sur le traitement des données administratives, de la réception hebdomadaire des données de l'Agence du revenu du Canada à la production d'estimations mensuelles par les responsables de l'EERH.

    Les méthodes de contrôle et d'imputation utilisées pour traiter les données administratives ont été révisées au cours des dernières années. Les objectifs de ce remaniement étaient principalement d'améliorer la qualité des données et l'uniformité avec une autre source de données administratives (T4), qui constitue une mesure repère pour les responsables du Système de comptabilité nationale de Statistique Canada. On visait en outre à s'assurer que le nouveau processus serait plus facile à comprendre et à modifier, au besoin. Par conséquent, un nouveau module de traitement a été élaboré pour contrôler et imputer les formulaires PD7, avant l'agrégation des données au niveau mensuel.

    Le présent document comporte un aperçu des processus actuel et nouveau, y compris une description des défis auxquels nous avons fait face pendant l'élaboration. L'amélioration de la qualité est démontrée à la fois au niveau conceptuel (grâce à des exemples de formulaires PD7 et à leur traitement au moyen de l'ancien et du nouveau systèmes) et quantitativement (en comparaison avec les données T4).

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010948
    Description :

    Les anciens instruments d'enquête, qu'il s'agisse de questionnaires imprimés ou de scénarios téléphoniques, constituaient leur propre documentation. Ce contexte est celui dans lequel la banque de questions de l'ESRC a été créée, en vue d'offrir l'accès gratuit aux questionnaires publiés sur Internet et de permettre aux chercheurs de réutiliser les questions, leur évitant ainsi certaines difficultés tout en améliorant la comparabilité de leurs données avec celles recueillies par d'autres. Cependant aujourd'hui, alors que la technologie des enquêtes et les programmes informatiques sont devenus plus perfectionnés, il semble plus difficile de comprendre exactement les questionnaires les plus récents, particulièrement quand chaque équipe d'enquête utilise ses propres conventions pour fournir des renseignements sur les questions complexes dans les rapports techniques. Le présent article a pour but d'illustrer ces problèmes et de proposer des normes provisoires de présentation à utiliser jusqu'à ce que le processus soit automatisé.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010988
    Description :

    La collecte des données en ligne a commencé en 1995. Il s'agissait alors d'une solution de rechange pour mener certains types de recherche auprès des consommateurs, mais elle a pris de l'ampleur en 2008. Cette croissance a surtout été observée dans les études qui utilisent des méthodes d'échantillonnage non probabiliste. Bien que l'échantillonnage en ligne ait acquis de la crédibilité pour ce qui est de certaines applications de recherche, de sérieuses questions demeurent concernant le bien-fondé des échantillons prélevés en ligne dans le cas des recherches exigent des mesures volumétriques précises du comportement de la population des États-Unis, notamment en ce qui a trait aux voyages. Dans le présent exposé, nous passons en revue la documentation et comparons les résultats d'études fondées sur des échantillons probabilistes et des échantillons prélevés en ligne pour comprendre les différences entre ces deux méthodes d'échantillonnage. Nous montrons aussi que les échantillons prélevés en ligne sous-estiment d'importants types de voyages, même après pondération en fonction de données démographiques et géographiques.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010957
    Description :

    Les enquêtes menées auprès d'entreprises diffèrent des enquêtes menées auprès de la population ou des ménages à bien des égards. Deux des plus importantes différences sont : (a) les répondants aux enquêtes-entreprises ne répondent pas à des questions sur des caractéristiques les concernant (leurs expériences, leurs comportements, leurs attitudes et leurs sentiments), mais sur des caractéristiques de leur organisation (taille, revenu, politiques, stratégies, etc.) et (b) les répondants aux questions parlent au nom d'une organisation. Les enquêtes-entreprises théoriques diffèrent pour leur part des autres enquêtes-entreprises, comme celles des bureaux nationaux de la statistique, à bien des égards aussi. Le fait que les enquêtes-entreprises théoriques ne visent habituellement pas la production de statistiques descriptives mais plutôt la réalisation de tests d'hypothèses (relations entre variables) constitue la plus importante différence. Les taux de réponse aux enquêtes-entreprises théoriques sont très faibles, ce qui suppose un risque énorme de biais de non-réponse. Aucune tentative n'est habituellement faite pour évaluer l'importance du biais attribuable à la non-réponse, et les résultats publiés peuvent par conséquent ne pas refléter fidèlement les vraies relations au sein de la population, ce qui augmente par ricochet la probabilité que les résultats des tests soient incorrects.

    Les auteurs de la communication analysent la façon dont le risque de biais dû à la non-réponse est étudié dans les documents de recherche publiés dans les grandes revues de gestion. Ils montrent que ce biais n'est pas suffisamment évalué et que la correction du biais est difficile ou très coûteux dans la pratique, si tant est que des tentatives sont faites en ce sens. Trois façons de traiter ce problème sont examinées :(a) réunir des données par d'autres moyens que des questionnaires;(b) mener des enquêtes auprès de très petites populations;(c) mener des enquêtes avec de très petits échantillons.

    Les auteurs examinent les raisons pour lesquelles ces méthodes constituent des moyens appropriés de mise à l'essai d'hypothèses dans les populations. Les compromis concernant le choix d'une méthode sont aussi examinés.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010984
    Description :

    Le Programme de gestion de portefeuille d'entreprises (PGPE) de Statistique Canada (StatCan) a donné la preuve du bien-fondé d'une approche « holistique » de la gestion des relations que nous entretenons avec les entreprises répondantes les plus grandes et les plus complexes.

    Comprenant que le niveau d'intervention devrait varier selon le type de répondants et ayant pris conscience de la valeur de l'approche « centrée sur l'entreprise » de gestion des relations avec les fournisseurs de données complexes importantes, StatCan a adopté une stratégie de gestion de la réponse consistant à subdiviser la population d'entreprises en quatre niveaux, en fonction de leur taille, de leur complexité et de l'importance des données pour la production des estimations de l'enquête. La population étant ainsi segmentée, diverses approches de gestion de la réponse ont été élaborées en tenant compte de la contribution relative du segment. Cette stratégie permet à StatCan de diriger ses ressources vers les domaines où il est probable que le rendement de l'investissement sera le plus important. Les groupes I et II ont été définis comme essentiels à la production des estimations de l'enquête.

    Le groupe I comprend les entreprises les plus grandes et les plus complexes au Canada et est géré par l'entremise du Programme de gestion de portefeuille d'entreprises.

    Le groupe II comprend des entreprises plus petites et moins complexes que celles du groupe I, mais quand même importantes pour l'élaboration de mesures exactes des activités des industries individuelles.

    Le groupe III comprend des entreprises de taille plus moyenne, qui représentent la majeure partie des échantillons d'enquête.

    Le groupe IV comprend les entreprises les plus petites, qui sont exclues du processus de collecte des données; pour ces entreprises, StatCan s'appuie entièrement sur des données fiscales.

    Le plan de la communication sera le suivant :Ça marche! Résultats et mesures provenant des programmes qui ont mis en oeuvre la stratégie globale de gestion des réponses.Élaboration d'une approche méthodologique moins subjective pour segmenter la population des enquêtes-entreprises en vue de la gestion globale des réponses. Travaux de l'équipe de projet en vue de cerner les facteurs de complexité intrinsèquement utilisés par les employés expérimentés pour classer les répondants.Ce que les répondants « à problèmes » nous ont dit au sujet des problèmes sous-jacents à la non-réponse.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010999
    Description :

    Dans une enquête téléphonique, le choix du nombre de tentatives d'appel représente une décision importante. Un grand nombre de tentatives rend la collecte des données longue et dispendieuse, tandis qu'un petit nombre réduit l'ensemble de réponses sur lequel sont fondées les conclusions et accroît la variance. La décision peut aussi avoir une incidence sur le biais de non-réponse. Dans le présent article, nous examinons les effets du nombre de tentatives d'appel sur le taux de non-réponse et sur le biais dû à la non-réponse dans deux enquêtes réalisées par Statistics Sweden, à savoir la Labour Force Survey (LFS) et la Household Finances (HF).

    Au moyen de paradonnées, nous calculons le taux de réponse en fonction du nombre de tentatives d'appel. Pour estimer le biais de non-réponse, nous utilisons les estimations de certaines variables de registre, pour lesquelles des observations sont disponibles pour les répondants ainsi que les non-répondants. Nous calculons aussi les estimations de certains paramètres d'enquête réels en fonction d'un nombre variable de tentatives d'appel. Les résultats indiquent qu'il est possible de réduire le nombre courant de tentatives d'appel sans accroître le biais de non-réponse.

    Date de diffusion : 2009-12-03

Date de modification :