Estimation pour petits domaines pour l'Enquête sur les voyages des visiteurs

L'Enquête sur les voyages des visiteurs (EVV) fournit un large éventail de statistiques sur le volume de voyageurs internationaux au Canada ainsi que des caractéristiques détaillées de leurs voyages. Depuis quelques années, les estimations des dépenses infra-provinciales des voyageurs étrangers au Canada ont suscité un intérêt croissant. Il est possible d'obtenir des estimations directes des dépenses des voyageurs étrangers à partir de l'EVV, mais ces estimations ne sont fiables que si la taille de l'échantillon est suffisamment grande. Par conséquent, une méthodologie d'estimation pour petits domaines (EPD) est maintenant utilisée pour améliorer la qualité des estimations, au moyen de données de traitement des paiements (de l'acquéreur) fournies par Destination Canada. Ce document décrit brièvement cette méthodologie.

1. Introduction

L'EVV a été lancée en janvier 2018 pour remplacer la composante des visiteurs des États-Unis et des pays d'outre-mer de l'Enquête sur les voyages internationaux. Elle fournit un large éventail de statistiques sur le volume de voyageurs internationaux au Canada ainsi des caractéristiques détaillées de leurs voyages, comme leurs dépenses et activités, les lieux visités et la durée de leur séjour. La population cible de l'EVV est constituée de l'ensemble des résidents des États-Unis et de pays d'outre-mer qui viennent au Canada. Les diplomates et leurs personnes à charge, les réfugiés, les immigrants reçus, les militaires, les membres d'équipage et les anciens résidents canadiens sont exclus du champ de l'enquête.

Depuis quelques années, la demande pour des estimations des dépenses des voyageurs étrangers au Canada, à de plus petits niveaux géographiques, s'accroît. Il est possible de tirer de l'EVV des estimations pondérées standards (ou des estimations directes), mais celles-ci ne peuvent être considérées comme fiables que dans la mesure où la taille de l'échantillon pour la région d'intérêt est suffisamment grande. Pour résoudre ce problème, on a recours à une méthodologie d'EPD pour améliorer la qualité des estimations infra-provinciales, au moyen de données de traitement des paiements fournies par Destination Canada.

Les méthodes d'EPD visent à produire des estimations fiables lorsque la taille de l'échantillon pour une région est petite. Dans cette application de la méthodologie, l'EPD dépend de deux quantités : l'estimation directe tirée des données de l'enquête et une prédiction fondée sur un modèle, parfois appelée estimation indirecte ou synthétique. Le modèle fait intervenir les données d'enquête du domaine d'intérêt géographique, ainsi que des données d'autres domaines (comme données d'entrée des paramètres du modèle) et des données auxiliaires. Les données auxiliaires doivent provenir d'une source indépendante de l'EVV et être accessibles au niveau géographique approprié. L'EPD permet d'utiliser les données de traitement des paiements qui comprennent une portion des paiements effectués par carte de crédit ou carte de débit par des visiteurs internationaux au Canada, comme données auxiliaires. Autrement dit, les données sur les paiements sont utilisées avec les estimations directes de l'EVV pour calculer les estimations pour petits domaines. Pour les régions les plus petites, les estimations directes ne sont pas fiables et les estimations pour petits domaines découlent principalement de prédictions du modèle. Cependant, pour les régions plus grandes, l'inverse est vrai et les estimations pour petits domaines tendent à être proches des estimations directes.

Il existe deux types de modèles d'EPD : les modèles au niveau du domaine (ou modèles agrégés), qui établissent des liens entre les moyennes de petit domaine et des variables auxiliaires propres au domaine, et les modèles au niveau de l'unité, qui établissent des liens entre les valeurs unitaires de la variable étudiée et des variables auxiliaires propres à l'unité. L'EVV utilise un modèle au niveau du domaine, car l'information auxiliaire (c.-à-d. les données de paiement) est agrégée.

La section 2 décrit les exigences pour produire des estimations infra-provinciales des dépenses des voyageurs au Canada. À la section 3, des diagnostics utilisés pour la validation du modèle et l'évaluation des EPD sont brièvement décrits.

2. Modèle au niveau du domaine

Les estimations pour petits domaines ont été obtenues en utilisant le module d'EPD du logiciel généraliséNote de bas de page 1 version 2.02 (Estevao et coll., 2017a, 2017b). Pour chaque domaine i, trois intrants doivent être fournis au logiciel G-EST afin d'obtenir les estimations pour petits domaines :

i) Des estimations directes θ^i, qui sont calculées au moyen des poids de sondage
θ^i=ksiwkyk
yk représente les dépenses par unité k dans le domaine i, et wk représente les poids d'échantillonnage appliqués à l'unité k dans l'échantillon de l'EVV

ii) Des estimations de la variance lissée, qui sont obtenues en appliquant une approche de lissage par morceaux aux estimations de la variance calculées au moyen de poids bootstrap moyens

iii) Un vecteur de variables auxiliaires zi

Pour l'estimation des dépenses des voyageurs au Canada, les domaines d'intérêt sont définis comme suit : 11 pays / groupes de pays × 22 régions touristiques / régions touristiques regroupées.

Les 11 pays ou groupes de pays sont les suivants :

Tableau 1 : Pays / groupes de pays
Groupe Pays
1 Australie
2 Chine
3 Japon
4 Corée du Sud
5 Inde
6 Royaume-Uni
7 France
8 Allemagne
9 Mexique
10 États-Unis
11 Autres pays

Les 84 régions touristiques sont regroupées en 22 domaines, comme le montre le tableau suivant.

Tableau 2 : Région touristique / régions touristiques regroupées
Région touristique / régions touristiques regroupées Régions touristiques Province/territoire
1000 (Terre-Neuve-et-Labrador) 001, 005, 010, 015, 020, 099Note de bas de page 2 Terre-Neuve-et-Labrador
1100 (Île-du-Prince-Édouard) 101 Île-du-Prince-Édouard
1200 (Nouvelle-Écosse) 202, 206, 211, 215, 220, 225, 232, 299 Nouvelle-Écosse
1300 (Nouveau-Brunswick) 300, 302, 304, 308, 318, 399 Nouveau-Brunswick
2400 (Reste du Québec) 401, 405, 410, 420, 425, 430, 435, 440, 445, 450, 455, 465, 470, 475, 480, 485, 491, 492, 493, 495, 499 Québec
0415 (Québec) 415
0460 (Montréal) 460
3500 (Reste de l'Ontario) 502, 511, 516, 526, 531, 536, 541, 551, 556, 560, 565, 570, 599 Ontario
0506 (Chutes Niagara et route des vins) 506
0521 (Région du Grand Toronto) 521
0546 (Ottawa et région rurale) 546
4600 (Manitoba) 601, 605, 610, 615, 620, 625, 630, 635, 699 Manitoba
4700 (Saskatchewan) 701, 705, 710, 715, 720, 725, 730, 799 Saskatchewan
4800 (Reste de l'Alberta) 801, 805, 810, 825, 899 Alberta
0815 (Rocheuses canadiennes) 815
0820 (Calgary et région) 820
5900 (Reste de la Colombie-Britannique) 901, 910, 920, 925, 999 Colombie-Britannique
0905 (Vancouver, côte et montagnes) 905
0915 (Rocheuses de Kootenay) 915
6000 (Yukon) 981 Yukon
6100 (Territoires du Nord-Ouest) 991 Territoires du Nord-Ouest
6200 (Nunavut) 992 Nunavut

Il convient de mentionner que, pour l'EVV, une modification du modèle de base au niveau du domaine a été utilisée, un modèle par morceaux au niveau du domaine. Le modèle par morceaux au niveau du domaine est utile lorsqu'un modèle linéaire unique ne permet pas d'obtenir une explication adéquate de la relation entre la variable d'intérêt et les covariables. La variable auxiliaire propre au domaine, c'est-à-dire les dépenses provenant des données de paiement, est répartie en intervalles, et un segment de droite distinct est ajusté à chaque intervalle.

3. Évaluation des estimations pour petits domaines

La précision des estimations pour petits domaines dépend de la fiabilité du modèle. Il est donc essentiel d'évaluer avec soin la validité du modèle avant de diffuser toute estimation. Il est par exemple important de vérifier qu'une relation linéaire existe effectivement entre les estimations directes provenant de l'EVV (θ^i) et les données de paiement (zi), au moins approximativement.

Pour l'EVV, les graphiques et les tests diagnostiques du logiciel G-EST sont utilisés pour évaluer le modèle, et les valeurs aberrantes sont relevées de manière itérative en examinant les résidus normalisés du modèle.

Un concept relativement utile pour évaluer les gains d'efficacité provenant de l'utilisation de l'estimation pour petits domaines θ^iEPD plutôt que l'estimation directe est l'erreur quadratique moyenne (EQM).

L'EQM est inconnue, mais elle peut être estimée (voir Rao et Molina, 2015). On s'attend à une efficacité accrue par rapport à l'estimation directe lorsque l'estimation de l'EQM est inférieure à l'estimation de la variance lissée ou à l'estimation de la variance directe. En général, les estimations pour petits domaines de l'EVV sont significativement plus efficaces que les estimations directes, en particulier pour les domaines dont la taille d'échantillon est particulièrement réduite.

Références

Estevao, V., Y. You, M. Hidiroglou, J.-F. Beaumont (2017a). Estimations pour petits domaines – Modèle au niveau du domaine avec estimation EBLUP – Description des paramètres de fonction et guide de l'utilisateur. Document de Statistique Canada.

Estevao, V., Y. You, M. Hidiroglou, J.-F. Beaumont et S. Rubin-Bleuer. (2017b). Estimations pour petits domaines – Modèle au niveau du domaine avec estimation EBLUP – Spécifications méthodologiques. Document de Statistique Canada.

Hidiroglou, M. A., Beaumont, J. F., and Yung, W. (2019). Élaboration d'un système d'estimation sur petits domaines à Statistique Canada. Techniques d'enquête, 45(1), 101-126.

Rao, J.N.K., and Molina, I. (2015). Small Area Estimation. John Wiley & Sons, Inc., Hoboken, New Jersey.

Statistique Canada. (2017). Estimations pour petits domaines de l'Enquête mensuelle sur la population active. Document accompagnant les estimations pour petits domaines. Document de Statistique Canada.

Date de modification :