Estimation de la variance dans le calage à plusieurs phases
Section 4. Une étude en simulation

Table des matières

L’objectif principal de l’analyse exposée dans le présent article est de fournir un estimateur convergent de la variance des estimateurs calés en plusieurs phases qui est vérifié pour tout nombre de phases de calage. Une étude en simulation pourrait donc être exécutée pour comparer le nouvel estimateur à d’autres décrits dans la littérature. Comme on ne trouve généralement aucun estimateur de rechange dans la littérature pour des plans de calage à trois phases ou plus $(p \geq 3),$ notre comparaison porte principalement sur le cas à deux phases qui est celui le plus étudié. Nous avons également exécuté une étude pour $p =3$ afin d’évaluer l’écart de l’estimateur proposé par rapport à la valeur simulée réelle. Les études sont décrites ici en termes généraux. Elles visent essentiellement à démontrer la pertinence de l’estimateur proposé, sa concordance avec la « condition limite » du cas à deux phases, et son potentiel en ce qui concerne les plans comportant plus de deux phases. Une étude approfondie en vue de caractériser l’efficacité de l’estimateur proposé en tant que fonction des paramètres du plan, tels que les taux d’échantillonnage, le choix des variables de calage et leur corrélation avec $y,$ etc., est réservée à de futurs travaux de recherche.

Un processus d’estimation sous calage à deux phases a été appliqué aux données d’une enquête récente sur la carrière et la mobilité des titulaires d’un doctorat (TD). Comme il n’existe pas de base de sondage des TD, les données sur les études supérieures ont été extraites d’un recensement de population récent. Cependant, seul un échantillon $S_{1}$ qui représente un cinquième des ménages dénombrés au recensement a reçu un questionnaire détaillé contenant des questions sur les études supérieures. Pour l’enquête sur les TD, on a tiré de $S_{1}$ un sous-échantillon $S_{2}$ dans lequel les personnes qui étaient en fait TD ont reçu un questionnaire encore plus détaillé. Donc, un scénario de calage à deux phases pour estimer les caractéristiques des TD était de mise. La première phase comprenait le calage des variables conjointes de $S_{1}$ et $S_{2}$ sur les totaux estimés calculés d’après $S_{1} .$ À la deuxième phase, les données démographiques de $S_{1}$ ont été calées sur les totaux connus provenant du registre de la population complète $U .$ Nous avons réalisé une étude en simulation sur ces données, dans laquelle les données d’enquête ont servi de population réelle. Mille échantillons (réalisations) ${u , s_{1} , s_{2}}$ de tailles $N =$ 1 000, $n_{1} =$ 200, $n_{2} =$ 50 ont été tirés aléatoirement de l’ensemble de données $S_{2}$ de TD. À chaque échantillon, nous avons appliqué le même processus de calage à deux phases en utilisant l’estimateur donné par (3.7) avec l’équation (3.6) comme représentation des poids calés ${\tilde{w}}_{2},$ et son estimateur de variance donné par (3.11) comme un cas particulier de (3.8). Comme nous l’avons déjà mentionné, quand $p =2,$ les estimations $\hat{Y} = {\tilde{w}}_{2}^{'} y$ sont identiques sous la nouvelle représentation ou sous la représentation classique utilisée jusqu’à présent dans la littérature, Särndal et coll. (1992). Donc, nous nous sommes concentrés sur les estimateurs de variance (3.10) et (3.11) calculés selon les deux méthodes. Un profil type de la comparaison entre les deux estimateurs de variance dans ce cas particulier du calage à deux phases est présenté à la figure 4.1. On voit que, malgré la différence fondamentale entre les deux estimateurs de variance, dans la plupart des réalisations, la différence entre leurs estimations est assez faible. Néanmoins, pour l’une des réalisations, elle peut aller jusqu’à 20 %. Pour la variable particulière présentée dans la figure, les valeurs moyennes des deux estimateurs de la variance étaient très semblables, à savoir 54,17² et 54,65², tandis que la valeur réelle dans les données de simulation était de 54,46². Même les variances de leur estimateur de l’écart-type, à savoir 5,73² contre 5,93², étaient presque les mêmes pour cette variable. Ces résultats sont présentés au tableau 4.1. La caractéristique favorable de l’estimateur proposé ressort dans la 5^e colonne. Contrairement à l’estimateur classique dans lequel les deux termes de l’estimateur de variance sont du même ordre de grandeur, le 2^e terme de (3.11) représente plus de 99 % de la variance, avec une variation de moins de 2 % sur l’ensemble des 1 000 réalisations. Nous avons donné l’explication de ce phénomène à la section 3.2. Les résultats présentés ici se sont répétés pour toutes les variables étudiées et nous avons jugé non pertinent à ce stade de présenter d’autres variables ou d’étudier plus en profondeur ces données particulières ou le cas particulier du calage à deux phases.

Tableau 4.1
Estimateur proposé (P) c. classique (C) pour l’écart-type d’un estimateur calé en deux phases
Sommaire du tableau
Le tableau montre les résultats de Estimateur proposé (P) c. classique (C) pour l’écart-type d’un estimateur calé en deux phases. Les données sont présentées selon Variable (titres de rangée) et Valeur moyenne, É.-T. , Couverture de l’IC et 2e terme en pourcentage de XXXX(figurant comme en-tête de colonne).
Variable	Valeur moyenne	É.-T.	Couverture de l’IC	2^e terme en pourcentage de $\hat{É .-T .} ({\tilde{w}}_{2}^{'} y)$
${\tilde{w}}_{2}^{'} y$	200,43	54,46	Cette cellule est vide	Cette cellule est vide
${\hat{É .-T .}}_{C} ({\tilde{w}}_{2}^{'} y)$	54,65	5,93	95,2 %	77 % ± 7 %
${\hat{É .-T .}}_{P} ({\tilde{w}}_{2}^{'} y)$	54,17	5,73	95,1 %	99 % ± 2 %

Figure 4.1

Description de la figure 4.1

Nuage de points illustrant la relation entre deux estimateurs de variance dans le cadre d’un calage à deux phases. L’estimateur classique est sur l’axe des y, allant de 30 à 70. L’estimateur proposé est sur l’axe des x, allant de 30 à 70. Une droite pleine représentant la diagonale principale traverse le nuage de point. Le graphique montre que pour la plupart des réalisations, la différence entre les deux estimateurs est plutôt faible, même si elle peut atteindre jusqu’à 20 % pour certaines réalisations. La relation entre les deux variances semble linéaire.

La similarité des estimations des deux estimateurs de variance dans le cas du calage à deux phases est rassurante, mais il n’a pas été possible d’effectuer la comparaison dans le cas du calage à trois phases ou plus, parce qu’il n’existe pas d’alternative à l’estimateur proposé. Une méthode par rééchantillonnage pour l’échantillonnage à deux phases stratifié a été proposée par Kim et coll. (2006), et nous exposons brièvement une ébauche de généralisation pour un cas à trois phases, mais sans formulation explicite ni résultats de simulation. Nous avons ajouté une troisième phase de calage dans notre simulation en utilisant certaines variables en commun avec l’échantillon de deuxième phase des TD, choisies en fonction de l’expérience sur le terrain, et avons procédé de la même façon que dans le cas à deux phases. L’étude en simulation a de nouveau révélé une excellente estimation pour la variance d’un estimateur calé en trois phases pour toutes les variables $Y$ examinées et chacun des différents ensembles de variables de calage à toutes les phases. Les taux de convergence de l’estimateur de variance sont rapides, même pour de très petites tailles d’échantillon, telles que $n =$ 25 ou moins à la troisième phase. Certains résultats pour divers paramètres de plan de sondage sont présentés au tableau 4.2. Comme indiqué plus haut, la simulation a été exécutée sur une taille de population de 1 000 de manière que les trois premiers plans aient un poids global de $w^{*} =$ 40, et les trois suivants, de $w^{*} =$ 20. Donc, comme prévu, la variance de l’estimateur calé pour les trois premiers plans est généralement plus élevée, bien qu’elle dépende aussi des tailles d’échantillon des première et deuxième phases, comme le montre, par exemple, le cas artificiel numéro 4 qui dépeint un scénario généralement impossible en pratique. Les biais relatifs $\frac{E ({\hat{É .-T .}}_{P})}{É .-T .} - 1$ sont proches de zéro pour tous les plans étudiés et les couvertures des intervalles de confiance (IC) à 95 %, estimées également, se sont avérées principalement raisonnables et proches des niveaux nominaux. L’écart-type de ${\hat{É .-T .}}_{P}$ vaut approximativement 5 % à 10 % de la valeur de l’estimateur, comme le montre la colonne 7.

Tableau 4.2
Valeurs vraie et estimée de l’écart-type d’un estimateur calé en trois phases ${\tilde{w}}_{3}^{'} y$ pour divers paramètres de plan de sondage
Sommaire du tableau
Le tableau montre les résultats de Valeurs vraie et estimée de l’écart-type d’un estimateur calé en trois phases XXXX pour divers paramètres de plan de sondage . Les données sont présentées selon Cas (titres de rangée) et n1 , n2 , n3 , Valeur vraie, XXXX , É.-T. de XXXX en % et Couverture de l’IC à 95 % (figurant comme en-tête de colonne).
Cas	n1	n2	n3	Valeur vraie	${\hat{É .-T .}}_{P}$	É.-T. de ${\hat{É .-T .}}_{P}$ en %	Couverture de l’IC à 95 %
1	100	50	25	882,6	866,9	7,1 %	94,9 %
2	500	250	25	781,5	774,1	10,8 %	95,2 %
3	500	100	25	733,9	731,5	10,2 %	96,0 %
4	50	50	50	902,8	892,1	4,8 %	95,6 %
5	200	100	50	598,1	591,4	5,4 %	94,4 %
6	500	250	50	543,0	542,2	8,3 %	96,3 %
7	333	100	33	650,8	654,4	8,6 %	95,3 %

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2017-06-22

Sélection de la langue

Recherche et menus

Recherche

Estimation de la variance dans le calage à plusieurs phases
Section 4. Une étude en simulation

Estimation de la variance dans le calage à plusieurs phases Section 4. Une étude en simulation

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Estimation de la variance dans le calage à plusieurs phases
Section 4. Une étude en simulation