Estimation de la variance dans le calage à plusieurs phases
Section 4. Une étude en simulation
L’objectif principal de l’analyse exposée dans le présent article est de fournir un estimateur convergent de la variance des estimateurs calés en plusieurs phases qui est vérifié pour tout nombre de phases de calage. Une étude en simulation pourrait donc être exécutée pour comparer le nouvel estimateur à d’autres décrits dans la littérature. Comme on ne trouve généralement aucun estimateur de rechange dans la littérature pour des plans de calage à trois phases ou plus notre comparaison porte principalement sur le cas à deux phases qui est celui le plus étudié. Nous avons également exécuté une étude pour afin d’évaluer l’écart de l’estimateur proposé par rapport à la valeur simulée réelle. Les études sont décrites ici en termes généraux. Elles visent essentiellement à démontrer la pertinence de l’estimateur proposé, sa concordance avec la « condition limite » du cas à deux phases, et son potentiel en ce qui concerne les plans comportant plus de deux phases. Une étude approfondie en vue de caractériser l’efficacité de l’estimateur proposé en tant que fonction des paramètres du plan, tels que les taux d’échantillonnage, le choix des variables de calage et leur corrélation avec etc., est réservée à de futurs travaux de recherche.
Un processus d’estimation sous calage à deux phases a été appliqué aux données d’une enquête récente sur la carrière et la mobilité des titulaires d’un doctorat (TD). Comme il n’existe pas de base de sondage des TD, les données sur les études supérieures ont été extraites d’un recensement de population récent. Cependant, seul un échantillon qui représente un cinquième des ménages dénombrés au recensement a reçu un questionnaire détaillé contenant des questions sur les études supérieures. Pour l’enquête sur les TD, on a tiré de un sous-échantillon dans lequel les personnes qui étaient en fait TD ont reçu un questionnaire encore plus détaillé. Donc, un scénario de calage à deux phases pour estimer les caractéristiques des TD était de mise. La première phase comprenait le calage des variables conjointes de et sur les totaux estimés calculés d’après À la deuxième phase, les données démographiques de ont été calées sur les totaux connus provenant du registre de la population complète Nous avons réalisé une étude en simulation sur ces données, dans laquelle les données d’enquête ont servi de population réelle. Mille échantillons (réalisations) de tailles 1 000, 200, 50 ont été tirés aléatoirement de l’ensemble de données de TD. À chaque échantillon, nous avons appliqué le même processus de calage à deux phases en utilisant l’estimateur donné par (3.7) avec l’équation (3.6) comme représentation des poids calés et son estimateur de variance donné par (3.11) comme un cas particulier de (3.8). Comme nous l’avons déjà mentionné, quand les estimations sont identiques sous la nouvelle représentation ou sous la représentation classique utilisée jusqu’à présent dans la littérature, Särndal et coll. (1992). Donc, nous nous sommes concentrés sur les estimateurs de variance (3.10) et (3.11) calculés selon les deux méthodes. Un profil type de la comparaison entre les deux estimateurs de variance dans ce cas particulier du calage à deux phases est présenté à la figure 4.1. On voit que, malgré la différence fondamentale entre les deux estimateurs de variance, dans la plupart des réalisations, la différence entre leurs estimations est assez faible. Néanmoins, pour l’une des réalisations, elle peut aller jusqu’à 20 %. Pour la variable particulière présentée dans la figure, les valeurs moyennes des deux estimateurs de la variance étaient très semblables, à savoir 54,172 et 54,652, tandis que la valeur réelle dans les données de simulation était de 54,462. Même les variances de leur estimateur de l’écart-type, à savoir 5,732 contre 5,932, étaient presque les mêmes pour cette variable. Ces résultats sont présentés au tableau 4.1. La caractéristique favorable de l’estimateur proposé ressort dans la 5e colonne. Contrairement à l’estimateur classique dans lequel les deux termes de l’estimateur de variance sont du même ordre de grandeur, le 2e terme de (3.11) représente plus de 99 % de la variance, avec une variation de moins de 2 % sur l’ensemble des 1 000 réalisations. Nous avons donné l’explication de ce phénomène à la section 3.2. Les résultats présentés ici se sont répétés pour toutes les variables étudiées et nous avons jugé non pertinent à ce stade de présenter d’autres variables ou d’étudier plus en profondeur ces données particulières ou le cas particulier du calage à deux phases.
Variable | Valeur moyenne | É.-T. | Couverture de l’IC | 2e terme en pourcentage de |
---|---|---|---|---|
200,43 | 54,46 | Cette cellule est vide | Cette cellule est vide | |
54,65 | 5,93 | 95,2 % | 77 % ± 7 % | |
54,17 | 5,73 | 95,1 % | 99 % ± 2 % |
Description de la figure 4.1
Nuage de points illustrant la relation entre deux estimateurs de variance dans le cadre d’un calage à deux phases. L’estimateur classique est sur l’axe des y, allant de 30 à 70. L’estimateur proposé est sur l’axe des x, allant de 30 à 70. Une droite pleine représentant la diagonale principale traverse le nuage de point. Le graphique montre que pour la plupart des réalisations, la différence entre les deux estimateurs est plutôt faible, même si elle peut atteindre jusqu’à 20 % pour certaines réalisations. La relation entre les deux variances semble linéaire.
La similarité des estimations des deux estimateurs de variance dans le cas du calage à deux phases est rassurante, mais il n’a pas été possible d’effectuer la comparaison dans le cas du calage à trois phases ou plus, parce qu’il n’existe pas d’alternative à l’estimateur proposé. Une méthode par rééchantillonnage pour l’échantillonnage à deux phases stratifié a été proposée par Kim et coll. (2006), et nous exposons brièvement une ébauche de généralisation pour un cas à trois phases, mais sans formulation explicite ni résultats de simulation. Nous avons ajouté une troisième phase de calage dans notre simulation en utilisant certaines variables en commun avec l’échantillon de deuxième phase des TD, choisies en fonction de l’expérience sur le terrain, et avons procédé de la même façon que dans le cas à deux phases. L’étude en simulation a de nouveau révélé une excellente estimation pour la variance d’un estimateur calé en trois phases pour toutes les variables examinées et chacun des différents ensembles de variables de calage à toutes les phases. Les taux de convergence de l’estimateur de variance sont rapides, même pour de très petites tailles d’échantillon, telles que 25 ou moins à la troisième phase. Certains résultats pour divers paramètres de plan de sondage sont présentés au tableau 4.2. Comme indiqué plus haut, la simulation a été exécutée sur une taille de population de 1 000 de manière que les trois premiers plans aient un poids global de 40, et les trois suivants, de 20. Donc, comme prévu, la variance de l’estimateur calé pour les trois premiers plans est généralement plus élevée, bien qu’elle dépende aussi des tailles d’échantillon des première et deuxième phases, comme le montre, par exemple, le cas artificiel numéro 4 qui dépeint un scénario généralement impossible en pratique. Les biais relatifs sont proches de zéro pour tous les plans étudiés et les couvertures des intervalles de confiance (IC) à 95 %, estimées également, se sont avérées principalement raisonnables et proches des niveaux nominaux. L’écart-type de vaut approximativement 5 % à 10 % de la valeur de l’estimateur, comme le montre la colonne 7.
Cas | n1 | n2 | n3 | Valeur vraie | É.-T. de en % | Couverture de l’IC à 95 % | |
---|---|---|---|---|---|---|---|
1 | 100 | 50 | 25 | 882,6 | 866,9 | 7,1 % | 94,9 % |
2 | 500 | 250 | 25 | 781,5 | 774,1 | 10,8 % | 95,2 % |
3 | 500 | 100 | 25 | 733,9 | 731,5 | 10,2 % | 96,0 % |
4 | 50 | 50 | 50 | 902,8 | 892,1 | 4,8 % | 95,6 % |
5 | 200 | 100 | 50 | 598,1 | 591,4 | 5,4 % | 94,4 % |
6 | 500 | 250 | 50 | 543,0 | 542,2 | 8,3 % | 96,3 % |
7 | 333 | 100 | 33 | 650,8 | 654,4 | 8,6 % | 95,3 % |
- Date de modification :