6 Pondérations et estimateurs de Horvitz-Thompson
Jeremy Strief et Glen Meeden
Précédent | Suivant
La pondération attribuée à une unité de l'échantillon
est habituellement définie comme étant l'inverse de la probabilité d'inclusion
de cette unité. On est donc invité à se représenter la pondération de l'unité
comme étant le nombre d'unités de la population qu'elle représente.
L'estimateur résultant du total de population est l'estimateur de
Horvitz-Thompson (HT) qui est sans biais. Comme nous l'avons déjà mentionné,
l'estimation sans biais de sa variance dépend des probabilités de sélection
conjointes de toutes les paires d'unités figurant dans l'échantillon. Comme, en
pratique, il peut être impossible de calculer ces probabilités, on utilise
souvent l'approximation de l'équation (5.4).
L'estimateur HT donne de bons résultats quand est approximativement proportionnel à sa
probabilité de sélection. Pour comparer le comportement de cet estimateur à la
méthode basée sur la LPDP, nous avons réalisé une petite expérience par
simulation. Nous avons construit la variable en tirant un échantillon aléatoire de
2 000 unités d'une loi de probabilité gamma de paramètre de forme égal à 5
et de paramètre d'échelle égal à 1, et en ajoutant 20 à chaque valeur. Pour
générer nous avons postulé que la loi conditionnelle
de sachant était une loi normale de moyenne et d'écart-type 20. La corrélation de la
population résultante était de 0,49. Nous avons désigné cette population par A.
Nous avons créé une deuxième population, B, en utilisant le même vecteur de
valeurs de mais en ajoutant 400 à chaque valeur de Dans notre plan d'échantillonnage, nous nous
sommes servis de pour effectuer un échantillonnage
proportionnel à la taille, c'est-à-dire Nous avons utilisé le module externe sampling de R, de sorte que les
probabilités d'inclusion étaient exactes. Sous ce plan, nous nous attendons à
ce que l'estimateur HT donne de bons résultats pour la population A mais
qu'il ait de moins bonnes propriétés pour la population B. Nous avons
également considéré un troisième estimateur, NHT, obtenu simplement en
rééchelonnant les pondérations de l'estimateur HT de manière que leur
somme soit égale à la taille N de la population. Nous avons produit 500
échantillons de taille 50. Les résultats sont présentés au tableau 6.1.
Tableau 6.1
Résultats pour les populations A et B basés sur 500 échantillons de taille 50. L’estimateur NHT correspond à l’estimateur HT normalisé de manière que la somme des pondérations soit égale à la taille de la population, N = 2 000.
Sommaire du tableau
Le tableau montre les résultats de résultats pour les populations a et b basés sur 500 échantillons de taille 50. l’estimateur nht correspond à l’estimateur ht normalisé de manière que la somme des pondérations soit égale à la taille de la population. Les données sont présentées selon population (titres de rangée) et méthode, erreur absolue moyenne, longueur moyenne et fréquence de couverture(figurant comme en-tête de colonne).
Population |
Méthode |
Erreur absolue moyenne |
Longueur moyenne |
Fréquence de couverture |
A |
HT |
4 628 |
21 898 |
0,94 |
B |
HT |
8 965 |
43 914 |
0,96 |
A et B |
LPDP |
4 706 |
24 381 |
0,96 |
A |
NHT |
5 051 |
21 897 |
0,896 |
B |
NHT |
5 051 |
43 919 |
0,998 |
Bien que cela ne soit pas montré dans le tableau, les
estimateurs HT et LPDP sont tous deux sans biais pour les deux populations.
Comme prévu, l'estimateur HT est le meilleur pour la population A, mais sa performance
baisse considérablement pour la population B. Par ailleurs, les propriétés de
l'estimateur LPDP sont exactement les mêmes pour les deux populations. En tant
qu'estimateur ponctuel, l'estimateur NHT donne de nettement meilleurs résultats
que l'estimateur HT pour la population B, et des résultats moins bons pour
la population A. Dans l'ensemble, l'estimateur LPDP est clairement celui qui
donne les meilleurs résultats. Comment ces différences
s'expliquent-elles ?
Dans la population A, et les calculs montrent que est presque toujours négatif et que sa valeur
absolue est petite comparativement à En d'autres termes, quand l'estimateur HT est
approprié, c'est la variance de la population construite en se basant sur les
pondérations de cet estimateur qui est essentiellement utilisée pour obtenir
l'estimation de sa variance.
La seule différence entre les populations A et B est
qu'une constante a été ajoutée à la valeur de de chaque unité. Alors, si les pondérations de
l'échantillon nous permettent d'obtenir une bonne approximation de la
population dans le premier cas, quel est le problème qui, dans le deuxième cas,
fait que l'estimateur HT donne de si mauvais résultats ? Pour le
voir, considérons ce qui suit.
Dans l'estimation HT, la somme des pondérations
dans l'échantillon n'est presque jamais égale à la taille de la population. Étant donné un
échantillon de la population B, l'estimation HT est donnée par
où désigne la valeur de l'unité dans la
population A et sa valeur dans la population B. Notons que le
deuxième terme de l'équation susmentionnée ajoute une variabilité
supplémentaire à l'estimateur HT. Dans la population B, les calculs
montrent que le terme de l'équation (5.5) est positif et peut être
assez grand. Il explique la variabilité excédentaire de l'estimateur HT
dans la population B découlant du fait qu'ici, et non
Notons que Zheng et Little (2003) ont soutenu que,
lorsqu'on estime un total de population finie et qu'on utilise un plan
d'échantillonnage avec probabilités proportionnelles à la taille, un estimateur
fondé sur un modèle non paramétrique à splines pénalisées donne généralement de
meilleurs résultats que l'estimateur de Horvitz-Thompson. Zheng et Little
(2005) ont élaboré des méthodes pour estimer la variance de leur estimateur.
Certains travaux apparentés sont décrits dans Zheng et Little (2004).
Les pondérations basées sur la LPDP ne comprennent que
la contrainte voulant que les copies complètes simulées de la population aient
la moyenne de population correcte pour Cette hypothèse est plus robuste que celle qui
sous-tend l'estimateur HT. En toute honnêteté, il faut se rappeler (comme
l'a fait remarquer un examinateur) que l'estimateur HT a été élaboré avec
l'objectif limité d'obtenir des estimateurs linéaires sans biais du total de
population. Toutefois, sa simplicité ne semble plus aussi importante maintenant
que des estimateurs plus compliqués et plus efficaces sont devenus plus faciles
à calculer. La performance supérieure de la méthode bayésienne séquentielle laisse
entendre ici que si l'on pense posséder pour les unités échantillonnées un
ensemble de pondérations dont la somme est égale à la taille de la population
et qui donne une bonne approximation de la population, il faut utiliser la
variance de cette bonne approximation de la population pour construire une
estimation de la variance de l'estimation de la moyenne de population au lieu
d'utiliser l'équation (5.4). Cela vaut particulièrement pour les grandes
enquêtes portant sur plusieurs caractéristiques d'intérêt. Il serait très surprenant que
toutes satisfassent les hypothèses nécessaires pour que l'équation (5.4) soit
une bonne estimation de la variance d'une moyenne d'échantillon. Suivant
l'observation faite dans Royall et Cumberland (1981) et Royall et Cumberland
(1985) voulant que de bons échantillons équilibrés (la moyenne d'échantillon
est proche de la moyenne de population) peuvent améliorer la performance, on
devrait fonder les inférences sur les copies complètes simulées de la
population auxquelles est intégrée l'information a priori disponible
contenue dans les variables auxiliaires.
Précédent | Suivant