6 Pondérations et estimateurs de Horvitz-Thompson

Jeremy Strief et Glen Meeden

La pondération attribuée à une unité de l'échantillon est habituellement définie comme étant l'inverse de la probabilité d'inclusion de cette unité. On est donc invité à se représenter la pondération de l'unité comme étant le nombre d'unités de la population qu'elle représente. L'estimateur résultant du total de population est l'estimateur de Horvitz-Thompson (HT) qui est sans biais. Comme nous l'avons déjà mentionné, l'estimation sans biais de sa variance dépend des probabilités de sélection conjointes de toutes les paires d'unités figurant dans l'échantillon. Comme, en pratique, il peut être impossible de calculer ces probabilités, on utilise souvent l'approximation de l'équation (5.4).

L'estimateur HT donne de bons résultats quand $y_{i}$ est approximativement proportionnel à sa probabilité de sélection. Pour comparer le comportement de cet estimateur à la méthode basée sur la LPDP, nous avons réalisé une petite expérience par simulation. Nous avons construit la variable $x$ en tirant un échantillon aléatoire de 2 000 unités d'une loi de probabilité gamma de paramètre de forme égal à 5 et de paramètre d'échelle égal à 1, et en ajoutant 20 à chaque valeur. Pour générer $y,$ nous avons postulé que la loi conditionnelle de $y_{i}$ sachant $x_{i}$ était une loi normale de moyenne $5 x_{i}$ et d'écart-type 20. La corrélation de la population résultante était de 0,49. Nous avons désigné cette population par A. Nous avons créé une deuxième population, B, en utilisant le même vecteur de valeurs de $x,$ mais en ajoutant 400 à chaque valeur de $y_{i} .$ Dans notre plan d'échantillonnage, nous nous sommes servis de $x$ pour effectuer un échantillonnage proportionnel à la taille, c'est-à-dire $ppt (x) .$ Nous avons utilisé le module externe sampling de R, de sorte que les probabilités d'inclusion étaient exactes. Sous ce plan, nous nous attendons à ce que l'estimateur HT donne de bons résultats pour la population A mais qu'il ait de moins bonnes propriétés pour la population B. Nous avons également considéré un troisième estimateur, NHT, obtenu simplement en rééchelonnant les pondérations de l'estimateur HT de manière que leur somme soit égale à la taille N de la population. Nous avons produit 500 échantillons de taille 50. Les résultats sont présentés au tableau 6.1.

Tableau 6.1
Résultats pour les populations A et B basés sur 500 échantillons de taille 50. L’estimateur NHT correspond à l’estimateur HT normalisé de manière que la somme des pondérations soit égale à la taille de la population, N = 2 000.
Sommaire du tableau
Le tableau montre les résultats de résultats pour les populations a et b basés sur 500 échantillons de taille 50. l’estimateur nht correspond à l’estimateur ht normalisé de manière que la somme des pondérations soit égale à la taille de la population. Les données sont présentées selon population (titres de rangée) et méthode, erreur absolue moyenne, longueur moyenne et fréquence de couverture(figurant comme en-tête de colonne).
Population	Méthode	Erreur absolue moyenne	Longueur moyenne	Fréquence de couverture
A	HT	4 628	21 898	0,94
B	HT	8 965	43 914	0,96
A et B	LPDP	4 706	24 381	0,96
A	NHT	5 051	21 897	0,896
B	NHT	5 051	43 919	0,998

Bien que cela ne soit pas montré dans le tableau, les estimateurs HT et LPDP sont tous deux sans biais pour les deux populations. Comme prévu, l'estimateur HT est le meilleur pour la population A, mais sa performance baisse considérablement pour la population B. Par ailleurs, les propriétés de l'estimateur LPDP sont exactement les mêmes pour les deux populations. En tant qu'estimateur ponctuel, l'estimateur NHT donne de nettement meilleurs résultats que l'estimateur HT pour la population B, et des résultats moins bons pour la population A. Dans l'ensemble, l'estimateur LPDP est clairement celui qui donne les meilleurs résultats. Comment ces différences s'expliquent-elles ?

Dans la population A, $y_{i} \propto x_{i}$ et les calculs montrent que $γ_{d w}$ est presque toujours négatif et que sa valeur absolue est petite comparativement à $σ_{d w} .$ En d'autres termes, quand l'estimateur HT est approprié, c'est la variance de la population construite en se basant sur les pondérations de cet estimateur qui est essentiellement utilisée pour obtenir l'estimation de sa variance.

La seule différence entre les populations A et B est qu'une constante a été ajoutée à la valeur de $y$ de chaque unité. Alors, si les pondérations de l'échantillon nous permettent d'obtenir une bonne approximation de la population dans le premier cas, quel est le problème qui, dans le deuxième cas, fait que l'estimateur HT donne de si mauvais résultats ? Pour le voir, considérons ce qui suit.

Dans l'estimation HT, la somme des pondérations dans l'échantillon n'est presque jamais égale à $N,$ la taille de la population. Étant donné un échantillon de la population B, l'estimation HT est donnée par

$\sum_{i = 1}^{50} w_{i} y_{i} = \sum_{i = 1}^{50} w_{i} {y^{'}}_{i} + 400 \sum_{i = 1}^{50} w_{i}$

où ${y^{'}}_{i}$ désigne la valeur de l'unité dans la population A et $y_{i},$ sa valeur dans la population B. Notons que le deuxième terme de l'équation susmentionnée ajoute une variabilité supplémentaire à l'estimateur HT. Dans la population B, les calculs montrent que le terme $γ_{d w}$ de l'équation (5.5) est positif et peut être assez grand. Il explique la variabilité excédentaire de l'estimateur HT dans la population B découlant du fait qu'ici, $y_{i} \propto x_{i} + 400$ et non $x_{i} .$

Notons que Zheng et Little (2003) ont soutenu que, lorsqu'on estime un total de population finie et qu'on utilise un plan d'échantillonnage avec probabilités proportionnelles à la taille, un estimateur fondé sur un modèle non paramétrique à splines pénalisées donne généralement de meilleurs résultats que l'estimateur de Horvitz-Thompson. Zheng et Little (2005) ont élaboré des méthodes pour estimer la variance de leur estimateur. Certains travaux apparentés sont décrits dans Zheng et Little (2004).

Les pondérations basées sur la LPDP ne comprennent que la contrainte voulant que les copies complètes simulées de la population aient la moyenne de population correcte pour $x .$ Cette hypothèse est plus robuste que celle qui sous-tend l'estimateur HT. En toute honnêteté, il faut se rappeler (comme l'a fait remarquer un examinateur) que l'estimateur HT a été élaboré avec l'objectif limité d'obtenir des estimateurs linéaires sans biais du total de population. Toutefois, sa simplicité ne semble plus aussi importante maintenant que des estimateurs plus compliqués et plus efficaces sont devenus plus faciles à calculer. La performance supérieure de la méthode bayésienne séquentielle laisse entendre ici que si l'on pense posséder pour les unités échantillonnées un ensemble de pondérations dont la somme est égale à la taille de la population et qui donne une bonne approximation de la population, il faut utiliser la variance de cette bonne approximation de la population pour construire une estimation de la variance de l'estimation de la moyenne de population au lieu d'utiliser l'équation (5.4). Cela vaut particulièrement pour les grandes enquêtes portant sur plusieurs caractéristiques $y$ d'intérêt. Il serait très surprenant que toutes satisfassent les hypothèses nécessaires pour que l'équation (5.4) soit une bonne estimation de la variance d'une moyenne d'échantillon. Suivant l'observation faite dans Royall et Cumberland (1981) et Royall et Cumberland (1985) voulant que de bons échantillons équilibrés (la moyenne d'échantillon est proche de la moyenne de population) peuvent améliorer la performance, on devrait fonder les inférences sur les copies complètes simulées de la population auxquelles est intégrée l'information a priori disponible contenue dans les variables auxiliaires.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

6 Pondérations et estimateurs de Horvitz-Thompson