5 La loi a posteriori de Dirichlet pondérée
Jeremy Strief et Glen Meeden
Précédent | Suivant
Il arrive souvent que des pondérations soient attachées
à des données dans les fichiers de données à grande diffusion. Ces pondérations
sont alors utilisées par les chercheurs pour produire des estimations ponctuelles
et des estimations d'intervalles pour les paramètres de population. Nous allons
voir que les pondérations fondées sur la méthode bayésienne séquentielle
présentée ici peuvent souvent être utilisées dans les formules fréquentistes
classiques pour estimer les paramètres d'intérêt tout comme les pondérations
habituelles. Nous utiliserons nos pondérations pour définir la loi
a posteriori de Dirichlet pondérée et montrer qu'elle offre un autre moyen
de calculer les estimations ponctuelles et les estimations d'intervalles pour
diverses quantités de population.
Soit les un ensemble de pondérations défini par
l'équation (4.1) avec Considérons la distribution de Dirichlet sur
le simplex défini par le vecteur comme une loi a posteriori de rechange
pour en utilisant l'échantillon observé pour
produire des copies simulées complètes de la population. Nous donnerons à cette
loi a posteriori le nom de loi a posteriori de Dirichlet pondérée
(LPDP). Soulignons que la LPDP est une version moins contrainte de la LPPC.
Sous la LPPC, chaque copie complète de la population satisfait les contraintes;
par contre, sous la LPDP, seule la moyenne des populations simulées satisfait
les contraintes. Il est facile de voir que sous la LPDP
(5.1)
et
où et sont définies par l'équation (4.2).
Partant de cela, nous voyons que, lorsqu'on estime la
moyenne de population, la simulation à partir de la LPDP équivaut à utiliser
l'échantillon et ses pondérations pour construire la meilleure approximation
possible de la population. En particulier, quand les pondérations sont toutes
égales, la LPDP est simplement la loi a posteriori de Pólya.
Deux grandes raisons nous poussent à introduire la LPDP.
Premièrement, à mesure que le nombre de contraintes utilisées augmente, les
intervalles de crédibilité à 95 % approximatifs fondés sur la LPPC
deviennent trop courts et contiennent la valeur réelle du paramètre dans moins
de 95 % du temps. Il en est ainsi parce que, quand le nombre de
contraintes est grand, la LPPC ne permet pas d'obtenir une variabilité
suffisante dans les copies complètes simulées de la population qu'elle produit.
Deuxièmement, il est nettement plus facile d'exécuter la simulation à partir de
la LPDP qu'à partir de la LPPC. Maintenant, il serait possible d'effectuer la
simulation à partir de la LPDP contrainte de manière que toutes les contraintes
soient satisfaites, mais cela demanderait autant d'effort que d'effectuer la
simulation à partir de la LPPC. En outre, nous pensons que cela donnerait des
intervalles de crédibilité à 95 % approximatifs ayant de mauvaises
propriétés de couverture fréquentistes parce qu'ils seraient trop courts.
Supposons maintenant que notre ensemble de pondérations
est constitué des réciproques des probabilités d'inclusion provenant du plan de
sondage. Soit Pour la plupart des échantillons, cette valeur
n'est pas égale à mais s'en approche souvent. De nouveau, nous
pouvons construire notre meilleure approximation de la population en nous
basant sur les pondérations. La moyenne et la variance de cette population
seront données par
et (5.3)
Si nous utilisons comme estimation de la moyenne de population
inconnue, une estimation sans biais de cette variance dépend des probabilités
d'inclusion conjointes des unités dans l'échantillon. Comme il est souvent
difficile d'obtenir ces probabilités, il a été recommandé en pratique (Särndal,
Swensson et Wretman 1992) de supposer que l'échantillonnage a été fait avec
remise, même si ce n'est pas le cas. Alors, l'estimation approximative
résultante de la variance de est
où la deuxième ligne découle de simples opérations
algébriques et où
(5.5)
Notons que, sous échantillonnage aléatoire simple avec
ou sans remise et Dans ce cas, l'estimation de la variance
donnée par l'équation (5.4) est essentiellement équivalente à celle donnée par
l'équation (5.2).
Dans les situations où il est sensé d'utiliser
l'estimateur de Horvitz-Thompson, les calculs ont montré que a tendance à être négatif, ce qui laisse
entendre que les intervalles fondés sur la LPDP ont alors tendance à être
prudents. Cependant, les calculs montrent aussi que le terme a tendance à être positif dans les situations
où l'estimateur de Horvitz-Thompson n'est pas approprié. Nous verrons que, dans
de tels cas, l'approximation habituelle peut donner de médiocres résultats et
que les intervalles fondés sur la LPDP peuvent posséder de meilleures
propriétés fréquentistes.
Précédent | Suivant