5 La loi a posteriori de Dirichlet pondérée

Jeremy Strief et Glen Meeden

Il arrive souvent que des pondérations soient attachées à des données dans les fichiers de données à grande diffusion. Ces pondérations sont alors utilisées par les chercheurs pour produire des estimations ponctuelles et des estimations d'intervalles pour les paramètres de population. Nous allons voir que les pondérations fondées sur la méthode bayésienne séquentielle présentée ici peuvent souvent être utilisées dans les formules fréquentistes classiques pour estimer les paramètres d'intérêt tout comme les pondérations habituelles. Nous utiliserons nos pondérations pour définir la loi a posteriori de Dirichlet pondérée et montrer qu'elle offre un autre moyen de calculer les estimations ponctuelles et les estimations d'intervalles pour diverses quantités de population.

Soit les $w_{j}$ un ensemble de pondérations défini par l'équation (4.1) avec $μ_{j} = w_{j} / N .$ Considérons la distribution de Dirichlet sur le simplex défini par le vecteur $n μ = (n μ_{1}, \dots, n μ_{n})$ comme une loi a posteriori de rechange pour $p = (p_{1}, \dots, p_{n})$ en utilisant l'échantillon observé pour produire des copies simulées complètes de la population. Nous donnerons à cette loi a posteriori le nom de loi a posteriori de Dirichlet pondérée (LPDP). Soulignons que la LPDP est une version moins contrainte de la LPPC. Sous la LPPC, chaque copie complète de la population satisfait les contraintes; par contre, sous la LPDP, seule la moyenne des populations simulées satisfait les contraintes. Il est facile de voir que sous la LPDP

$E (\sum_{i = 1}^{n} p_{i} y_{i}) = \sum_{i = 1}^{n} μ_{i} y_{i} = {\bar{y}}_{b w}$ (5.1)

$\begin{matrix} V (\sum_{i = 1}^{n} p_{i} y_{i}) & = \sum_{i = 1}^{n} y_{i}^{2} V (p_{i}) + \underset{i < j}{\sum \sum} y_{i} y_{j} Cov (p_{i}, p_{j}) \\ = \sum_{i = 1}^{n} \frac{n μ_{i} (n - n μ_{i}) y_{i}^{2}}{n^{2} (n + 1)} - 2 \underset{i < j}{\sum \sum} \frac{n μ_{i} n μ_{j} y_{i} y_{j}}{n^{2} (n + 1)} (5.2) \\ = \frac{1}{n + 1} (\sum_{i = 1}^{n} μ_{i} (1 - μ_{i}) y_{i}^{2} + 2 \underset{i < j}{\sum \sum} μ_{i} n μ_{j} y_{i} y_{j}) \\ = \frac{1}{n + 1} (\sum_{i = 1}^{n} μ_{i} y_{i}^{2} - \sum_{i = 1}^{n} \sum_{i = 1}^{n} μ_{i} μ_{j} y_{i} y_{j}) \\ = \frac{1}{n + 1} σ_{b w}^{2} \end{matrix}$

où ${\bar{y}}_{b w}$ et $σ_{b w}^{2}$ sont définies par l'équation (4.2).

Partant de cela, nous voyons que, lorsqu'on estime la moyenne de population, la simulation à partir de la LPDP équivaut à utiliser l'échantillon et ses pondérations pour construire la meilleure approximation possible de la population. En particulier, quand les pondérations sont toutes égales, la LPDP est simplement la loi a posteriori de Pólya.

Deux grandes raisons nous poussent à introduire la LPDP. Premièrement, à mesure que le nombre de contraintes utilisées augmente, les intervalles de crédibilité à 95 % approximatifs fondés sur la LPPC deviennent trop courts et contiennent la valeur réelle du paramètre dans moins de 95 % du temps. Il en est ainsi parce que, quand le nombre de contraintes est grand, la LPPC ne permet pas d'obtenir une variabilité suffisante dans les copies complètes simulées de la population qu'elle produit. Deuxièmement, il est nettement plus facile d'exécuter la simulation à partir de la LPDP qu'à partir de la LPPC. Maintenant, il serait possible d'effectuer la simulation à partir de la LPDP contrainte de manière que toutes les contraintes soient satisfaites, mais cela demanderait autant d'effort que d'effectuer la simulation à partir de la LPPC. En outre, nous pensons que cela donnerait des intervalles de crédibilité à 95 % approximatifs ayant de mauvaises propriétés de couverture fréquentistes parce qu'ils seraient trop courts.

Supposons maintenant que notre ensemble de pondérations est constitué des réciproques des probabilités d'inclusion provenant du plan de sondage. Soit $W = \sum_{i = 1}^{n} w_{i} .$ Pour la plupart des échantillons, cette valeur n'est pas égale à $N,$ mais s'en approche souvent. De nouveau, nous pouvons construire notre meilleure approximation de la population en nous basant sur les pondérations. La moyenne et la variance de cette population seront données par

${\bar{y}}_{d w} = \sum_{i = 1}^{n} \frac{w_{i}}{W} y_{i}$ et $σ_{d w}^{2} = \sum_{i = 1}^{n} \frac{w_{i}}{W} {(y_{i} - {\bar{y}}_{d w})}^{2} .$ (5.3)

Si nous utilisons ${\bar{y}}_{d w}$ comme estimation de la moyenne de population inconnue, une estimation sans biais de cette variance dépend des probabilités d'inclusion conjointes des unités dans l'échantillon. Comme il est souvent difficile d'obtenir ces probabilités, il a été recommandé en pratique (Särndal, Swensson et Wretman 1992) de supposer que l'échantillonnage a été fait avec remise, même si ce n'est pas le cas. Alors, l'estimation approximative résultante de la variance de ${\bar{y}}_{d w}$ est

$\begin{matrix} {\hat{V}}_{d} ({\bar{y}}_{d w}) & = \frac{1}{n (n - 1)} \sum_{i = 1}^{n} {(n \frac{w_{i}}{W} y_{i} - {\bar{y}}_{d w})}^{2} (5.4) \\ = \frac{σ_{d w}^{2} + γ_{d w}}{n - 1} \end{matrix}$

où la deuxième ligne découle de simples opérations algébriques et où

$γ_{d w} = \sum_{i = 1}^{n} \frac{w_{i}}{W} y_{i}^{2} (n \frac{w_{i}}{W} - 1) .$ (5.5)

Notons que, sous échantillonnage aléatoire simple avec ou sans remise et $N = n k,$ $γ_{d w} = 0.$ Dans ce cas, l'estimation de la variance donnée par l'équation (5.4) est essentiellement équivalente à celle donnée par l'équation (5.2).

Dans les situations où il est sensé d'utiliser l'estimateur de Horvitz-Thompson, les calculs ont montré que $γ_{d w}$ a tendance à être négatif, ce qui laisse entendre que les intervalles fondés sur la LPDP ont alors tendance à être prudents. Cependant, les calculs montrent aussi que le terme $γ_{d w}$ a tendance à être positif dans les situations où l'estimateur de Horvitz-Thompson n'est pas approprié. Nous verrons que, dans de tels cas, l'approximation habituelle peut donner de médiocres résultats et que les intervalles fondés sur la LPDP peuvent posséder de meilleures propriétés fréquentistes.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5 La loi a posteriori de Dirichlet pondérée