4 Pondérations basées sur la loi a posteriori de Pólya contrainte
Jeremy Strief et Glen Meeden
Précédent | Suivant
Une critique de la loi a posteriori de Pólya et de
la loi a posteriori de Pólya contrainte pourrait être que toute copie
complète simulée de la population ne contient que les valeurs des
caractéristiques qui figurent dans l'échantillon. Cependant, c'est exactement
cette propriété qui va nous permettre d'attribuer des pondérations aux membres
de l'échantillon.
Nous supposons que nous avons un échantillon fixe pour
lequel le sous-ensemble du simplex défini par les équations (3.1) et (3.2) est
non vide. Pour soit
(4.1)
où l'espérance est prise par rapport à la LPPC.
Notons que la somme des éléments de est égale à la taille de la population et que peut être considéré comme la pondération associée
au membre de l'échantillon. Ces pondérations ne
dépendent que des valeurs observées des variables auxiliaires et des
contraintes de population connues. Par conséquent, il s'agit d'une méthode
bayésienne séquentielle d'attribution des pondérations aux unités de
l'échantillon dans laquelle est intégrée l'information a priori présente
dans les variables auxiliaires et qui ne dépend pas explicitement du plan de
sondage.
Nous supposons ici que la taille de la population est connue, ce qui n'est pas toujours vrai. Le
cas échéant, on pourrait remplacer par une estimation dans l'équation
susmentionnée. Si l'estimation est bonne, les inférences résultantes pour un
total de population devraient être satisfaisantes. Dans le cas de l'estimation
d'une moyenne de population, les résultats seraient nettement moins sensibles à
la mesure dans laquelle l'estimation est proche de la taille réelle de la
population.
De nombreuses données d'enquête utilisées par les
chercheurs du domaine de la science sociale sont fournies avec des pondérations
appliquées aux unités individuelles. Dans ces situations, les pondérations
basées sur la LPPC pourraient être reliées aux unités de la même façon et l'utilisateur
n'aurait pas besoin de faire appel à des méthodes MCMC pour calculer les
pondérations. Nous allons nous servir des pondérations pour définir la loi
a posteriori de Dirichlet pondérée qui peut être utilisée pour trouver les
estimations ponctuelles et les estimations des intervalles pour les quantités
de population d'intérêt moyennant des calculs relativement modestes. Dans la
suite de l'article, nous illustrerons à l'aide d'exemples comment ces poids
peuvent être utilisés pour générer des procédures d'inférence ayant de bonnes
propriétés fréquentistes.
Mais avant de poursuivre, faisons une simple
observation. Supposons que nous disposions de l'échantillon ainsi que d'un
ensemble de pondérations. Si est grand, nous pouvons construire une
population dont la proportion d'unités de type est pour Étant donné l'échantillon et l'ensemble de
pondérations, nous pouvons considérer cette population construite comme étant
la meilleure approximation de la population inconnue. Alors
et (4.2)
sont la moyenne et la variance de cette population
construite.
Précédent | Suivant