5. Inférence à partir de multiples populations synthétiques non paramétriques
Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan
Précédent | Suivant
Supposons
que nous produisons populations
synthétiques, en utilisant la méthode
non paramétrique décrite à la section 4, et que notre cible d'inférence est
une fonction des
données de population (p. ex. moyenne de population, corrélation, estimateur
du maximum de vraisemblance de population d'un paramètre de régression). Nous
pouvons calculer comme étant
l'estimation de obtenue en regroupant les populations
synthétiques utilisées pour imputer les unités non observées de puisqu'il s'agit
de tirages directs à partir de la loi prédictive a posteriori de la
population, nous pouvons calculer les moyennes, les quantiles et les
intervalles de crédibilité a posteriori d'après les estimations empiriques
correspondantes à partir des tirages, si est suffisamment
grand.
Cependant, dans de nombreuses
situations, le temps de calcul nécessaire pour imputer la population peut être
très important, même s'il ne faut pas
synthétiser la population complète. D'où, une autre approche de l'inférence
consiste à utiliser la loi comme approximation
de la distribution prédictive a posteriori d'une statistique de population
scalaire :
où
Le résultat découle directement de la
section 4.1 dans Raghunathan et coll.
2003, et est fondé sur les règles de combinaison classiques pour
l'imputation multiple de Rubin (1987), en
traitant les unités non observées de comme des données manquantes et
les unités échantillonnées, comme des données observées. La variance « intra-imputation »
moyenne est nulle, puisque la population est entièrement synthétisée; d'où, la variance
a posteriori de est entièrement une fonction de la variance
inter-imputations, et le nombre de degrés de liberté est simplement donné par
le nombre d'échantillons BBPF. (Lorsque la population est très grande, il
nous suffit de synthétiser un tirage assez grand pour que la variance « intra-imputation »
moyenne soit négligeable comparativement à la variance inter-imputations ) Le résultat suppose que , ce que notre estimateur BBPF pondéré
garantit, et
que la taille de l'échantillon est suffisamment grande pour permettre
d'appliquer la théorie asymptotique bayésienne.
Précédent | Suivant