5. Inférence à partir de multiples populations synthétiques non paramétriques

Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan

Supposons que nous produisons $L$ populations synthétiques, $S_{l}, l = 1, \dots, L$ en utilisant la méthode non paramétrique décrite à la section 4, et que notre cible d'inférence est $Q \equiv Q (Y),$ une fonction des données de population (p. ex. moyenne de population, corrélation, estimateur du maximum de vraisemblance de population d'un paramètre de régression). Nous pouvons calculer $Q_{l}$ comme étant l'estimation de $Q$ obtenue en regroupant les $F$ populations synthétiques utilisées pour imputer les unités non observées de $S_{l};$ puisqu'il s'agit de tirages directs à partir de la loi prédictive a posteriori de la population, nous pouvons calculer les moyennes, les quantiles et les intervalles de crédibilité a posteriori d'après les estimations empiriques correspondantes à partir des tirages, si $L$ est suffisamment grand.

Cependant, dans de nombreuses situations, le temps de calcul nécessaire pour imputer la population peut être très important, même s'il ne faut pas synthétiser la population complète. D'où, une autre approche de l'inférence consiste à utiliser la loi $t$ comme approximation de la distribution prédictive a posteriori d'une statistique de population scalaire $Q$ :

$Q | S_{1}, \dots, S_{L} \overset{\cdot}{~} t_{L - 1} ({\bar{Q}}_{L}, (1 + L^{- 1}) V_{L})$

où

${\bar{Q}}_{L} = \frac{\sum_{l = 1}^{L} Q_{l}}{L} = \frac{\sum_{l = 1}^{L} \sum_{f = 1}^{F} Q_{l f}}{L F} et V_{L} = \frac{1}{L} \sum_{l = 1}^{L} {(Q_{l} - {\bar{Q}}_{L})}^{2} .$

Le résultat découle directement de la section 4.1 dans Raghunathan et coll. 2003, et est fondé sur les règles de combinaison classiques pour l'imputation multiple de Rubin (1987), en traitant les unités non observées de $S_{l}$ comme des données manquantes et les unités échantillonnées, comme des données observées. La variance « intra-imputation » moyenne est nulle, puisque la population est entièrement synthétisée; d'où, la variance a posteriori de $Q$ est entièrement une fonction de la variance inter-imputations, et le nombre de degrés de liberté est simplement donné par le nombre d'échantillons BBPF. (Lorsque la population est très grande, il nous suffit de synthétiser un tirage assez grand pour que la variance « intra-imputation » moyenne soit négligeable comparativement à la variance inter-imputations $V_{L} .$ ) Le résultat suppose que $E (Q_{l f}) = Q$ , ce que notre estimateur BBPF pondéré garantit, et que la taille de l'échantillon est suffisamment grande pour permettre d'appliquer la théorie asymptotique bayésienne.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5. Inférence à partir de multiples populations synthétiques non paramétriques