5. Inférence à partir de multiples populations synthétiques non paramétriques

Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan

Précédent | Suivant

Supposons que nous produisons L MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadYeaaa a@399F@  populations synthétiques, S l , l=1,,L MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaabaaaaaaa aapeGaam4uamaaBaaaleaacaWGSbaabeaakiaacYcacaGGGcGaamiB aiabg2da9iaaigdacaGGSaGaeSOjGSKaaiilaiaadYeaaaa@42C6@  en utilisant la méthode non paramétrique décrite à la section 4, et que notre cible d'inférence est QQ( Y ), MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqaqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadgfacq GHHjIUcaWGrbWaaeWaaeaacaWGzbaacaGLOaGaayzkaaGaaiilaaaa @3F3A@  une fonction des données de population (p. ex. moyenne de population, corrélation, estimateur du maximum de vraisemblance de population d'un paramètre de régression). Nous pouvons calculer Q l MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqaqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadgfada WgaaWcbaGaamiBaaqabaaaaa@3AA1@  comme étant l'estimation de Q MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadgfaaa a@39A4@  obtenue en regroupant les F MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadAeaaa a@3999@  populations synthétiques utilisées pour imputer les unités non observées de S l ; MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaabaaaaaaa aapeGaam4ua8aadaWgaaWcbaWdbiaadYgaa8aabeaakiaacUdaaaa@3BDA@  puisqu'il s'agit de tirages directs à partir de la loi prédictive a posteriori de la population, nous pouvons calculer les moyennes, les quantiles et les intervalles de crédibilité a posteriori d'après les estimations empiriques correspondantes à partir des tirages, si L MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadYeaaa a@399F@  est suffisamment grand.

Cependant, dans de nombreuses situations, le temps de calcul nécessaire pour imputer la population peut être très important, même s'il ne faut pas synthétiser la population complète. D'où, une autre approche de l'inférence consiste à utiliser la loi t MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadshaaa a@39C7@  comme approximation de la distribution prédictive a posteriori d'une statistique de population scalaire Q MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqaqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadgfaaa a@3984@ :

Q| S 1 ,, S L ~ · t L1 ( Q ¯ L ,( 1+ L 1 ) V L ) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqaqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaamaaeiaaba GaamyuaiaaykW7aiaawIa7aiaaykW7caWGtbWaaSbaaSqaaiaaigda aeqaaOGaaiilaiablAciljaacYcacaWGtbWaaSbaaSqaaiaadYeaae qaaOWaaCbiaeaacaGG+baaleqabaGaeS4JPFgaaOGaamiDamaaBaaa leaacaWGmbGaeyOeI0IaaGymaaqabaGcdaqadaqaaiqadgfagaqeam aaBaaaleaacaWGmbaabeaakiaacYcadaqadaqaaiaaigdacqGHRaWk caWGmbWaaWbaaSqabeaacqGHsislcaaIXaaaaaGccaGLOaGaayzkaa GaamOvamaaBaaaleaacaWGmbaabeaaaOGaayjkaiaawMcaaaaa@57AC@

Q ¯ L = l=1 L Q l L = l=1 L f=1 F Q lf LF  et  V L = 1 L l=1 L ( Q l Q ¯ L ) 2 . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiqadgfaga qeamaaBaaaleaacaWGmbaabeaakabaaaaaaaaapeGaeyypa0ZaaSaa a8aabaWdbmaavadabeWcpaqaa8qacaWGSbGaeyypa0JaaGymaaWdae aapeGaamitaaqdpaqaa8qacqGHris5aaGccaaMc8Uaamyua8aadaWg aaWcbaWdbiaadYgaa8aabeaaaOqaa8qacaWGmbaaaiabg2da9maala aapaqaa8qadaqfWaqabSWdaeaapeGaamiBaiabg2da9iaaigdaa8aa baWdbiaadYeaa0WdaeaapeGaeyyeIuoaaOWaaubmaeqal8aabaWdbi aadAgacqGH9aqpcaaIXaaapaqaa8qacaWGgbaan8aabaWdbiabggHi LdaakiaaykW7caWGrbWdamaaBaaaleaapeGaamiBaiaadAgaa8aabe aaaOqaa8qacaWGmbGaamOraaaacaqGGaGaaeyzaiaabshacaqGGaGa amOva8aadaWgaaWcbaWdbiaadYeaa8aabeaak8qacqGH9aqpdaWcaa WdaeaapeGaaGymaaWdaeaapeGaamitaaaadaGfWbqabSWdaeaapeGa amiBaiabg2da9iaaigdaa8aabaWdbiaadYeaa0WdaeaapeGaeyyeIu oaaOWaaeWaa8aabaWdbiaadgfapaWaaSbaaSqaa8qacaWGSbaapaqa baGcpeGaeyOeI0IabmyuayaaraWaaSbaaSqaaiaadYeaaeqaaaGcca GLOaGaayzkaaWdamaaCaaaleqabaWdbiaaikdaaaGcpaGaaiOlaaaa @70EE@

Le résultat découle directement de la section 4.1 dans Raghunathan et coll. 2003, et est fondé sur les règles de combinaison classiques pour l'imputation multiple de Rubin (1987), en traitant les unités non observées de S l MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaabaaaaaaa aapeGaam4ua8aadaWgaaWcbaWdbiaadYgaa8aabeaaaaa@3B11@  comme des données manquantes et les unités échantillonnées, comme des données observées. La variance « intra-imputation » moyenne est nulle, puisque la population est entièrement synthétisée; d'où, la variance a posteriori de  Q MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqGqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadgfaaa a@39A4@ est entièrement une fonction de la variance inter-imputations, et le nombre de degrés de liberté est simplement donné par le nombre d'échantillons BBPF. (Lorsque la population est très grande, il nous suffit de synthétiser un tirage assez grand pour que la variance « intra-imputation » moyenne soit négligeable comparativement à la variance inter-imputations V L . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqaqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadAfada WgaaWcbaGaamitaaqabaGccaGGUaaaaa@3B42@  ) Le résultat suppose que E( Q lf )=Q MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4HqaqFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXdbvk9qq=xd9qqaq=Jf9sr 0=vr0=vrWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadweada qadaqaaiaadgfadaWgaaWcbaGaamiBaiaadAgaaeqaaaGccaGLOaGa ayzkaaGaeyypa0Jaamyuaaaa@3FC5@ , ce que notre estimateur BBPF pondéré garantit, et que la taille de l'échantillon est suffisamment grande pour permettre d'appliquer la théorie asymptotique bayésienne.

Précédent | Suivant

Date de modification :