5 La loi a posteriori de Dirichlet pondérée

Jeremy Strief et Glen Meeden

Précédent | Suivant

Il arrive souvent que des pondérations soient attachées à des données dans les fichiers de données à grande diffusion. Ces pondérations sont alors utilisées par les chercheurs pour produire des estimations ponctuelles et des estimations d'intervalles pour les paramètres de population. Nous allons voir que les pondérations fondées sur la méthode bayésienne séquentielle présentée ici peuvent souvent être utilisées dans les formules fréquentistes classiques pour estimer les paramètres d'intérêt tout comme les pondérations habituelles. Nous utiliserons nos pondérations pour définir la loi a posteriori de Dirichlet pondérée et montrer qu'elle offre un autre moyen de calculer les estimations ponctuelles et les estimations d'intervalles pour diverses quantités de population.

Soit les w j MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaam4Dam aaBaaaleaacaWGQbaabeaaaaa@3BAE@  un ensemble de pondérations défini par l'équation (4.1) avec μ j = w j /N . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiabeY 7aTnaaBaaaleaacaWGQbaabeaakiabg2da9maalyaabaGaam4Damaa BaaaleaacaWGQbaabeaaaOqaaiaad6eaaaGaaiOlaaaa@426E@  Considérons la distribution de Dirichlet sur le simplex défini par le vecteur nμ=( n μ 1 ,,n μ n ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaad6 gacqaH8oqBcqGH9aqpdaqadaqaaiaad6gacqaH8oqBdaWgaaWcbaGa aGymaaqabaGccaGGSaGaeSOjGSKaaiilaiaad6gacqaH8oqBdaWgaa WcbaGaamOBaaqabaaakiaawIcacaGLPaaaaaa@49F7@  comme une loi a posteriori de rechange pour p=( p 1 ,, p n ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadc hacqGH9aqpdaqadaqaaiaadchadaWgaaWcbaGaaGymaaqabaGccaGG SaGaeSOjGSKaaiilaiaadchadaWgaaWcbaGaamOBaaqabaaakiaawI cacaGLPaaaaaa@44DB@  en utilisant l'échantillon observé pour produire des copies simulées complètes de la population. Nous donnerons à cette loi a posteriori le nom de loi a posteriori de Dirichlet pondérée (LPDP). Soulignons que la LPDP est une version moins contrainte de la LPPC. Sous la LPPC, chaque copie complète de la population satisfait les contraintes; par contre, sous la LPDP, seule la moyenne des populations simulées satisfait les contraintes. Il est facile de voir que sous la LPDP

E( i=1 n p i y i )= i=1 n μ i y i = y ¯ bw MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadw eadaqadaqaamaaqahabaGaamiCamaaBaaaleaacaWGPbaabeaakiaa dMhadaWgaaWcbaGaamyAaaqabaaabaGaamyAaiabg2da9iaaigdaae aacaWGUbaaniabggHiLdaakiaawIcacaGLPaaacqGH9aqpdaaeWbqa aiabeY7aTnaaBaaaleaacaWGPbaabeaakiaadMhadaWgaaWcbaGaam yAaaqabaGccqGH9aqpceWG5bGbaebadaWgaaWcbaGaamOyaiaadEha aeqaaaqaaiaadMgacqGH9aqpcaaIXaaabaGaamOBaaqdcqGHris5aa aa@573E@ (5.1)

et

V( i=1 n p i y i ) = i=1 n y i 2 V( p i )+ i<j   y i y j Cov( p i , p j ) = i=1 n n μ i ( nn μ i ) y i 2 n 2 ( n+1 ) 2 i<j   n μ i n μ j y i y j n 2 ( n+1 )     (5.2) = 1 n+1 ( i=1 n μ i ( 1 μ i ) y i 2 +2 i<j   μ i n μ j y i y j ) = 1 n+1 ( i=1 n μ i y i 2 i=1 n i=1 n μ i μ j y i y j ) = 1 n+1 σ bw 2

y ¯ bw MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGabmyEay aaraWaaSbaaSqaaiaadkgacaWG3baabeaaaaa@3CBC@  et σ bw 2 MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaeq4Wdm 3aa0baaSqaaiaadkgacaWG3baabaGaaGOmaaaaaaa@3E26@  sont définies par l'équation (4.2).

Partant de cela, nous voyons que, lorsqu'on estime la moyenne de population, la simulation à partir de la LPDP équivaut à utiliser l'échantillon et ses pondérations pour construire la meilleure approximation possible de la population. En particulier, quand les pondérations sont toutes égales, la LPDP est simplement la loi a posteriori de Pólya.

Deux grandes raisons nous poussent à introduire la LPDP. Premièrement, à mesure que le nombre de contraintes utilisées augmente, les intervalles de crédibilité à 95 % approximatifs fondés sur la LPPC deviennent trop courts et contiennent la valeur réelle du paramètre dans moins de 95 % du temps. Il en est ainsi parce que, quand le nombre de contraintes est grand, la LPPC ne permet pas d'obtenir une variabilité suffisante dans les copies complètes simulées de la population qu'elle produit. Deuxièmement, il est nettement plus facile d'exécuter la simulation à partir de la LPDP qu'à partir de la LPPC. Maintenant, il serait possible d'effectuer la simulation à partir de la LPDP contrainte de manière que toutes les contraintes soient satisfaites, mais cela demanderait autant d'effort que d'effectuer la simulation à partir de la LPPC. En outre, nous pensons que cela donnerait des intervalles de crédibilité à 95 % approximatifs ayant de mauvaises propriétés de couverture fréquentistes parce qu'ils seraient trop courts.

Supposons maintenant que notre ensemble de pondérations est constitué des réciproques des probabilités d'inclusion provenant du plan de sondage. Soit W= i=1 n w i . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFjea0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaam4vai abg2da9maaqadabaGaam4DamaaBaaaleaacaWGPbaabeaaaeaacaWG PbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoakiaac6caaaa@4395@  Pour la plupart des échantillons, cette valeur n'est pas égale à N, MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOtai aacYcaaaa@3B1A@  mais s'en approche souvent. De nouveau, nous pouvons construire notre meilleure approximation de la population en nous basant sur les pondérations. La moyenne et la variance de cette population seront données par

y ¯ dw = i=1 n w i W y i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiqadM hagaqeamaaBaaaleaacaWGKbGaam4DaaqabaGccqGH9aqpdaaeWbqa amaalaaabaGaam4DamaaBaaaleaacaWGPbaabeaaaOqaaiaadEfaaa GaamyEamaaBaaaleaacaWGPbaabeaaaeaacaWGPbGaeyypa0JaaGym aaqaaiaad6gaa0GaeyyeIuoaaaa@4A05@  et σ dw 2 = i=1 n w i W ( y i y ¯ dw ) 2 . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiabeo 8aZnaaDaaaleaacaWGKbGaam4DaaqaaiaaikdaaaGccqGH9aqpdaae WbqaamaalaaabaGaam4DamaaBaaaleaacaWGPbaabeaaaOqaaiaadE faaaaaleaacaWGPbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoa kmaabmaabaGaamyEamaaBaaaleaacaWGPbaabeaakiabgkHiTiqadM hagaqeamaaBaaaleaacaWGKbGaam4DaaqabaaakiaawIcacaGLPaaa daahaaWcbeqaaiaaikdaaaGccaGGUaaaaa@52DA@ (5.3)

Si nous utilisons y ¯ dw MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGabmyEay aaraWaaSbaaSqaaiaadsgacaWG3baabeaaaaa@3CBE@  comme estimation de la moyenne de population inconnue, une estimation sans biais de cette variance dépend des probabilités d'inclusion conjointes des unités dans l'échantillon. Comme il est souvent difficile d'obtenir ces probabilités, il a été recommandé en pratique (Särndal, Swensson et Wretman 1992) de supposer que l'échantillonnage a été fait avec remise, même si ce n'est pas le cas. Alors, l'estimation approximative résultante de la variance de y ¯ dw MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGabmyEay aaraWaaSbaaSqaaiaadsgacaWG3baabeaaaaa@3CBE@  est

V ^ d ( y ¯ dw ) = 1 n( n1 ) i=1 n ( n w i W y i y ¯ dw ) 2     (5.4) = σ dw 2 + γ dw n1

où la deuxième ligne découle de simples opérations algébriques et où

γ dw = i=1 n w i W y i 2 ( n w i W 1 ). MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiabeo 7aNnaaBaaaleaacaWGKbGaam4DaaqabaGccqGH9aqpdaaeWbqaamaa laaabaGaam4DamaaBaaaleaacaWGPbaabeaaaOqaaiaadEfaaaGaam yEamaaDaaaleaacaWGPbaabaGaaGOmaaaakmaabmaabaGaamOBamaa laaabaGaam4DamaaBaaaleaacaWGPbaabeaaaOqaaiaadEfaaaGaey OeI0IaaGymaaGaayjkaiaawMcaaiaac6caaSqaaiaadMgacqGH9aqp caaIXaaabaGaamOBaaqdcqGHris5aaaa@534A@ (5.5)

Notons que, sous échantillonnage aléatoire simple avec ou sans remise et N=nk, MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOtai abg2da9iaad6gacaWGRbGaaiilaaaa@3E03@   γ dw =0. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiabeo 7aNnaaBaaaleaacaWGKbGaam4DaaqabaGccqGH9aqpcaaIWaGaaiOl aaaa@4105@  Dans ce cas, l'estimation de la variance donnée par l'équation (5.4) est essentiellement équivalente à celle donnée par l'équation (5.2).

Dans les situations où il est sensé d'utiliser l'estimateur de Horvitz-Thompson, les calculs ont montré que γ dw MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaeq4SdC 2aaSbaaSqaaiaadsgacaWG3baabeaaaaa@3D4F@  a tendance à être négatif, ce qui laisse entendre que les intervalles fondés sur la LPDP ont alors tendance à être prudents. Cependant, les calculs montrent aussi que le terme γ dw MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaeq4SdC 2aaSbaaSqaaiaadsgacaWG3baabeaaaaa@3D4F@  a tendance à être positif dans les situations où l'estimateur de Horvitz-Thompson n'est pas approprié. Nous verrons que, dans de tels cas, l'approximation habituelle peut donner de médiocres résultats et que les intervalles fondés sur la LPDP peuvent posséder de meilleures propriétés fréquentistes.

Précédent | Suivant

Date de modification :