4 Pondérations basées sur la loi a posteriori de Pólya contrainte

Jeremy Strief et Glen Meeden

Précédent | Suivant

Une critique de la loi a posteriori de Pólya et de la loi a posteriori de Pólya contrainte pourrait être que toute copie complète simulée de la population ne contient que les valeurs des caractéristiques qui figurent dans l'échantillon. Cependant, c'est exactement cette propriété qui va nous permettre d'attribuer des pondérations aux membres de l'échantillon.

Nous supposons que nous avons un échantillon fixe pour lequel le sous-ensemble du simplex défini par les équations (3.1) et (3.2) est non vide. Pour j=1,,n MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOAai abg2da9iaaigdacaaISaGaeSOjGSKaaGilaiaad6gaaaa@3FC8@  soit

w j =NE( p j )=N μ j MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadE hadaWgaaWcbaGaamOAaaqabaGccqGH9aqpcaWGobGaamyramaabmqa baGaamiCamaaBaaaleaacaWGQbaabeaaaOGaayjkaiaawMcaaiabg2 da9iaad6eacqaH8oqBdaWgaaWcbaGaamOAaaqabaaaaa@47E3@ (4.1)

où l'espérance est prise par rapport à la LPPC. Notons que la somme des éléments de w=( w 1 ,, w n ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadE hacqGH9aqpdaqadaqaaiaadEhadaWgaaWcbaGaaGymaaqabaGccaGG SaGaeSOjGSKaaiilaiaadEhadaWgaaWcbaGaamOBaaqabaaakiaawI cacaGLPaaaaaa@44F0@  est égale à la taille de la population N MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOtaa aa@3A6A@  et que w j MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaam4Dam aaBaaaleaacaWGQbaabeaaaaa@3BAE@  peut être considéré comme la pondération associée au j e MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOAam aaCaaaleqabaGaaeyzaaaaaaa@3B9B@  membre de l'échantillon. Ces pondérations ne dépendent que des valeurs observées des variables auxiliaires et des contraintes de population connues. Par conséquent, il s'agit d'une méthode bayésienne séquentielle d'attribution des pondérations aux unités de l'échantillon dans laquelle est intégrée l'information a priori présente dans les variables auxiliaires et qui ne dépend pas explicitement du plan de sondage.

Nous supposons ici que la taille de la population N MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOtaa aa@3A6A@  est connue, ce qui n'est pas toujours vrai. Le cas échéant, on pourrait remplacer N MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOtaa aa@3A6A@  par une estimation dans l'équation susmentionnée. Si l'estimation est bonne, les inférences résultantes pour un total de population devraient être satisfaisantes. Dans le cas de l'estimation d'une moyenne de population, les résultats seraient nettement moins sensibles à la mesure dans laquelle l'estimation est proche de la taille réelle de la population.

De nombreuses données d'enquête utilisées par les chercheurs du domaine de la science sociale sont fournies avec des pondérations appliquées aux unités individuelles. Dans ces situations, les pondérations basées sur la LPPC pourraient être reliées aux unités de la même façon et l'utilisateur n'aurait pas besoin de faire appel à des méthodes MCMC pour calculer les pondérations. Nous allons nous servir des pondérations pour définir la loi a posteriori de Dirichlet pondérée qui peut être utilisée pour trouver les estimations ponctuelles et les estimations des intervalles pour les quantités de population d'intérêt moyennant des calculs relativement modestes. Dans la suite de l'article, nous illustrerons à l'aide d'exemples comment ces poids peuvent être utilisés pour générer des procédures d'inférence ayant de bonnes propriétés fréquentistes.

Mais avant de poursuivre, faisons une simple observation. Supposons que nous disposions de l'échantillon ainsi que d'un ensemble de pondérations. Si N MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOtaa aa@3A6A@  est grand, nous pouvons construire une population dont la proportion d'unités de type ( y i , x i ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaamaabm aabaGaamyEamaaBaaaleaacaWGPbaabeaakiaacYcacaWG4bWaaSba aSqaaiaadMgaaeqaaaGccaGLOaGaayzkaaaaaa@414D@  est w i /N MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaamaaly aabaGaam4DamaaBaaaleaacaWGPbaabeaaaOqaaiaad6eaaaaaaa@3DDA@  pour i=1,,n. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaadM gacqGH9aqpcaaIXaGaaiilaiablAciljaacYcacaWGUbGaaiOlaaaa @41A7@  Étant donné l'échantillon et l'ensemble de pondérations, nous pouvons considérer cette population construite comme étant la meilleure approximation de la population inconnue. Alors

y ¯ bw = i=1 n w i N y i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiqadM hagaqeamaaBaaaleaacaWGIbGaam4DaaqabaGccqGH9aqpdaaeWbqa amaalaaabaGaam4DamaaBaaaleaacaWGPbaabeaaaOqaaiaad6eaaa GaamyEamaaBaaaleaacaWGPbaabeaaaeaacaWGPbGaeyypa0JaaGym aaqaaiaad6gaa0GaeyyeIuoaaaa@49FA@  et σ bw 2 = i=1 n w i N ( y i y ¯ bw ) 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiabeo 8aZnaaDaaaleaacaWGIbGaam4DaaqaaiaaikdaaaGccqGH9aqpdaae WbqaamaalaaabaGaam4DamaaBaaaleaacaWGPbaabeaaaOqaaiaad6 eaaaaaleaacaWGPbGaeyypa0JaaGymaaqaaiaad6gaa0GaeyyeIuoa kmaabmaabaGaamyEamaaBaaaleaacaWGPbaabeaakiabgkHiTiqadM hagaqeamaaBaaaleaacaWGIbGaam4DaaqabaaakiaawIcacaGLPaaa daahaaWcbeqaaiaaikdaaaaaaa@5211@ (4.2)

sont la moyenne et la variance de cette population construite.

Précédent | Suivant

Date de modification :