6 Pondérations et estimateurs de Horvitz-Thompson

Jeremy Strief et Glen Meeden

Précédent | Suivant

La pondération attribuée à une unité de l'échantillon est habituellement définie comme étant l'inverse de la probabilité d'inclusion de cette unité. On est donc invité à se représenter la pondération de l'unité comme étant le nombre d'unités de la population qu'elle représente. L'estimateur résultant du total de population est l'estimateur de Horvitz-Thompson (HT) qui est sans biais. Comme nous l'avons déjà mentionné, l'estimation sans biais de sa variance dépend des probabilités de sélection conjointes de toutes les paires d'unités figurant dans l'échantillon. Comme, en pratique, il peut être impossible de calculer ces probabilités, on utilise souvent l'approximation de l'équation (5.4).

L'estimateur HT donne de bons résultats quand y i MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEam aaBaaaleaacaWGPbaabeaaaaa@3BAF@  est approximativement proportionnel à sa probabilité de sélection. Pour comparer le comportement de cet estimateur à la méthode basée sur la LPDP, nous avons réalisé une petite expérience par simulation. Nous avons construit la variable x MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamiEaa aa@3A94@  en tirant un échantillon aléatoire de 2 000 unités d'une loi de probabilité gamma de paramètre de forme égal à 5 et de paramètre d'échelle égal à 1, et en ajoutant 20 à chaque valeur. Pour générer y, MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEai aacYcaaaa@3B45@  nous avons postulé que la loi conditionnelle de y i MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEam aaBaaaleaacaWGPbaabeaaaaa@3BAF@  sachant x i MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamiEam aaBaaaleaacaWGPbaabeaaaaa@3BAE@  était une loi normale de moyenne 5 x i MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaaGynai aadIhadaWgaaWcbaGaamyAaaqabaaaaa@3C6D@  et d'écart-type 20. La corrélation de la population résultante était de 0,49. Nous avons désigné cette population par A. Nous avons créé une deuxième population, B, en utilisant le même vecteur de valeurs de x, MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamiEai aacYcaaaa@3B44@  mais en ajoutant 400 à chaque valeur de y i . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEam aaBaaaleaacaWGPbaabeaakiaac6caaaa@3C6B@  Dans notre plan d'échantillonnage, nous nous sommes servis de x MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamiEaa aa@3A94@  pour effectuer un échantillonnage proportionnel à la taille, c'est-à-dire ppt( x ). MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaaiaabc hacaqGWbGaaeiDamaabmaabaGaamiEaaGaayjkaiaawMcaaiaac6ca aaa@40E6@  Nous avons utilisé le module externe sampling de R, de sorte que les probabilités d'inclusion étaient exactes. Sous ce plan, nous nous attendons à ce que l'estimateur HT donne de bons résultats pour la population A mais qu'il ait de moins bonnes propriétés pour la population B. Nous avons également considéré un troisième estimateur, NHT, obtenu simplement en rééchelonnant les pondérations de l'estimateur HT de manière que leur somme soit égale à la taille N de la population. Nous avons produit 500 échantillons de taille 50. Les résultats sont présentés au tableau 6.1.

Tableau 6.1
Résultats pour les populations A et B basés sur 500 échantillons de taille 50. L’estimateur NHT correspond à l’estimateur HT normalisé de manière que la somme des pondérations soit égale à la taille de la population, N = 2 000.
Sommaire du tableau
Le tableau montre les résultats de résultats pour les populations a et b basés sur 500 échantillons de taille 50. l’estimateur nht correspond à l’estimateur ht normalisé de manière que la somme des pondérations soit égale à la taille de la population. Les données sont présentées selon population (titres de rangée) et méthode, erreur absolue moyenne, longueur moyenne et fréquence de couverture(figurant comme en-tête de colonne).
Population Méthode Erreur absolue moyenne Longueur moyenne Fréquence de couverture
A HT 4 628 21 898 0,94
B HT 8 965 43 914 0,96
A et B LPDP 4 706 24 381 0,96
A NHT 5 051 21 897 0,896
B NHT 5 051 43 919 0,998

Bien que cela ne soit pas montré dans le tableau, les estimateurs HT et LPDP sont tous deux sans biais pour les deux populations. Comme prévu, l'estimateur HT est le meilleur pour la population A, mais sa performance baisse considérablement pour la population B. Par ailleurs, les propriétés de l'estimateur LPDP sont exactement les mêmes pour les deux populations. En tant qu'estimateur ponctuel, l'estimateur NHT donne de nettement meilleurs résultats que l'estimateur HT pour la population B, et des résultats moins bons pour la population A. Dans l'ensemble, l'estimateur LPDP est clairement celui qui donne les meilleurs résultats. Comment ces différences s'expliquent-elles ?

Dans la population A, y i x i MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEam aaBaaaleaacaWGPbaabeaakiabg2Hi1kaadIhadaWgaaWcbaGaamyA aaqabaaaaa@3F50@  et les calculs montrent que γ dw MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaeq4SdC 2aaSbaaSqaaiaadsgacaWG3baabeaaaaa@3D4F@  est presque toujours négatif et que sa valeur absolue est petite comparativement à σ dw . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaeq4Wdm 3aaSbaaSqaaiaadsgacaWG3baabeaakiaac6caaaa@3E27@  En d'autres termes, quand l'estimateur HT est approprié, c'est la variance de la population construite en se basant sur les pondérations de cet estimateur qui est essentiellement utilisée pour obtenir l'estimation de sa variance.

La seule différence entre les populations A et B est qu'une constante a été ajoutée à la valeur de y MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEaa aa@3A95@  de chaque unité. Alors, si les pondérations de l'échantillon nous permettent d'obtenir une bonne approximation de la population dans le premier cas, quel est le problème qui, dans le deuxième cas, fait que l'estimateur HT donne de si mauvais résultats ? Pour le voir, considérons ce qui suit.

Dans l'estimation HT, la somme des pondérations dans l'échantillon n'est presque jamais égale à N, MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamOtai aacYcaaaa@3B1A@  la taille de la population. Étant donné un échantillon de la population B, l'estimation HT est donnée par

i=1 50 w i y i = i=1 50 w i y i +400 i=1 50 w i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4HqGqpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 vqFf0xb9vqFfWZqaaeaabiGaaiaacaqabeaadaqaaqaaaOqaamaaqa habaGaam4DamaaBaaaleaacaWGPbaabeaakiaadMhadaWgaaWcbaGa amyAaaqabaGccqGH9aqpdaaeWbqaaiaadEhadaWgaaWcbaGaamyAaa qabaGcceWG5bGbauaadaWgaaWcbaGaamyAaaqabaaabaGaamyAaiab g2da9iaaigdaaeaacaaI1aGaaGimaaqdcqGHris5aOGaey4kaSIaaG inaiaaicdacaaIWaWaaabCaeaacaWG3bWaaSbaaSqaaiaadMgaaeqa aaqaaiaadMgacqGH9aqpcaaIXaaabaGaaGynaiaaicdaa0GaeyyeIu oaaSqaaiaadMgacqGH9aqpcaaIXaaabaGaaGynaiaaicdaa0Gaeyye Iuoaaaa@5CB9@

y i MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGabmyEay aafaWaaSbaaSqaaiaadMgaaeqaaaaa@3BBB@  désigne la valeur de l'unité dans la population A et y i , MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEam aaBaaaleaacaWGPbaabeaakiaacYcaaaa@3C69@  sa valeur dans la population B. Notons que le deuxième terme de l'équation susmentionnée ajoute une variabilité supplémentaire à l'estimateur HT. Dans la population B, les calculs montrent que le terme γ dw MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaeq4SdC 2aaSbaaSqaaiaadsgacaWG3baabeaaaaa@3D4F@  de l'équation (5.5) est positif et peut être assez grand. Il explique la variabilité excédentaire de l'estimateur HT dans la population B découlant du fait qu'ici, y i x i +400 MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEam aaBaaaleaacaWGPbaabeaakiabg2Hi1kaadIhadaWgaaWcbaGaamyA aaqabaGccqGHRaWkcaaI0aGaaGimaiaaicdaaaa@426E@  et non x i . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamiEam aaBaaaleaacaWGPbaabeaakiaac6caaaa@3C6A@

Notons que Zheng et Little (2003) ont soutenu que, lorsqu'on estime un total de population finie et qu'on utilise un plan d'échantillonnage avec probabilités proportionnelles à la taille, un estimateur fondé sur un modèle non paramétrique à splines pénalisées donne généralement de meilleurs résultats que l'estimateur de Horvitz-Thompson. Zheng et Little (2005) ont élaboré des méthodes pour estimer la variance de leur estimateur. Certains travaux apparentés sont décrits dans Zheng et Little (2004).

Les pondérations basées sur la LPDP ne comprennent que la contrainte voulant que les copies complètes simulées de la population aient la moyenne de population correcte pour x. MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamiEai aac6caaaa@3B46@  Cette hypothèse est plus robuste que celle qui sous-tend l'estimateur HT. En toute honnêteté, il faut se rappeler (comme l'a fait remarquer un examinateur) que l'estimateur HT a été élaboré avec l'objectif limité d'obtenir des estimateurs linéaires sans biais du total de population. Toutefois, sa simplicité ne semble plus aussi importante maintenant que des estimateurs plus compliqués et plus efficaces sont devenus plus faciles à calculer. La performance supérieure de la méthode bayésienne séquentielle laisse entendre ici que si l'on pense posséder pour les unités échantillonnées un ensemble de pondérations dont la somme est égale à la taille de la population et qui donne une bonne approximation de la population, il faut utiliser la variance de cette bonne approximation de la population pour construire une estimation de la variance de l'estimation de la moyenne de population au lieu d'utiliser l'équation (5.4). Cela vaut particulièrement pour les grandes enquêtes portant sur plusieurs caractéristiques y MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyEaa aa@3A95@  d'intérêt. Il serait très surprenant que toutes satisfassent les hypothèses nécessaires pour que l'équation (5.4) soit une bonne estimation de la variance d'une moyenne d'échantillon. Suivant l'observation faite dans Royall et Cumberland (1981) et Royall et Cumberland (1985) voulant que de bons échantillons équilibrés (la moyenne d'échantillon est proche de la moyenne de population) peuvent améliorer la performance, on devrait fonder les inférences sur les copies complètes simulées de la population auxquelles est intégrée l'information a priori disponible contenue dans les variables auxiliaires.

Précédent | Suivant

Date de modification :