1. Introduction

Phillip S. Kott et Dan Liao

Précédent | Suivant

Le sondage est un outil utilisé surtout pour estimer les paramètres d’une population finie en se basant sur un échantillon de ses membres tiré aléatoirement. Les échantillons probabilistes sont assortis de poids de sondage (d’échantillonnage) qui sont souvent les inverses des probabilités de sélection des membres individuels. À condition que chaque élément de la population possède une probabilité de sélection positive, il est simple de produire un estimateur du total de population de la variable étudiée qui est sans biais par rapport au mécanisme d’échantillonnage probabiliste. Le ratio de deux estimateurs sans biais des totaux, ou toute autre fonction lisse des totaux estimés, n’est pas forcément sans biais, mais est asymptotiquement sans biais et souvent convergent puisque sa variance relative, comme son biais relatif, tend vers zéro quand la taille de l’échantillon devient arbitrairement grande.

Deville et Särndal (1992) ont introduit la pondération par calage comme outil d’ajustement des poids de sondage de façon que les sommes pondérées de certaines variables de « calage » soient égales à leurs totaux de population connus (ou mieux estimés). Si ces équations de calage sont vérifiées, l’erreur-type d’un total estimé pour une variable dont le total de population est inconnu est souvent réduite, tandis que l’estimation demeure quasi (c’est-à-dire asymptotiquement) sans biais sous le mécanisme d’échantillonnage probabiliste.

Bien qu’elle ait été élaborée au départ pour réduire les erreurs-types, la pondération par calage a souvent été utilisée pour éliminer le biais de sélection résultant de la non-réponse totale sous certaines hypothèses (par exemple, Folsom 1991; Fuller, Loughin et Baker 1994; Lundström et Särndal 1999; Folsom et Singh 2000). À cette fin, on traite le fait qu’un élément sélectionné dans l’échantillon répond (ou non) à une enquête comme une phase additionnelle de l’échantillonnage aléatoire de Poisson avec probabilités de sélection inconnues, mais positives. La pondération par calage estime ces probabilités de sélection de Poisson implicitement et produit des totaux estimés qui sont presque sans biais sous le mécanisme combiné de sélection de l’échantillon et des répondants, qui est souvent appelé le « quasi-plan d’échantillonnage ». Voir Oh et Scheuren (1983).

Une mise en garde importante est que, si le mécanisme de sélection de l’échantillon est entièrement sous le contrôle du statisticien, le mécanisme de sélection des réponses est inconnu. Une hypothèse est émise quant à la forme particulière du mécanisme de réponse, et si cette hypothèse n’est pas vérifiée, les estimateurs peuvent être biaisés.

Une autre justification de la pondération par calage s’appuie sur un type de modélisation différent. Il est facile de montrer que la pondération par calage produit un estimateur qui est sans biais sous un modèle de prédiction (résultat) linéaire si la valeur prévue de la variable étudiée sous le modèle de prédiction est une fonction linéaire des variables de calage pourvu que les mécanismes d’échantillonnage et de réponse soient ignorables, c’est-à-dire que l’on puisse appliquer le même modèle de prédiction que l’élément de la population soit ou non échantillonné ou qu’il réponde ou non lorsqu’il est échantillonné.

Contrairement au modèle de sélection qui régit le mécanisme de réponse, il est possible que le modèle de prédiction linéaire soit vérifié pour une variable étudiée et non pour une autre. C’est la raison pour laquelle la plupart des échantillonneurs préfèrent émettre l’hypothèse d’un modèle de sélection lorsqu’ils corrigent la non-réponse totale. Néanmoins, il est rassurant de savoir que si l’un ou l’autre modèle est correct, le total estimé est quasi sans biais (c’est-à-dire qu’il possède un biais relatif qui s’évanouit asymptotiquement), une propriété que Kim et Park (2006) ont appelée « double protection » contre le biais de non-réponse.

Il est possible de simultanément éliminer le biais de sélection et réduire l’erreur-type sous le mécanisme d’échantillonnage probabiliste en une seule étape en ajustant les poids de sondage des unités répondantes afin que les totaux estimés pour un ensemble de variables de calage soient égaux aux totaux de population connus de ces unités. Néanmoins, il existe des raisons de préférer l’approche de pondération par calage en deux étapes, même quand les ensembles de variables de calage utilisés aux deux étapes sont les mêmes ou sont un sous-ensemble des variables de calage de l’approche en une étape : la première étape, de l’échantillon de répondants à l’échantillon original, élimine le biais de sélection et la deuxième étape, de l’échantillon original à la population, réduit la variance des estimateurs résultants.

Bien que Folsom et Singh (2000) et d’autres aient souligné que la pondération par calage peut aussi être utilisée pour éliminer le biais de sélection dû à une sous-couverture ou une surcouverture de la base de sondage, nous nous concentrons ici sur un échantillon à un degré tiré d’une base liste complète sans enregistrements en double. Autrement dit, nous supposons que la base de sondage est identique à la population cible (c’est-à-dire que chaque unité de la population est énumérée sur la liste de la base de sondage).

La présentation de l’article est la suivante. À la section 2, nous passons en revue certains éléments de théorie sur la pondération par calage. À la section 3, nous présentons un estimateur de variance légèrement nouveau qui, comme l’estimateur de variance décrit dans Kott (2006), peut être utilisé pour mesurer à la fois l’erreur quadratique moyenne d’un estimateur pondéré par calage sous le quasi-plan d’échantillonnage et la variance sous le modèle de prédiction ou la combinaison du modèle de prédiction et du mécanisme d’échantillonnage original, ce qui rend sans doute la double protection contre le biais de non-réponse plus utile pour l’inférence. L’estimateur de variance donné dans Kott s’applique seulement lorsque le calage se fait sur les valeurs de population. Ici, à l’instar de Folsom et Singh (2000), nous donnons la possibilité d’effectuer le calage sur l’échantillon original.

À la section 4, nous discutons des limites de la pondération par calage en une seule étape et élaborons une théorie pour l’approche en deux étapes. Bien que notre principal objectif ici soit de faire valoir les avantages de l’utilisation de deux étapes, même lorsque des ensembles similaires de variables de calage sont employés aux deux étapes, l’estimateur par calage que nous traitons dans cette section est plus général. À la section 5, nous décrivons les résultats de certaines expériences par simulation, tandis qu’à la section 6, nous tirons quelques conclusions.

Précédent | Suivant

Date de modification :