2. Pondération par calage en une étape
Phillip S. Kott et Dan Liao
Précédent | Suivant
2.1 Pondération par calage
et non-réponse totale
En l’absence de non-réponse (ou
d’erreurs de base de sondage), la pondération par calage est une méthode
d’ajustement des poids d’échantillonnage en vue de créer un ensemble de poids
asymptotiquement proche des poids de sondage
originaux,
qui satisfont à un ensemble d’équations de
calage (une pour chaque composante de
où
désigne l’échantillon,
désigne la probabilité de
sélection dans l’échantillon de l’unité
désigne la population de taille
est un vecteur comprenant
composantes ayant chacune un
total de population connu, et
signifie
Kott (2009) décrit un ensemble prudent
de conditions faibles sous lesquelles
est un estimateur quasi sans biais du total de
population
(c’est-à-dire que le biais relatif de
est asymptotiquement nul). Fait plus important,
on suppose que chaque probabilité
possède une borne inférieure
positive égale à
et que la taille d’échantillon (prévue),
devient arbitrairement grande (nous ajoutons
entre parenthèses le terme « prévue » au cas où la taille
d’échantillon est aléatoire).
En outre, on suppose que les quatre
premiers moments de population centrés de chaque composante de
possèdent une borne supérieure, tandis que
converge vers une matrice définie positive.
L’utilisation de la pondération par
calage aura tendance à réduire l’erreur quadratique moyenne par rapport à
l’estimateur à facteur d’extension (expansion
estimator),
quand
est corrélée à certaines composantes de
Cependant, il ne faut pas perdre de vue que,
dans la plupart des enquêtes, les variables étudiées
sont nombreuses.
Un moyen simple de calculer les poids
de calage consiste à le faire linéairement en utilisant la formule
suivante :
Fuller
et coll. (1994) et plus
tard Lundström et Särndal (1999) ont soutenu que ce calage linéaire peut aussi
être utilisé pour traiter la non-réponse totale. L’échantillon
est remplacé par l’échantillon de
répondants
tandis que
selon
que l’échantillon de répondants est calé sur la population
ou calé sur l’échantillon
original
Dans l’un et l’autre cas,
l’estimation est quasi sans biais sous le quasi-plan d’échantillonnage qui
traite la réponse comme une deuxième phase d’échantillonnage aléatoire à
condition que la probabilité de réponse de chaque unité soit de la forme :
et
est un estimateur convergent du
vecteur de paramètres inconnus
dans l’équation (2.1).
Le problème en ce qui concerne la
fonction de réponse donnée par l’équation (2.1) est que l’estimateur implicite
de
peut être négatif. Une forme non linéaire de
la pondération par calage permettant d’éviter cette possibilité a été proposée
par Kott et Liao (2012) qui se sont fondés sur la forme exponentielle
généralisée de Folsom et Singh (2000). Cette forme de calage fait appel à la
méthode de Newton (approximations itératives du développement en série de
Taylor) pour trouver un
tel que l’équation de calage (à partir d’ici,
nous utilisons le terme équation de calage pour faire référence au vecteur des
équations de calage des composantes):
est vérifiée, où
ou
la borne inférieure de
est non négative (de sorte que
les poids de calage sont également non négatifs), et la borne supérieure de
peut être finie ou infinie.
Bien que la fonction d’ajustement
des poids
puisse
prendre d’autres formes raisonnables, nous nous limiterons aux fonctions de la
forme de l’équation (2.3). Il s’agit d’une généralisation du ratissage (raking) où
ainsi que de l’estimation implicite d’un
modèle de réponse logistique, où
Dans l’algorithme d’ajustement proportionnel
itératif original de Deming et Stephan (1940) pour le ratissage, les
composantes de
ont été restreintes à des
fonctions indicatrices. Nous utilisons ici le terme « ratissage » de
manière plus générale pour désigner une pondération par calage avec une
fonction d’ajustement des poids de la forme
Quand
l’équation (2.3) devient l’ajustement par
calage généralisé introduit dans Deville et Särndal (1992) et discuté plus en
détail dans Deville, Särndal et Sautory (1993). Le calage généralisé permet non
seulement que les composantes de
soient continues, mais aussi que l’étendue des
soit contrainte entre une valeur positive
et une valeur (possiblement) finie
Deville et Särndal (1992) posaient comme
condition que
Puisqu’ils ne s’intéressaient
pas à des échantillons avec non-réponse (ou à des bases de sondage
incorrectes),
devait converger vers 0 et
vers 1 quand la taille d’échantillon (prévue)
devenait arbitrairement grande. Cependant, lorsqu’on ajuste les poids de
sondage pour corriger la non-réponse, poser
que
est une stratégie plus raisonnable afin que la
probabilité de réponse estimée implicite ne soit pas supérieure à 1.
Tandis que la définition originale de
la pondération par calage donnée dans Deville et Särndal (1992) comprenait la
minimisation des écarts dans
entre les
et
mesurés par une certaine fonction de perte,
des formulations ultérieures (par exemple, Estevao et Särndal 2000) ont
éliminé la fonction de perte de la définition. Forcer
et
à être proches a peu de sens quand la
pondération par calage est utilisée pour corriger la non-réponse totale,
puisque si une unité
échantillonnée a une probabilité relativement
faible de réponse, l’écart entre
et
doit être relativement grand.
Au lieu de supposer un modèle de
réponse ayant une forme fonctionnelle particulière, une autre justification de
l’utilisation de la pondération par calage comme moyen d’éliminer le biais de
non-réponse totale consiste à émettre l’hypothèse d’un modèle de prédiction
dans lequel la variable étudiée
est elle-même une variable
aléatoire telle que
pour un
inconnu, que l’unité
soit échantillonnée ou non ou qu’elle réponde
ou non quand elle est échantillonnée. Kott (2006) et d’autres ont observé que
l’estimateur pondéré par calage de
sera quasi sans biais sous le modèle de prédiction
quand le calage est effectué sur la population (quand
dans l’équation (2.2)), et sous la combinaison
du modèle de prédiction et du mécanisme de sélection de l’échantillon original
quand le calage est effectué sur l’échantillon original (quand
La propriété faisant qu’un estimateur
pondéré par calage est dans un certain sens quasi sans biais quand un modèle hypothétique
de réponse ou un modèle hypothétique de
prédiction est vérifié a été appelée
« double protection contre le biais de non-réponse » par Kim et Park
(2006). Elle est appelée « double robustesse » dans la littérature
biostatistique (Bang et Robins 2005) et attribuée à Robins, Rotnitzky et Zhao (1994), qui ont traité
la non-réponse partielle plutôt que totale.
On suppose souvent que la distribution
de
sous le modèle de prédiction est la même pour
les membres de la population échantillonnés et non échantillonnés. Autrement
dit, le mécanisme d’échantillonnage est considéré comme étant ignorable. En outre, on suppose souvent
que la distribution de
est la même qu’un membre de la population
réponde ou non quand il est échantillonné, c’est-à-dire que le mécanisme de
réponse est également considéré comme étant ignorable (Little et Rubin 2002). Ici, nous faisons des hypothèses analogues plus
faibles sous le modèle de prédiction, nommément que
ne dépend pas du fait que l’unité
est échantillonnée ou non ou qu’elle répond ou
non quand elle est échantillonnée. Disons que les mécanismes d’échantillonnage
et de réponse sont considérés comme étant « ignorable au premier
moment ».
2.2 Variables
instrumentales
Deville
(2000) a observé que l’on peut utiliser le calage avec des variables
instrumentales pour corriger le biais de non-réponse possible en émettant
l’hypothèse d’un modèle de réponse qui dépend de
mais en ajustant les équations de calage avec
où le
satisfaisant l’équation (2.5)
avec
ou
est un estimateur convergent
du vecteur de paramètres inconnus
dans l’équation (2.4). Certaines
conditions faibles sont nécessaires ici. Les conditions qui suivent sont
suffisantes :
est un estimateur convergent et
borné pour
est partout deux fois dérivable,
et
est toujours inversible et borné
quand l’échantillon devient arbitrairement grand.
Soit
quand
autrement. Il n’est pas difficile de montrer que
pour un
certain
compris
entre
et
comme
l’ont démontré Kott et Liao (2012) quand
Deville note également que les
composantes de
peuvent être des variables étudiées dont les
valeurs ne sont connues que pour les répondants. Chang et Kott (2008) ont
étendu la notion de la pondération par calage afin de permettre que la
dimension du vecteur
soit plus grande que celle du vecteur
Nous ne traiterons ni l’une ni l’autre possibilité dans les sections
qui suivent.
Kim et Shao (2013), en traitant la
non-réponse non ignorable, désignent par « variables instrumentales »
les composantes de
qui ne sont pas entièrement des fonctions des
composantes de
Pour limiter toute confusion future, nous
utiliserons donc le terme « variables du modèle » pour désigner les
composantes de
Précédent | Suivant