Recherche par

2. Pondération par calage en une étape

Phillip S. Kott et Dan Liao

2.1 Pondération par calage et non-réponse totale

En l’absence de non-réponse (ou d’erreurs de base de sondage), la pondération par calage est une méthode d’ajustement des poids d’échantillonnage en vue de créer un ensemble de poids ${w_{k}; k \in S},$ asymptotiquement proche des poids de sondage originaux, $d_{k} = 1 / π_{k},$ qui satisfont à un ensemble d’équations de calage (une pour chaque composante de $z_{k}) :$

$\sum_{S} w_{k} z_{k} = \sum_{U} z_{k},$

où $S$ désigne l’échantillon, $π_{k}$ désigne la probabilité de sélection dans l’échantillon de l’unité $k, U$ désigne la population de taille $N, z_{k}$ est un vecteur comprenant $P$ composantes ayant chacune un total de population connu, et $\sum_{A}$ signifie $\sum_{k \in A} .$

Kott (2009) décrit un ensemble prudent de conditions faibles sous lesquelles $t_{y} = \sum_{S} w_{k} y_{k}$ est un estimateur quasi sans biais du total de population $T_{y} = \sum_{U} y_{k}$ (c’est-à-dire que le biais relatif de $t_{y}$ est asymptotiquement nul). Fait plus important, on suppose que chaque probabilité $π_{k} N / n$ possède une borne inférieure positive égale à $N$ et que la taille d’échantillon (prévue), $n,$ devient arbitrairement grande (nous ajoutons entre parenthèses le terme « prévue » au cas où la taille d’échantillon est aléatoire).

En outre, on suppose que les quatre premiers moments de population centrés de chaque composante de $z_{k}$ possèdent une borne supérieure, tandis que $N^{- 1} \sum_{U} z_{k} z_{k}^{T}$ converge vers une matrice définie positive.

L’utilisation de la pondération par calage aura tendance à réduire l’erreur quadratique moyenne par rapport à l’estimateur à facteur d’extension (expansion estimator), $t_{y}^{E} = \sum_{S} d_{k} y_{k},$ quand $y_{k}$ est corrélée à certaines composantes de $z_{k} .$ Cependant, il ne faut pas perdre de vue que, dans la plupart des enquêtes, les variables étudiées $y_{k}$ sont nombreuses.

Un moyen simple de calculer les poids de calage consiste à le faire linéairement en utilisant la formule suivante :

$\begin{array}{l} w_{k} & = & d_{k} [1 + {(\sum_{U} z_{j} - \sum_{S} d_{j} z_{j})}^{T} {(\sum_{S} d_{j} z_{j} z_{j}^{T})}^{- 1} z_{k}] \\ = & d_{k} [1 + g^{T} z_{k}] . \end{array}$

Fuller et coll. (1994) et plus tard Lundström et Särndal (1999) ont soutenu que ce calage linéaire peut aussi être utilisé pour traiter la non-réponse totale. L’échantillon $S$ est remplacé par l’échantillon de répondants $R,$ tandis que

$g = [(1 - θ) {(\sum_{U} z_{j} - \sum_{R} d_{j} z_{j})}^{T} + θ {(\sum_{S} d_{j} z_{j} - \sum_{R} d_{j} z_{j})}^{T}] {(\sum_{R} d_{j} z_{j} z_{j}^{T})}^{- 1},$

selon que l’échantillon de répondants est calé sur la population $(θ = 0)$ ou calé sur l’échantillon original $(θ = 1) .$ Dans l’un et l’autre cas, l’estimation est quasi sans biais sous le quasi-plan d’échantillonnage qui traite la réponse comme une deuxième phase d’échantillonnage aléatoire à condition que la probabilité de réponse de chaque unité soit de la forme :

$p_{k} = 1 / (1 + γ^{T} z_{k}), (2.1)$

et $g$ est un estimateur convergent du vecteur de paramètres inconnus $γ$ dans l’équation (2.1).

Le problème en ce qui concerne la fonction de réponse donnée par l’équation (2.1) est que l’estimateur implicite de $p_{k}, {\hat{p}}_{k} = 1 / (1 + g^{T} z_{k})$ peut être négatif. Une forme non linéaire de la pondération par calage permettant d’éviter cette possibilité a été proposée par Kott et Liao (2012) qui se sont fondés sur la forme exponentielle généralisée de Folsom et Singh (2000). Cette forme de calage fait appel à la méthode de Newton (approximations itératives du développement en série de Taylor) pour trouver un $g$ tel que l’équation de calage (à partir d’ici, nous utilisons le terme équation de calage pour faire référence au vecteur des équations de calage des composantes):

$\sum_{R} w_{k} z_{k} = \sum_{R} d_{k} α (g^{T} z_{k}) z_{k} = (1 - θ) \sum_{U} z_{k} + θ \sum_{S} d_{k} z_{k} (2.2)$

est vérifiée, où $θ = 0$ ou $1,$

$α (g^{T} z_{k}) = \frac{ℓ + \exp (g^{T} z_{k})}{1 + \exp (g^{T} z_{k}) / u}, (2.3)$

$ℓ,$ la borne inférieure de $α (\cdot),$ est non négative (de sorte que les poids de calage sont également non négatifs), et la borne supérieure de $α (\cdot), u > ℓ,$ peut être finie ou infinie.

Bien que la fonction d’ajustement des poids $α (g^{T} z_{k})$ puisse prendre d’autres formes raisonnables, nous nous limiterons aux fonctions de la forme de l’équation (2.3). Il s’agit d’une généralisation du ratissage (raking) où $ℓ = 0, u = \infty,$ ainsi que de l’estimation implicite d’un modèle de réponse logistique, où $ℓ = 1, u = \infty .$ Dans l’algorithme d’ajustement proportionnel itératif original de Deming et Stephan (1940) pour le ratissage, les composantes de $z_{k}$ ont été restreintes à des fonctions indicatrices. Nous utilisons ici le terme « ratissage » de manière plus générale pour désigner une pondération par calage avec une fonction d’ajustement des poids de la forme $α (g^{T} z_{k}) = \exp (g^{T} z_{k}) .$

Quand $ℓ < 1,$ l’équation (2.3) devient l’ajustement par calage généralisé introduit dans Deville et Särndal (1992) et discuté plus en détail dans Deville, Särndal et Sautory (1993). Le calage généralisé permet non seulement que les composantes de $z_{k}$ soient continues, mais aussi que l’étendue des $α (g^{T} z_{k})$ soit contrainte entre une valeur positive $ℓ$ et une valeur (possiblement) finie $u .$

Deville et Särndal (1992) posaient comme condition que $α (0) = α^{'} (0) = 1.$ Puisqu’ils ne s’intéressaient pas à des échantillons avec non-réponse (ou à des bases de sondage incorrectes), $g^{T} z_{k}$ devait converger vers 0 et $α (g^{T} z_{k})$ vers 1 quand la taille d’échantillon (prévue) devenait arbitrairement grande. Cependant, lorsqu’on ajuste les poids de sondage pour corriger la non-réponse, poser que $ℓ \geq 1$ est une stratégie plus raisonnable afin que la probabilité de réponse estimée implicite ne soit pas supérieure à 1.

Tandis que la définition originale de la pondération par calage donnée dans Deville et Särndal (1992) comprenait la minimisation des écarts dans $R$ entre les $w_{k}$ et $d_{k},$ mesurés par une certaine fonction de perte, des formulations ultérieures (par exemple, Estevao et Särndal 2000) ont éliminé la fonction de perte de la définition. Forcer $w_{k}$ et $d_{k}$ à être proches a peu de sens quand la pondération par calage est utilisée pour corriger la non-réponse totale, puisque si une unité $k$ échantillonnée a une probabilité relativement faible de réponse, l’écart entre $w_{k}$ et $d_{k}$ doit être relativement grand.

Au lieu de supposer un modèle de réponse ayant une forme fonctionnelle particulière, une autre justification de l’utilisation de la pondération par calage comme moyen d’éliminer le biais de non-réponse totale consiste à émettre l’hypothèse d’un modèle de prédiction dans lequel la variable étudiée $y_{k}$ est elle-même une variable aléatoire telle que $E (y_{k} | z_{k}) = z_{k}^{T} β$ pour un $β$ inconnu, que l’unité $k$ soit échantillonnée ou non ou qu’elle réponde ou non quand elle est échantillonnée. Kott (2006) et d’autres ont observé que l’estimateur pondéré par calage de $T_{y} = \sum_{U} y_{k}$ sera quasi sans biais sous le modèle de prédiction quand le calage est effectué sur la population (quand $θ = 0$ dans l’équation (2.2)), et sous la combinaison du modèle de prédiction et du mécanisme de sélection de l’échantillon original quand le calage est effectué sur l’échantillon original (quand $θ = 1) .$

La propriété faisant qu’un estimateur pondéré par calage est dans un certain sens quasi sans biais quand un modèle hypothétique de réponse ou un modèle hypothétique de prédiction est vérifié a été appelée « double protection contre le biais de non-réponse » par Kim et Park (2006). Elle est appelée « double robustesse » dans la littérature biostatistique (Bang et Robins 2005) et attribuée à Robins, Rotnitzky et Zhao (1994), qui ont traité la non-réponse partielle plutôt que totale.

On suppose souvent que la distribution de $y_{k} | z_{k}$ sous le modèle de prédiction est la même pour les membres de la population échantillonnés et non échantillonnés. Autrement dit, le mécanisme d’échantillonnage est considéré comme étant ignorable. En outre, on suppose souvent que la distribution de $y_{k} | z_{k}$ est la même qu’un membre de la population réponde ou non quand il est échantillonné, c’est-à-dire que le mécanisme de réponse est également considéré comme étant ignorable (Little et Rubin 2002). Ici, nous faisons des hypothèses analogues plus faibles sous le modèle de prédiction, nommément que $E (y_{k} | z_{k})$ ne dépend pas du fait que l’unité $k$ est échantillonnée ou non ou qu’elle répond ou non quand elle est échantillonnée. Disons que les mécanismes d’échantillonnage et de réponse sont considérés comme étant « ignorable au premier moment ».

2.2 Variables instrumentales

Deville (2000) a observé que l’on peut utiliser le calage avec des variables instrumentales pour corriger le biais de non-réponse possible en émettant l’hypothèse d’un modèle de réponse qui dépend de $x_{k},$

$p_{k} = {[α (γ^{T} x_{k})]}^{- 1} = \frac{1 + \exp (γ^{T} x_{k}) / u}{ℓ + \exp (γ^{T} x_{k})}, (2.4)$

mais en ajustant les équations de calage avec $z_{k} :$

$\sum_{R} w_{k} z_{k} = \sum_{R} d_{k} α (g^{T} x_{k}) z_{k} = (1 - θ) \sum_{U} z_{k} + θ \sum_{S} d_{k} z_{k}, (2.5)$

où le $g$ satisfaisant l’équation (2.5) avec $θ = 0$ ou $1$ est un estimateur convergent du vecteur de paramètres inconnus $γ$ dans l’équation (2.4). Certaines conditions faibles sont nécessaires ici. Les conditions qui suivent sont suffisantes : $N^{- 1} \sum_{R} d_{k} α (γ^{T} x_{k}) z_{k}$ est un estimateur convergent et borné pour $N^{- 1} [(1 - θ) \sum_{U} z_{k} + θ \sum_{S} d_{k} z_{k}],$ $α (ϕ)$ est partout deux fois dérivable, et $N^{- 1} \sum_{R} d_{k} α^{'} (ϕ) z_{k} x_{k}^{T}$ est toujours inversible et borné quand l’échantillon devient arbitrairement grand.

Soit $R_{k} = 1$ quand $k \in R, 0$ autrement. Il n’est pas difficile de montrer que

$\begin{array}{l} g - γ & = & - {(\sum_{S} d_{k} R_{k} α^{'} (c_{k}) z_{k} x_{k}^{T})}^{- 1} {\sum_{S} d_{k} R_{k} α (γ^{T} x_{k}) z_{k} - [(1 - θ) \sum_{U} z_{k} + θ \sum_{S} d_{k} z_{k}]} \\ - {(N^{- 1} \sum_{S} d_{k} R_{k} α^{'} (c_{k}) z_{k} x_{k}^{T})}^{- 1} {N^{- 1} \sum_{S} d_{k} R_{k} α (γ^{T} x_{k}) z_{k} - N^{- 1} [(1 - θ) \sum_{U} z_{k} + θ \sum_{S} d_{k} z_{k}]} \end{array}$

pour un certain $c_{k}$ compris entre $g^{T} x_{k}$ et $γ^{T} x_{k},$ comme l’ont démontré Kott et Liao (2012) quand $x_{k} = z_{k} .$

Deville note également que les composantes de $x_{k}$ peuvent être des variables étudiées dont les valeurs ne sont connues que pour les répondants. Chang et Kott (2008) ont étendu la notion de la pondération par calage afin de permettre que la dimension du vecteur $z_{k}$ soit plus grande que celle du vecteur $x_{k} .$ Nous ne traiterons ni l’une ni l’autre possibilité dans les sections qui suivent.

Kim et Shao (2013), en traitant la non-réponse non ignorable, désignent par « variables instrumentales » les composantes de $z_{k}$ qui ne sont pas entièrement des fonctions des composantes de $x_{k} .$ Pour limiter toute confusion future, nous utiliserons donc le terme « variables du modèle » pour désigner les composantes de $x_{k} .$

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2. Pondération par calage en une étape

2.1 Pondération par calage et non-réponse totale

2.2 Variables instrumentales