Recherche par

2. Notation et critère objectif

David G. Steel et Robert Graham Clark

Considérons une population finie, $U,$ contenant $N$ unités, qui consistent en valeurs $Y_{i}$ pour $i \in U .$ Un échantillon $s \in U$ doit être sélectionné en utilisant un plan d’échantillonnage à probabilités inégales avec une probabilité de sélection positive $π_{i} = P [i \in s]$ pour toutes les unités $i \in U .$ On suppose qu’un vecteur de variables auxiliaires $x_{i}$ est disponible pour l’ensemble de la population, ou pour toutes les unités $i \in s$ dont le total de population, $t_{x} = \sum_{i \in U} x_{i}$ , est connu. Les variables auxiliaires pourraient être, par exemple, l’industrie, la région et la taille dans une enquête-entreprises, ou l’âge, le sexe et la région dans une enquête-ménages.

Sous l’approche assistée par modèle (voir par exemple Särndal, Swensson et Wretman 1992), la relation entre la variable d’intérêt et les variables auxiliaires est traduite par un modèle, habituellement de la forme qui suit pour les sondages à un degré :

$\begin{array}{l} E_{M} [Y_{i}] = β^{T} x_{i} \\ v a r_{M} [Y_{i}] = σ^{2} z_{i} \\ Y_{i} indépendant de Y_{j} pour tout i \neq j \end{array}} (2.1)$

où $E_{M}$ et $v a r_{M}$ désignent l’espérance et la variance sous le modèle, $β$ est un vecteur de paramètres de régression inconnus, $σ^{2}$ est un paramètre de variance inconnu, et $x_{i}$ et $z_{i}$ sont supposés connus pour tout $i \in U .$ Soit $E_{p}$ et $v a r_{p}$ l’espérance et la variance sous échantillonnage probabiliste répété en maintenant fixes toutes les valeurs de population.

Un estimateur assisté par modèle de $t_{y}$ d’usage très répandu est l’estimateur par la régression généralisée :

${\hat{t}}_{y} = \sum_{i \in s} π_{i}^{- 1} (y_{i} - {\hat{β}}^{T} x_{i}) + {\hat{β}}^{T} t_{x} (2.2)$

où $\hat{β}$ peut être une estimation par les moindres carrés pondérés ou non pondérés des coefficients de régression de $y_{i}$ sur $x_{i}$ en utilisant les données d’échantillon. Des estimateurs peuvent aussi être construits pour des extensions non linéaires du modèle (2.1), mais en pratique, on utilise presque toujours le modèle linéaire.

La variance anticipée de ${\hat{t}}_{y}$ est définie par $E_{M} v a r_{p} [{\hat{t}}_{y} - t_{y}],$ et est approximée par

$E_{M} v a r_{p} [{\hat{t}}_{y}] \approx σ^{2} \sum_{i \in U} (π_{i}^{- 1} - 1) z_{i} (2.3)$

pour les grands échantillons (Särndal et coll. 1992, formule 12.2.12, p. 451) sous le modèle (2.1). Les plans et les estimateurs assistés par modèle doivent minimiser $E_{M} v a r_{p} [{\hat{t}}_{y}]$ sous la contrainte d’une absence approximative de biais sous le plan, $E_{p} [{\hat{t}}_{y}] = t_{y} .$ Même si le modèle est incorrect, l’estimateur (2.2) demeure approximativement sans biais sous le plan, mais sa variance anticipée en grand échantillon ne sera plus la plus faible possible. La variance anticipée a été utilisée pour motiver l’élaboration de plans de sondage assistés par modèle sous échantillonnage à un degré (Särndal et coll. 1992) et à deux degrés (Clark et Steel 2007; Clark 2009). Un avantage de l’utilisation de la variance anticipée tient au fait qu’elle ne dépend que des probabilités de sélection et d’un petit nombre de paramètres du modèle, qui peuvent être estimés approximativement durant la conception de l’échantillon. En revanche, $v a r_{p} [{\hat{t}}_{y}]$ dépend habituellement des valeurs de population de $y_{i}$ et des probabilités conjointes de sélection, qui sont les unes et les autres difficiles à quantifier d’avance.

Le coût de dénombrement d’un échantillon est supposé être $C = \sum_{i \in s} c_{i}$ où $c_{i}$ est le coût d’interrogation d’une unité particulière $i .$ On suppose ordinairement que les valeurs de $c_{i}$ sont connues. Habituellement, on suppose aussi que $c_{i}$ est constant pour toutes les unités de la population, ou constant à l’intérieur des strates. Sous la généralisation que $c_{i}$ pourrait être différent pour chaque unité $i,$ le coût $C$ dépend de l’échantillon $s$ particulier sélectionné. Le coût prévu est $E_{p} [C] = \sum_{i \in U} π_{i} c_{i} .$ Le but est de minimiser la variance anticipée (2.3) sous une contrainte sur le coût de dénombrement prévu,

$\sum_{i \in U} π_{i} c_{i} = C_{f} . (2.4)$

Il existe aussi des coûts fixes sur lesquels le plan de sondage n’a pas d’incidence et qui ne doivent pas être inclus ici.

Une notation est nécessaire pour les variances et les covariances de population. Considérons les paires $(u_{i}, v_{i}),$ et soit $S_{u v} = N^{- 1} \sum_{i \in U} (u_{i} - \bar{u}) (v_{i} - \bar{v})$ leur covariance de population, et $S_{u}^{2} = N^{- 1} \sum_{i \in U} {(u_{i} - \bar{u})}^{2},$ la variance de population de $u_{i}$ $(i = 1, \dots, N) .$ Soit $\bar{u}$ et $\bar{v}$ les moyennes de population de $u_{i}$ et $v_{i} .$ Le coefficient de variation de population de $u_{i}$ est $C_{u} = S_{u} / \bar{u} .$ La covariance relative de population de $(u_{i}, v_{i})$ est $C_{u, v} = S_{u v} / \bar{u} \bar{v} .$ Un résultat utile est que

$\sum_{i \in U} u_{i} v_{i} = N \bar{u} \bar{v} (1 + C_{u, v}) . (2.5)$

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2. Notation et critère objectif