2. Notation et critère objectif
David G.
Steel et Robert Graham Clark
Précédent | Suivant
Considérons une population finie,
contenant
unités, qui consistent en valeurs
pour
Un échantillon
doit être sélectionné en utilisant un plan
d’échantillonnage à probabilités inégales avec une probabilité de sélection
positive
pour toutes les unités
On suppose qu’un vecteur de variables
auxiliaires
est disponible pour l’ensemble de la
population, ou pour toutes les unités
dont le total de population,
, est connu. Les
variables auxiliaires pourraient être, par exemple, l’industrie, la région et
la taille dans une enquête-entreprises, ou l’âge, le sexe et la région dans une
enquête-ménages.
Sous l’approche assistée par modèle
(voir par exemple Särndal, Swensson et Wretman 1992), la relation entre la
variable d’intérêt et les variables auxiliaires est traduite par un modèle,
habituellement de la forme qui suit pour les sondages à un degré :
où
et
désignent l’espérance et la variance
sous le modèle,
est un vecteur de paramètres de
régression inconnus,
est un paramètre de variance
inconnu, et
et
sont supposés connus pour tout
Soit
et
l’espérance et la variance sous
échantillonnage probabiliste répété en maintenant fixes toutes les valeurs de
population.
Un estimateur assisté par modèle de
d’usage très répandu est l’estimateur
par la régression généralisée :
où
peut être une estimation par les moindres
carrés pondérés ou non pondérés des coefficients de régression de
sur
en utilisant les données d’échantillon. Des
estimateurs peuvent aussi être construits pour des extensions non linéaires du
modèle (2.1), mais en pratique, on utilise presque toujours le modèle linéaire.
La variance
anticipée de
est définie par
et est approximée par
pour les grands échantillons (Särndal et
coll. 1992, formule 12.2.12, p. 451) sous le modèle (2.1). Les
plans et les estimateurs assistés par modèle doivent minimiser
sous la contrainte d’une absence
approximative de biais sous le plan,
Même si le modèle est incorrect,
l’estimateur (2.2) demeure approximativement sans biais sous le plan, mais sa
variance anticipée en grand échantillon ne sera plus la plus faible possible.
La variance anticipée a été utilisée pour motiver l’élaboration de plans de
sondage assistés par modèle sous échantillonnage à un degré (Särndal et
coll. 1992) et à deux degrés (Clark et Steel 2007; Clark 2009).
Un avantage de l’utilisation de la variance anticipée tient au fait qu’elle ne
dépend que des probabilités de sélection et d’un petit nombre de paramètres du
modèle, qui peuvent être estimés approximativement durant la conception de
l’échantillon. En revanche,
dépend habituellement des valeurs de
population de
et des probabilités conjointes de
sélection, qui sont les unes et les autres difficiles à quantifier d’avance.
Le coût de dénombrement d’un
échantillon est supposé être
où
est le coût d’interrogation d’une unité
particulière
On suppose ordinairement que les valeurs de
sont connues. Habituellement, on suppose aussi
que
est constant pour toutes les unités de la
population, ou constant à l’intérieur des strates. Sous la généralisation que
pourrait être différent pour chaque unité
le coût
dépend de l’échantillon
particulier sélectionné. Le coût prévu est
Le but est de minimiser la variance anticipée
(2.3) sous une contrainte sur le coût de dénombrement prévu,
Il existe aussi
des coûts fixes sur lesquels le plan de sondage n’a pas d’incidence et qui ne
doivent pas être inclus ici.
Une notation est nécessaire pour les
variances et les covariances de population. Considérons les paires
et soit
leur covariance de population, et
la variance de population de
Soit
et
les moyennes de population de
et
Le coefficient de variation de population de
est
La covariance relative de population de
est
Un résultat utile est que
Précédent | Suivant