3. Modèles étudiés
Benmei Liu, Partha Lahiri et Graham Kalton
Précédent | Suivant
Un
modèle général d'estimation sur petits domaines au niveau du domaine comprend
deux composantes. L'une le modèle
d'échantillonnage est un modèle pour
l'erreur d'échantillonnage des estimations directes d'après l'enquête. L'autre le modèle de
lien relie la
valeur de population pour un domaine aux variables auxiliaires propres au domaine .
La section 3.1
décrit deux modèles au niveau du domaine souvent utilisés pour estimer les proportions
dans les petits domaines et la section 3.2 décrit certains problèmes associés
à ces modèles. La section 3.3 décrit deux autres modèles dont on peut se
servir pour résoudre ces problèmes.
3.1 Deux modèles souvent utilisés
Nous étudions deux
modèles souvent utilisés en vue de les comparer aux deux nouveaux modèles décrits
à la section 3.4. Le premier est le modèle de Fay-Herriot (Fay et Herriot 1979), qui suppose que les variances
d'échantillonnage sont connues et que les variables suivent des lois normales dans
le modèle d'échantillonnage ainsi que dans le modèle de lien. Le second est le
modèle normal logistique, qui ne diffère du modèle de Fay-Herriot que par le remplacement de la loi normale par une loi
logit-normale dans le modèle de lien.
Modèle 1 : (modèle normal-normal de Fay-Herriot)
Modèle d'échantillonnage :
Modèle de lien :
Modèle 2 : (modèle normal-logistique)
Modèle
d'échantillonnage :
Modèle
de lien :
Les deux modèles
reposent sur l'hypothèse que la variance d'échantillonnage est connue. Le modèle 1 est considéré comme un modèle apparié parce
que les modèles d'échantillonnage et de lien peuvent être combinés pour
produire un modèle mixte linéaire relativement simple. Cependant, on préfère
souvent utiliser un modèle de lien non linéaire pour modéliser les proportions,
ce qui donne des modèles d'échantillonnage et de lien non appariés, comme dans
le modèle 2 (voir, par exemple, You et Rao
2002). La fonction lien peut
être déterminée empiriquement en vérifiant l'adéquation du modèle. Les
fonctions lien log et logit ont été utilisées. Le modèle de
lien est choisi ici afin d'être certain que l'estimation de soit toujours comprise dans l'intervalle de valeurs permises (0, 1).
3.2 Problèmes posés par les modèles 1 et 2
Deux problèmes
importants sont associés aux modèles 1 et
2. Le premier tient au fait que ces modèles reposent tous deux sur
l'hypothèse que les variances d'échantillonnage sont connues, alors qu'en pratique elles doivent être estimées. Une
approche simple consiste à utiliser l'estimation directe de la variance, mais
celle-ci est très imprécise quand la valeur de est très petite ou très grande et que la taille de l'échantillon est petite. Une autre approche, plus complexe, consiste à élaborer une
estimation approximative de , disons , en partant d'un modèle simple,
tel qu'un modèle logistique pour en fonction des variables auxiliaires, puis à utiliser cette estimation
dans l'estimateur de variance synthétique suivant :
Lorsqu'on ne
dispose pas de variables auxiliaires, la proportion dans l'échantillon global
peut être utilisée pour dans le calcul de l'estimateur de variance synthétique.
Le deuxième
problème a trait à l'hypothèse de normalité dans le modèle d'échantillonnage, qui
est fondée sur une approximation en grand échantillon. Comme il est mentionné à
la section 1, lorsque la taille de l'échantillon est petite et que est proche de 0 ou de
1, ce qui est fréquent dans le cas de l'estimation sur petits domaines, cette
hypothèse pose problème.
3.3 Deux modèles de rechange
Sous les
modèles 1 et 2, les variances d'échantillonnage inconnues sont
estimées, puis les estimations résultantes sont traitées comme s'il s'agissait
des valeurs vraies connues. Une autre approche possible consiste à considérer
que les sont des paramètres inconnus dans le modèle HB, comme cela a été
fait dans un certain nombre d'études. Par exemple, Arora et Lahiri (1997) ont appliqué un modèle HB pour modéliser les
variances sous le plan de sondage pour les estimations sur échantillon. Singh, Folsom et Vaish (2005) ont proposé
d'utiliser un modèle à effet de plan généralisé pour lisser la matrice de covariance
d'échantillonnage dans la modélisation pour petits domaines au moyen de données
d'enquête. Récemment, You (2008) a proposé
d'utiliser des effets de plan égaux au cours du temps pour modéliser les variances
d'échantillonnage dans l'estimation des taux de chômage dans les petits
domaines en utilisant un modèle log-linéaire transversal et chronologique. Dans
le modèle 3, en tant que variante du modèle 2, les variances
d'échantillonnage sont traitées comme étant inconnues. Afin de tenir compte de la non-normalité
des distributions d'échantillonnage des proportions de petit domaine pondérées
par les poids de sondage, l'hypothèse d'une loi normale peut-être remplacée par
celle d'une autre loi. Cette approche est appliquée dans le modèle 4 en faisant
l'hypothèse d'une distribution d'échantillonnage bêta, c'est-à-dire une
distribution qui possède la propriété désirable d'avoir l'intervalle de valeurs
(0,1). Pour le reste, le modèle 4 est semblable au modèle 3, y
compris le traitement des comme des paramètres inconnus. Le modèle 4 a été pris en
considération antérieurement par Jiang et Lahiri
(2006b) à titre d'exemple de l'estimation des moyennes de domaines de population
finie en utilisant l'approche du meilleur prédicteur empirique.
Modèle 3 (modèle normal-logistique
avec variance d'échantillonnage inconnue) :
Modèle
d'échantillonnage :
Modèle de lien :
Modèle 4 : (modèle bêta-logistique
avec variance d'échantillonnage inconnue)
Modèle
d'échantillonnage :
Modèle
de lien :
La fonction de variance
approximative utilisée dans les modèles 3 et 4 est . Dans le modèle 4,
les paramètres et sont donnés par :
Les estimations HB sur
petits domaines peuvent être calculées au moyen des quatre modèles en utilisant
l'algorithme de Metropolis-Hastings dans
l'échantillonneur de Gibbs. Une
description détaillée de l'algorithme, qui tire des échantillons aléatoires en
se basant sur les lois conditionnelles complètes des paramètres inconnus à
partir d'un ou de plusieurs jeux de valeurs initiales, figure dans Robert et Casella (1999) et dans Chen, Shao et Ibraham
(2000). You et Rao (2002) décrivent également en détail comment
l'algorithme de Metropolis-Hastings fonctionne
dans l'échantillonneur de Gibbs pour des modèles
similaires aux modèles 1 et 2. Pour les modèles 3 et 4, l'algorithme
fonctionne de la même façon que pour le modèle 2. Les distributions conditionnelles
complètes sous chaque modèle sont données à l'annexe A.
Précédent | Suivant