3. Modèles étudiés

Benmei Liu, Partha Lahiri et Graham Kalton

Un modèle général d'estimation sur petits domaines au niveau du domaine comprend deux composantes. L'une $—$ le modèle d'échantillonnage $—$ est un modèle pour l'erreur d'échantillonnage des estimations directes d'après l'enquête. L'autre $—$ le modèle de lien $—$ relie la valeur de population pour un domaine aux variables auxiliaires propres au domaine $x_{i} = {(x_{i 1}, ..., x_{i p})}^{'}$ .

La section 3.1 décrit deux modèles au niveau du domaine souvent utilisés pour estimer les proportions dans les petits domaines et la section 3.2 décrit certains problèmes associés à ces modèles. La section 3.3 décrit deux autres modèles dont on peut se servir pour résoudre ces problèmes.

3.1 Deux modèles souvent utilisés

Nous étudions deux modèles souvent utilisés en vue de les comparer aux deux nouveaux modèles décrits à la section 3.4. Le premier est le modèle de Fay-Herriot (Fay et Herriot 1979), qui suppose que les variances d'échantillonnage sont connues et que les variables suivent des lois normales dans le modèle d'échantillonnage ainsi que dans le modèle de lien. Le second est le modèle normal logistique, qui ne diffère du modèle de Fay-Herriot que par le remplacement de la loi normale par une loi logit-normale dans le modèle de lien.

Modèle 1 : (modèle normal-normal de Fay-Herriot)

Modèle d'échantillonnage :

$p_{i w} | P_{i} \overset{i n d}{~} N (P_{i}, ψ_{i}) (3.1)$

Modèle de lien :

$P_{i} | β, σ_{v}^{2} \overset{i n d}{~} N (x_{i}^{'} β, σ_{v}^{2}) (3 .2)$

Modèle 2 : (modèle normal-logistique)

Modèle d'échantillonnage :

$p_{i w} | P_{i} \overset{i n d}{~} N (P_{i}, ψ_{i}) (3.3)$

Modèle de lien :

$g (P_{i}) | β, σ_{v}^{2} \overset{i n d}{~} N (x_{i}^{'} β, σ_{v}^{2}) (3.4)$

Les deux modèles reposent sur l'hypothèse que la variance d'échantillonnage $ψ_{i}$ est connue. Le modèle 1 est considéré comme un modèle apparié parce que les modèles d'échantillonnage et de lien peuvent être combinés pour produire un modèle mixte linéaire relativement simple. Cependant, on préfère souvent utiliser un modèle de lien non linéaire pour modéliser les proportions, ce qui donne des modèles d'échantillonnage et de lien non appariés, comme dans le modèle 2 (voir, par exemple, You et Rao 2002). La fonction lien $g (\cdot)$ peut être déterminée empiriquement en vérifiant l'adéquation du modèle. Les fonctions lien log et logit ont été utilisées. Le modèle de lien $logit(P_{i})$ est choisi ici afin d'être certain que l'estimation de $P_{i}$ soit toujours comprise dans l'intervalle de valeurs permises (0, 1).

3.2 Problèmes posés par les modèles 1 et 2

Deux problèmes importants sont associés aux modèles 1 et 2. Le premier tient au fait que ces modèles reposent tous deux sur l'hypothèse que les variances d'échantillonnage $ψ_{i}$ sont connues, alors qu'en pratique elles doivent être estimées. Une approche simple consiste à utiliser l'estimation directe de la variance, mais celle-ci est très imprécise quand la valeur de $P_{i}$ est très petite ou très grande et que la taille de l'échantillon $n_{i}$ est petite. Une autre approche, plus complexe, consiste à élaborer une estimation approximative de $P_{i}$ , disons $p_{i s y n}$ , en partant d'un modèle simple, tel qu'un modèle logistique pour $p_{i w}$ en fonction des variables auxiliaires, puis à utiliser cette estimation dans l'estimateur de variance synthétique suivant :

${var}_{s t s y n} = \frac{p_{i s y n} (1 - p_{i s y n})}{n_{i}} d e f f_{i w} . (3.5)$

Lorsqu'on ne dispose pas de variables auxiliaires, la proportion dans l'échantillon global peut être utilisée pour $p_{i s y n}$ dans le calcul de l'estimateur de variance synthétique.

Le deuxième problème a trait à l'hypothèse de normalité dans le modèle d'échantillonnage, qui est fondée sur une approximation en grand échantillon. Comme il est mentionné à la section 1, lorsque la taille de l'échantillon $n_{i}$ est petite et que $P_{i}$ est proche de 0 ou de 1, ce qui est fréquent dans le cas de l'estimation sur petits domaines, cette hypothèse pose problème.

3.3 Deux modèles de rechange

Sous les modèles 1 et 2, les variances d'échantillonnage inconnues $ψ_{i}$ sont estimées, puis les estimations résultantes sont traitées comme s'il s'agissait des valeurs vraies connues. Une autre approche possible consiste à considérer que les $ψ_{i}$ sont des paramètres inconnus dans le modèle HB, comme cela a été fait dans un certain nombre d'études. Par exemple, Arora et Lahiri (1997) ont appliqué un modèle HB pour modéliser les variances sous le plan de sondage pour les estimations sur échantillon. Singh, Folsom et Vaish (2005) ont proposé d'utiliser un modèle à effet de plan généralisé pour lisser la matrice de covariance d'échantillonnage dans la modélisation pour petits domaines au moyen de données d'enquête. Récemment, You (2008) a proposé d'utiliser des effets de plan égaux au cours du temps pour modéliser les variances d'échantillonnage dans l'estimation des taux de chômage dans les petits domaines en utilisant un modèle log-linéaire transversal et chronologique. Dans le modèle 3, en tant que variante du modèle 2, les variances d'échantillonnage $ψ_{i}$ sont traitées comme étant inconnues. Afin de tenir compte de la non-normalité des distributions d'échantillonnage des proportions de petit domaine pondérées par les poids de sondage, l'hypothèse d'une loi normale peut-être remplacée par celle d'une autre loi. Cette approche est appliquée dans le modèle 4 en faisant l'hypothèse d'une distribution d'échantillonnage bêta, c'est-à-dire une distribution qui possède la propriété désirable d'avoir l'intervalle de valeurs (0,1). Pour le reste, le modèle 4 est semblable au modèle 3, y compris le traitement des $ψ_{i}, i = 1, ..., m$ comme des paramètres inconnus. Le modèle 4 a été pris en considération antérieurement par Jiang et Lahiri (2006b) à titre d'exemple de l'estimation des moyennes de domaines de population finie en utilisant l'approche du meilleur prédicteur empirique.

Modèle 3 (modèle normal-logistique avec variance d'échantillonnage inconnue) :

Modèle d'échantillonnage :

$p_{i w} | P_{i} \overset{i n d}{~} N (P_{i}, ψ_{i}) (3 .6)$

Modèle de lien :

$l o g i t (P_{i}) | β, σ_{v}^{2} \overset{i n d}{~} N (x^{'} β, σ_{v}^{2}) (3.7)$

Modèle 4 : (modèle bêta-logistique avec variance d'échantillonnage inconnue)

Modèle d'échantillonnage :

$p_{i w} | P_{i} \overset{i n d}{~} b e t a (a_{i}, b_{i}) (3.8)$

Modèle de lien :

$l o g i t (P_{i}) | β, σ_{v}^{2} \overset{i n d}{~} N (x_{i}^{'} β, σ_{v}^{2}) (3.9)$

La fonction de variance approximative utilisée dans les modèles 3 et 4 est $ψ_{i} = [P_{i} (1 - P_{i})/ n_{i}] d e f f_{i w}$ . Dans le modèle 4, les paramètres $a_{i}$ et $b_{i}$ sont donnés par :

$a_{i} = P_{i} (\frac{n_{i}}{d e f f_{i w}} - 1), et b_{i} = (1 - P_{i}) (\frac{n_{i}}{d e f f_{i w}} - 1) .$

Les estimations HB sur petits domaines peuvent être calculées au moyen des quatre modèles en utilisant l'algorithme de Metropolis-Hastings dans l'échantillonneur de Gibbs. Une description détaillée de l'algorithme, qui tire des échantillons aléatoires en se basant sur les lois conditionnelles complètes des paramètres inconnus à partir d'un ou de plusieurs jeux de valeurs initiales, figure dans Robert et Casella (1999) et dans Chen, Shao et Ibraham (2000). You et Rao (2002) décrivent également en détail comment l'algorithme de Metropolis-Hastings fonctionne dans l'échantillonneur de Gibbs pour des modèles similaires aux modèles 1 et 2. Pour les modèles 3 et 4, l'algorithme fonctionne de la même façon que pour le modèle 2. Les distributions conditionnelles complètes sous chaque modèle sont données à l'annexe A.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

3. Modèles étudiés

3.1 Deux modèles souvent utilisés

3.2 Problèmes posés par les modèles 1 et 2

3.3 Deux modèles de rechange