Recherche par

2. Études par simulation : MPO c. MPLSBE

Jiming Jiang, Thuan Nguyen et J. Sunil Rao

2.1 Une démonstration

Nous présentons d'abord un exemple simulé simple pour montrer l'effet que peut avoir la spécification inexacte du modèle sur les propriétés prédictives, basées sur le plan de sondage, de la MPO et du MPLSBE. Soit le cas d'une covariable unique, $x_{i j},$ considérée comme linéairement associée à la réponse $y_{i j}$ conformément au modèle REE suivant :

$y_{i j} = β x_{i j} + v_{i} + e_{i j}, i = 1, \dots, m, j = 1, \dots,5 (2.1)$

(donc, nous avons $n_{i} = 5,1 \leq i \leq m$ dans ce cas), où $β$ est un coefficient inconnu, et les termes $v_{i}, e_{i j}$ sont les mêmes que dans (1.1). Donc, nous croyons en particulier que la réponse moyenne doit être nulle quand la valeur de la covariable est nulle.

Nous considérons trois tailles d'échantillon différentes : $m = 50, 100$ ou $400,$ ainsi que deux valeurs réelles différentes de $b : b = 0, 5$ ou $1, 0,$ où $b$ est défini ci-après. Dès lors, il existe six cas, chacun étant une combinaison de taille d'échantillon et de valeur de $b .$ Dans chaque cas, une sous-population $x$ est générée à partir de la loi normale de moyenne égale à 1 et d'écart-type égal à $\sqrt{0, 1} \approx 0, 32.$ La sous-population $y$ est alors générée à partir du modèle de superpopulation REE hétéroscédastique suivant :

$Y_{i k} = b + v_{i} + e_{i k}, i = 1, \dots, m, k = 1, \dots, 1 000 (2.2)$

(donc la taille de la sous-population est $N_{i} = 1 000, 1 \leq i \leq m),$ où $v_{i}$ est tiré de la loi normale de moyenne 0 et d'écart-type $\sqrt{0,1} \approx 0,32; e_{i j}$ est tiré de la loi normale de moyenne 0 et d'écart-type $σ_{i},$ où les $σ_{i}^{2}$ sont générés indépendamment à partir de la loi uniforme $[0,05; 0,15]$ (de sorte que l'intervalle pour $σ_{i}$ est environ de 0,22 à 0,39); et les $v_{i}$ et les $e_{i k}$ sont générés indépendamment. On voit que le modèle REE supposé est spécifié incorrectement en ce qui concerne les fonctions moyenne ainsi que variance. Une fois que les sous-populations $x$ et $y$ sont générées, elles demeurent fixes dans toutes les simulations.

Dans chaque simulation, nous tirons un échantillon aléatoire simple de taille 5 de ${1, \dots, 1 000}$ qui détermine les échantillons $x_{i j}$ et $y_{i j}, j = 1, \dots,5,$ pour chaque $i .$ L'exercice est répété pour $K = 1 000$ simulations. Nous effectuons des comparaisons des mêmes données pour la MPO et le MPLSBE, en utilisant l'estimateur du MV de $γ$ pour le second, en ce qui concerne à la fois l'EQMP globale et l'EQMP au niveau du domaine. L'EQMP globale est définie comme étant $EQMP (\hat{θ}) = E ({| \hat{θ} - θ |}^{2}) =$ $\sum_{i = 1}^{m} E {({\hat{θ}}_{i} - θ_{i})}^{2},$ où $θ = {(θ_{i})}_{1 \leq i \leq m}$ est le vecteur des moyennes réelles de petit domaine avec $θ_{i} = {\bar{Y}}_{i},$ et $\hat{θ} = {({\hat{θ}}_{i})}_{1 \leq i \leq m}$ est le vecteur des valeurs prédites (par la MPO ou par le MPLSBE). Notons que la même mesure a été utilisée dans Jiang et coll. (2011). Le tableau 2.1 donne les résultats pour l'EQMP globale, où l'EQMP est évaluée empiriquement par $K^{- 1} \sum_{k = 1}^{K} {| {\hat{θ}}^{(k)} - θ^{(k)} |}^{2} = K^{- 1} \sum_{k = 1}^{K} \sum_{i = 1}^{m} {{\hat{θ}}_{i}^{(k)} - θ_{i}^{(k)}}^{2},$ et $θ^{(k)} =$ ${[θ_{i}^{(k)}]}_{1 \leq i \leq m}$ et ${\hat{θ}}^{(k)} = {[{\hat{θ}}_{i}^{(k)}]}_{1 \leq i \leq m}$ sont $θ$ et $\hat{θ}$ dans la $k^{e}$ simulation, respectivement. On voit que l'augmentation en pourcentage de l'EQMP globale du MPLSBE comparativement à celle de la MPO varie d'environ 20 % à presque 1 000 %, selon la taille de l'échantillon et la valeur de $b .$ Les tendances qui se dégagent ici concordent avec celles décrites dans Jiang et coll. (2011) sous le modèle de Fay-Herriot, où les propriétés prédictives basées sur un modèle sont évaluées. Cependant, l'amélioration apportée par la MPO est nettement plus importante, pour $m = 100$ et $m = 400,$ que celle mentionnée dans Jiang et coll.(2011).

Tableau 2.1
EQMP globale empirique (augmentation en % pour le MPLSBE par rapport à la MPO)
Sommaire du tableau
Le tableau montre les résultats de EQMP globale empirique (augmentation en % pour le MPLSBE par rapport à la MPO). Les données sont présentées selon $m$ (titres de rangée) et $b$ , MPO, MPLSBE et Augmentation en %(figurant comme en-tête de colonne).
$m$	$b$	MPO	MPLSBE	Augmentation en %
50	0,5	0,130	0,161	24
50	1,0	0,503	0,598	19
100	0,5	0,076	0,277	264
100	1,0	0,396	1,077	172
400	0,5	0,096	0,965	905
400	1,0	0,393	4,046	930

Dans le cas des EQMP au niveau du domaine, à l'instar de Jiang et coll. (2011), nous utilisons des boîtes à moustache pour représenter les distributions des EQMP au niveau du domaine associées aux deux méthodes. Voir la figure 2.1. Les graphiques montrent des détails non révélés par les EQMP globales. Ainsi, on pourrait se demander si l'augmentation en pourcentage de l'EQMP globale dans le cas du MPLSBE est simplement due au nombre accru de domaines additionnés. Un simple calcul donne à penser que cela pourrait ne pas être le cas, par exemple, $(400 / 50) \times 19 %$ vaut seulement 152 % (et non 930 %). Une raison plus explicite est donnée à la figure 2.1. Par exemple, si l'on compare le cas où $m = 50, b = 1$ au cas $m = 400, b = 1,$ on constate que, tandis que le chevauchement entre les boîtes à moustache pour la MPO et le MPLSBE est important dans le premier cas, les boîtes à moustache sont entièrement séparées dans le deuxième; autrement dit, la plus grande EQMP de la MPO au niveau du domaine est plus petite que la plus petite EQMP du MPLSBE au niveau du domaine. Cette constatation ne peut pas être attribuée simplement à l'addition ou à la duplication des domaines. En fait, dans le dernier cas, la MPO donne de nettement meilleurs résultats que le MPLSBE, non seulement globalement, mais aussi pour chacun des 400 petits domaines. Il s'agit clairement d'un résultat inédit. Par exemple, dans le premier exemple simulé de Jiang et coll. (2011), les auteurs ont constaté que l'EQMP de la MPO était plus petite que celle du MPLSBE pour la moitié des petits domaines, tandis que celle du MPLSBE était plus petite que celle de la MPO pour l'autre moitié; des tendances comparables ont été observées dans le deuxième exemple simulé dans Jiang et coll. (2011).

L'estimation des EQMP de la MPO au niveau du domaine est examinée à la section 3.

Figure 2.1 EQMP empiriques au niveau du domaine (boîtes à moustache). En haut à gauche : $m = 50, b = 0,5;$ en haut à droite : $m = 50, b = 1,0;$ au milieu à gauche : $m = 100, b = 0,5;$ au milieu à droite : $m = 100, b = 1,0;$ en bas à gauche : $m = 400, b = 0,5;$ en bas à droite : $m = 400, b = 1,0 .$

Figure 2.1

Description de la figure 2.1

2.2 Autres considérations

La situation considérée à la sous-section 2.1 pourrait être un peu extrême (raison pour laquelle nous la qualifions de « démonstration théorique »). En pratique, le modèle supposé peut ne pas être entièrement faux, ou être presque exact. À la présente sous-section, nous examinons d'abord un cas où le modèle supposé est « partiellement exact ». Plus précisément, la pente dans (2.1) n'est pas nulle (de sorte que le modèle supposé est correct à cet égard); l'ordonnée à l'origine n'est pas nulle, mais sa valeur est nettement plus faible que celles prises en considération à la sous-section 2.1 (de sorte que le modèle supposé est inexact, mais n'est pas « terriblement inexact »). Plus précisément, le modèle sous-jacent réel est

$Y_{i j} = b_{0} + b_{1} X_{i k} + v_{i} + e_{i k}, i = 1, \dots, m, k = 1, \dots, 1 000, (2.3)$

par opposition à (2.2), où $b_{0} = 0,2, b_{1} = 0,1;$ les $v_{i}$ sont générés indépendamment à partir de la loi normale de moyenne 0 et d'écart-type 0,1; et les $e_{i k}$ sont générées à partir de la loi normale hétéroscédastique comme à la sous-section 2.1. En plus de l'EQMP globale, nous présentons la contribution à l'EQMP résultant du « biais » et de la « variance ». Posons que $d_{i} = {\hat{θ}}_{i} - θ_{i},$ et que $d_{i}^{(k)}$ est $d_{i}$ basé sur le $k^{e}$ ensemble de données simulé, $1 \leq k \leq K .$ Nous définissons le biais et la variance empiriques pour le $i^{e}$ petit domaine comme étant ${\bar{d}}_{i} = K^{- 1} \sum_{k = 1}^{K} d_{i}^{(k)}$ et $v_{i}^{2} =$ ${(K - 1)}^{- 1} \sum_{k = 1}^{K} {d_{i}^{(k)} - {\bar{d}}_{i}}^{2},$ respectivement. Notons ${EQMP}_{i}$ l'EQMP empirique pour le $i^{e}$ petit domaine. Il est facile de montrer que l'EQMP empirique globale est

$\sum_{i = 1}^{m} {EQMP}_{i} = \frac{K - 1}{K} \sum_{i = 1}^{m} v_{i}^{2} + \sum_{i = 1}^{m} {({\bar{d}}_{i})}^{2} .$

Donc, les contributions du biais et de la variance à l'EQMP globale sont définies par $\sum_{i = 1}^{m} {({\bar{d}}_{i})}^{2}$ et $\sum_{i = 1}^{m} v_{i}^{2},$ respectivement. Les résultats basés sur $K = 1 000$ simulations sont présentés au tableau 2.2. On peut voir que, pour la plus petite valeur de $m, m = 50,$ la MPO donne des résultats (légèrement) moins bons que le MPLSBE, mais que pour les plus grandes valeurs de $m, m = 100$ et $m = 400,$ la MPO donne des résultats (légèrement) meilleurs, et que l'avantage augmente avec la valeur de $m .$ En ce qui concerne la contribution du biais et de la variance, la MPO semble posséder un biais plus faible, et une variance plus faible pour les valeurs de $m$ plus élevées $(m = 100,400) .$

Tableau 2.2
EQMP globale empirique (contribution du biais, de la variance) : Le modèle supposé est partiellement exact; augmentation en % donnée pour l’EQMP du MPLSBE par rapport à l’EQMP de la MPO (une valeur négative indique une diminution)
Sommaire du tableau
Le tableau montre les résultats de EQMP globale empirique (contribution du biais. Les données sont présentées selon $m$ (titres de rangée) et MPO, MPLSBE et Augmentation en %(figurant comme en-tête de colonne).
$m$	MPO	MPLSBE	Augmentation en %
50	0,421 (0,224; 0,197)	0,405 (0,238; 0,167)	-4,0
100	0,733 (0,448; 0,285)	0,748 (0,457; 0,291)	2,1
400	2,745 (1,847; 0,899)	2,848 (1,878; 0,971)	3,8

Ensuite, nous considérons le cas où le modèle supposé est effectivement exact. À savoir, le vrai modèle sous-jacent donné en (2.3) avec $b_{0} = 0;$ les erreurs $e_{i k}$ sont homoscédastiques de variance égale à 0,1, et tous les autres éléments restent les mêmes que pour le cas susmentionné. Les résultats basés sur $K = 1 000$ simulations sont présentés au tableau 2.3. Cette fois-ci, nous voyons que le MPLSBE donne des résultats légèrement meilleurs que la MPO sous différentes valeurs de $m,$ mais que l'écart diminue à mesure que la taille d'échantillon augmente. En ce qui concerne la contribution du biais et de la variance, le MPLSBE semble posséder une plus petite variance, et un plus petit biais pour les valeurs de $m$ plus grandes $(m = 100,400),$ mais les avantages en ce qui concerne tant le biais que la variance se réduisent à mesure que $m$ augmente.

Tableau 2.3
EQMP globale empirique (contribution du biais, de la variance) : Le modèle supposé est exact; augmentation en % donnée pour l’EQMP du MPLSBE par rapport à l’EQMP de la MPO (une valeur négative indique une diminution)
Sommaire du tableau
Le tableau montre les résultats de EQMP globale empirique (contribution du biais. Les données sont présentées selon $m$ (titres de rangée) et MPO, MPLSBE et Augmentation en %(figurant comme en-tête de colonne).
$m$	MPO	MPLSBE	Augmentation en %
50	0,335 (0,204; 0,131)	0,330 (0,205; 0,125)	-1,4
100	0,749 (0,457; 0,292)	0,746 (0,456; 0,290)	-0,4
400	2,796 (1,800; 0,997)	2,794 (1,799; 0,996)	-0,1

Brièvement, selon les résultats de la simulation, quand la spécification du modèle supposé est légèrement inexacte, la MPO ne donne pas nécessairement de meilleurs résultats que le MPLSBE quand $m,$ le nombre de petits domaines, est relativement faible. Par contre, la MPO devrait surpasser le MPLSBE quand $m$ est relativement grand, et l'avantage de la MPO par rapport au MPLSBE augmente avec $m$ (souvenons-nous de la définition de l'EQMP globale). Par ailleurs, si la spécification du modèle supposé est exacte, le MPLSBE devrait donner de meilleurs résultats que la MPO, quoique l'écart pourrait être ignorable; et l'avantage du MPLSBE par rapport à la MPO s'estompe à mesure que $m$ augmente. Ces résultats, ainsi que ceux de la sous-section 2.1, concordent bien avec ceux de Jiang et coll. (2011; section 4) sous le modèle de Fay-Herriot.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2. Études par simulation : MPO c. MPLSBE

2.1 Une démonstration

2.2 Autres considérations