Recherche par

2. Théorie de base

Jae-kwang Kim, Seunghwan Park et Seo-young Kim

À la présente section, nous commençons par présenter la théorie de base qui sous-tend la combinaison de l'information pour l'estimation sur petits domaines. Nous examinons d'abord le cas simple de la combinaison de deux enquêtes. Supposons qu'il existe deux enquêtes, $A$ et $B,$ réalisées selon deux plans d'échantillonnage probabiliste distincts. Les deux enquêtes ne sont pas forcément indépendantes. À partir de l'enquête $A,$ nous obtenons un estimateur sans biais sous le plan ${\hat{X}}_{h, a} = \sum_{i \in A_{h}} w_{i a} x_{i}$ et l'estimateur de sa variance $\hat{V} ({\hat{X}}_{h}) .$ À partir de l'enquête $B,$ nous obtenons un estimateur sans biais sous le plan ${\hat{Y}}_{1 h} = \sum_{i \in B_{h}} w_{i b} y_{1 i}$ de $Y_{1 h} = \sum_{i \in U_{h}} y_{1 i} .$ L'erreur d'échantillonnage de $({\hat{X}}_{h}, {\hat{Y}}_{1 h})$ peut être exprimée par le modèle d'erreur d'échantillonnage

$(\begin{array}{l} {\hat{X}}_{h} \\ {\hat{Y}}_{1 h} \end{array}) = (\begin{array}{l} X_{h} \\ Y_{1 h} \end{array}) + (\begin{array}{l} N_{h} a_{h} \\ N_{h} b_{h} \end{array}) (2.1)$

et $a_{h}$ et $b_{h}$ représentent les erreurs d'échantillonnage associées à ${\hat{X}}_{h} / N_{h}$ et à ${\hat{Y}}_{1 h} / N_{h}$ telles que

$(\begin{matrix} a_{h} \\ b_{h} \end{matrix}) \sim [(\begin{matrix} 0 \\ 0 \end{matrix}), (\begin{matrix} V (a_{h}) & Cov (a_{h}, b_{h}) \\ Cov (a_{h}, b_{h}) & V (b_{h}) \end{matrix})] .$

Le paramètre d'intérêt est le total de population $X_{h}$ de $x$ dans le domaine $h .$

Partant de (1.1), nous obtenons le modèle au niveau du domaine qui suit :

$Y_{1 h} = N_{h} β_{0} + β_{1} X_{h} + {\tilde{e}}_{1 h}, (2.2)$

où $(N_{h}, X_{h}, Y_{1 h}, {\tilde{e}}_{1 h}) = \sum_{i \in U_{h}} (1, x_{i}, y_{1 i}, e_{1 i}) .$ Nous pouvons exprimer (2.2) en fonction de la moyenne de population

${\bar{Y}}_{1 h} = β_{0} + {\bar{X}}_{h} β_{1} + {\bar{e}}_{1 h}, (2.3)$

où $({\bar{X}}_{h}, {\bar{Y}}_{1 h}, {\bar{e}}_{1 h}) = N_{h}^{- 1} \sum_{i \in U_{h}} (x_{i}, y_{1 i}, e_{1 i}) .$ Si nous utilisons un modèle d'erreurs emboîtées

$e_{1 h i} = ε_{h} + u_{h i} (2.4)$

où $ε_{h} \sim (0, σ_{e}^{2})$ et $u_{h i} \sim (0, σ_{u}^{2}),$ alors ${\bar{e}}_{1 h} \sim (0, σ_{e, h}^{2}),$ $σ_{e, h}^{2} = σ_{e}^{2} + σ_{u}^{2} / N_{h} .$ Le modèle d'erreurs emboîtées, dont l'usage est assez fréquent en estimation sur petits domaines (par exemple, Battese, Harter et Fuller 1988), repose sur l'hypothèse que $Cov (e_{1 h i}, e_{1 h j}) = σ_{e}^{2}$ pour $i \neq j .$ Comme $N_{h}$ est souvent assez grand, nous pouvons supposer sans risque que ${\bar{e}}_{1 h} \sim (0, σ_{e, h}^{2} = σ_{e}^{2}) .$ Le modèle (2.2) est appelé modèle d'erreur structurel parce qu'il décrit la relation structurelle entre les deux variables latentes $Y_{1 h}$ et $X_{h} .$ Les deux modèles, (2.1) et (2.2), sont souvent mentionnés dans la littérature traitant des modèles d'erreur de mesure (Fuller 1987). Donc, le modèle pour l'estimation sur petits domaines peut être considéré comme un modèle d'erreur de mesure, comme l'a suggéré Fuller (1991) qui a été le premier à utiliser l'approche du modèle d'erreur de mesure dans la modélisation au niveau de l'unité pour l'estimation sur petits domaines.

Maintenant, si nous définissons $({\bar{y}}_{1 h}, {\bar{x}}_{h}) = N_{h}^{- 1} ({\hat{Y}}_{1 h}, {\hat{X}}_{h}),$ en combinant (2.1) et (2.3), nous obtenons

$(\begin{array}{l} {\bar{y}}_{1 h} \\ {\bar{x}}_{h} \end{array}) = (\begin{array}{l} β_{0} & β_{1} \\ 0 & 1 \end{array}) (\begin{array}{l} 1 \\ {\bar{X}}_{h} \end{array}) + (\begin{matrix} b_{h} + {\bar{e}}_{1 h} \\ a_{h} \end{matrix})$

qui peut également s'écrire sous la forme

$(\begin{array}{l} {\bar{y}}_{1 h} - β_{0} \\ {\bar{x}}_{h} \end{array}) = (\begin{array}{l} β_{1} \\ 1 \end{array}) {\bar{X}}_{h} + (\begin{matrix} b_{h} + {\bar{e}}_{1 h} \\ a_{h} \end{matrix}) . (2.5)$

Donc, quand tous les paramètres du modèle (2.5) sont connus, le meilleur estimateur de ${\bar{X}}_{h}$ peut être calculé par

${\hat{\bar{X}}}_{h} = {(β_{1},1) V_{h}^{- 1} {(β_{1},1)}^{'}}^{- 1} (β_{1},1) V_{h}^{- 1} {({\bar{y}}_{1 h} - β_{0}, {\bar{x}}_{h})}^{'} (2.6)$

où $V_{h}$ est la matrice de variance-covariance de ${(b_{h} + {\bar{e}}_{1 h}, a_{h})}^{'} .$ La variance de ${\hat{\bar{X}}}_{h}$ est donnée par ${(β_{1},1) V_{h}^{- 1} {(β_{1},1)}^{'}}^{- 1} .$ L'estimateur en (2.6) peut être appelé estimateur par les moindres carrés généralisés (MCG), parce qu'il s'appuie sur la méthode des moindres carrés généralisés de la théorie des modèles linéaires. La méthode MCG est utile parce qu'elle est optimale et qu'elle permet d'incorporer naturellement des sources d'information supplémentaires. Par exemple, si un autre estimateur ${\bar{y}}_{2 h}$ de ${\bar{Y}}_{2 h}$ est également disponible et satisfait

${\bar{Y}}_{2 h} = γ_{0} + γ_{1} {\bar{X}}_{h} + {\bar{e}}_{2 h}$

${\bar{y}}_{2 h} = {\bar{Y}}_{2 h} + c_{h},$

alors le modèle MCG étendu s'écrit

$(\begin{array}{l} {\bar{y}}_{2 h} - γ_{0} \\ {\bar{y}}_{1 h} - β_{0} \\ {\bar{x}}_{h} \end{array}) = (\begin{array}{l} γ_{1} \\ β_{1} \\ 1 \end{array}) {\bar{X}}_{h} + (\begin{matrix} c_{h} + {\bar{e}}_{2 h} \\ b_{h} + {\bar{e}}_{1 h} \\ a_{h} \end{matrix}) (2.7)$

et l'estimateur MCG peut être obtenu par

${\hat{\bar{X}}}_{h 2} = {(γ_{1}, β_{1},1) V_{h 2}^{- 1} {(γ_{1}, β_{1},1)}^{'}}^{- 1} (γ_{1}, β_{1},1) V_{h 2}^{- 1} {({\bar{y}}_{2 h} - γ_{0}, {\bar{y}}_{1 h} - β_{0}, {\bar{x}}_{h})}^{'}$

où $V_{h 2}$ est la matrice de variance-covariance de ${(c_{h} + {\bar{e}}_{2 h}, b_{h} + {\bar{e}}_{1 h}, a_{h})}^{'} .$ La variance de l'estimateur MCG est ${(γ_{1}, β_{1},1) V_{h 2}^{- 1} {(γ_{1}, β_{1},1)}^{'}}^{- 1} .$ Si ${\bar{y}}_{2 h}$ est indépendant de $({\bar{x}}_{h}, {\bar{y}}_{1 h}),$ le gain d'efficacité, en termes de variance relative, qui découle de l'incorporation de ${\bar{y}}_{2 h}$ dans l'estimateur MCG peut s'exprimer sous la forme

$\frac{V ({\hat{\bar{X}}}_{h 2}) - V ({\hat{\bar{X}}}_{h})}{V ({\hat{\bar{X}}}_{h})} = - \frac{{V ({\bar{y}}_{2 h} / γ_{1})}^{- 1}}{{V ({\hat{\bar{X}}}_{h})}^{- 1} + {V ({\bar{y}}_{2 h} / γ_{1})}^{- 1}},$

où $V ({\bar{y}}_{2 h} / γ_{1}) = V (c_{h} + {\bar{e}}_{2 h}) / γ_{1}^{2} .$ Le gain est important si la variance d'échantillonnage de ${\bar{y}}_{2 h}$ ainsi que la variance du modèle $V ({\bar{e}}_{2 h})$ sont faibles. Si $γ_{1} = 0,$ alors le gain est nul.

Remarque 1 Notons que le modèle (2.5) peut également s'écrire

$(\begin{matrix} β_{1}^{- 1} ({\bar{y}}_{1 h} - β_{0}) \\ {\bar{x}}_{h} \end{matrix}) = (\begin{array}{l} 1 \\ 1 \end{array}) {\bar{X}}_{h} + (\begin{matrix} (b_{h} + {\bar{e}}_{1 h}) / β_{1} \\ a_{h} \end{matrix}) . (2.8)$

L'estimateur MCG obtenu à partir de (2.8), qui est le même que l'estimateur MCG obtenu à partir de (2.5), peut être exprimé sous la forme

${\hat{\bar{X}}}_{h} = α_{h} {\bar{x}}_{h} + (1 - α_{h}) {\tilde{x}}_{h} (2.9)$

où ${\tilde{x}}_{h} = β_{1}^{- 1} ({\bar{y}}_{1 h} - β_{0})$ et

$\begin{array}{l} α_{h} & = & \frac{V ({\tilde{x}}_{h}) - Cov ({\bar{x}}_{h}, {\tilde{x}}_{h})}{V ({\bar{x}}_{h}) + V ({\tilde{x}}_{h}) - 2 Cov ({\bar{x}}_{h}, {\tilde{x}}_{h})} \\ = & \frac{σ_{e, h}^{2} + V (b_{h}) - β_{1} Cov (a_{h}, b_{h})}{σ_{e, h}^{2} + V (b_{h}) + β_{1}^{2} V (a_{h}) - 2 β_{1} Cov (a_{h}, b_{h})}, \end{array}$

L'estimateur ${\tilde{x}}_{h},$ lorsqu'il est calculé en utilisant le paramètre estimé $\hat{β} = ({\hat{β}}_{0}, {\hat{β}}_{1}),$ est appelé estimateur synthétique, et l'estimateur optimal en (2.9) est souvent appelé estimateur composite. On peut montrer qu'en ignorant l'effet de l'estimation de $β,$ la variance de l'estimateur composite est égale à

$V ({\hat{\bar{X}}}_{h} - {\bar{X}}_{h}) = α_{h} V ({\bar{x}}_{h}) + (1 - α_{h}) Cov ({\bar{x}}_{h}, {\tilde{x}}_{h}) (2.10)$

et, comme $α_{h} < 1,$ l'estimateur composite est plus efficace que l'estimateur direct.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2. Théorie de base