Recherche par

3. Estimation de la variance de l’estimateur par calage en une étape

Phillip S. Kott et Dan Liao

À la présente section, nous posons que

$t_{y} = \sum_{R} w_{k} y_{k} = \sum_{R} d_{k} α (g^{T} x_{k}) y_{k}$

est l’estimateur pondéré par calage de $T_{y},$ où $w_{k} = d_{k} α (g^{T} x_{k})$ quand $k \in R$ est le poids de calage, et $w_{k}$ est défini de façon commode comme étant égal à 0 quand $k \notin R .$ La fonction d’ajustement des poids $α (\cdot)$ est définie implicitement par l’équation (2.4), et $g$ est de nouveau choisi de façon que l’équation de calage (2.5) soit vérifiée pour $θ = 0$ ou $1.$

Nous proposons l’estimateur suivant de la variance de $t_{y} :$

$v (t_{y}) = \sum_{k, j \in S} (1 - \frac{π_{k} π_{j}}{π_{k j}}) [d_{k} (θ z_{k}^{T} b + α_{k} e_{k})] [d_{j} (θ z_{j}^{T} b + α_{j} e_{j})] + \sum_{k \in R} d_{k} (α_{k}^{2} - α_{k}) e_{k}^{2}, (3.1)$

où $π_{k j}$ est la probabilité de sélection conjointe de $k$ et $j$ sous le plan d’échantillonnage original, $π_{k k} = π_{k} = 1 / d_{k}, π_{k} = α (g^{T} x_{k})$ quand $k \in R$ et 0 autrement,

$b = {[\sum_{R} d_{k} α^{'} (g^{T} x_{k}) x_{k} z_{k}^{T}]}^{- 1} \sum_{R} d_{k} α^{'} (g^{T} x_{k}) x_{k} y_{k}, (3.2)$

et $e_{k} = y_{k} - z_{k}^{T} b .$ Nous montrerons que $v (t_{y})$ dans l’équation (3.1) peut être quasi sans biais dans un certain sens si soit un modèle de réponse (section 3.1) soit un modèle de prédiction est vérifié (section 3.2).

L’estimateur de variance dans l’équation (5.2) de Kott (2006) est identique à $v (t_{y})$ dans l’équation (3.1) quand $θ = 0.$ L’estimateur de variance dans Kim et Haziza (2014) est également similaire. Leur modèle de prédiction est plus général que le modèle de prédiction linéaire considéré ici.

Cet estimateur de variance $v (t_{y})$ présuppose que le plan d’échantillonnage original est tel que chaque élément ne peut être tiré qu’une seule fois. À la section 3.1, nous voyons que, quand les probabilités de réponse sont indépendantes (Poisson), alors sous des hypothèses faibles, $v (t_{y})$ est un estimateur quasi sans biais de l’erreur quadratique moyenne de $t_{y}$ sous le quasi-plan d’échantillonnage, que le modèle de prédiction, $E (y_{k} | x_{k}, z_{k}) = z_{k}^{T} β,$ soit vérifié ou non.

À la section 3.2, nous montrons que $v (t_{y})$ est un estimateur quasi sans biais pour le modèle de prédiction combiné à la variance sous le plan d’échantillonnage original de $t_{y}$ en tant qu’estimateur de $T_{y},$ que le modèle de réponse donné par l’équation (2.4) soit vérifié ou non. Donc, $v (t_{y})$ peut être appelé un « estimateur simultané des variances ».

3.1 Estimation de la variance sous le modèle de réponse

Pour simplifier l’exposé, nous supposerons que le modèle de réponse donné par l’équation (2.4) avec une borne supérieure $u$ finie est vérifié. Les conditions suffisantes pour que $v (t_{y})$ soit un estimateur quasi sans biais de l’erreur quadratique moyenne de $t_{y}$ (en vertu desquelles le biais converge vers 0 quand la taille de l’échantillon devient arbitrairement grande) sont

$π_{k j} \geq B_{0} > 0 (3.3)$

$\sum_{j = 1}^{N} | \frac{π_{k j}}{π_{k} π_{j}} - 1 | \leq B_{1} < \infty pour chaque k, (3.4)$

$\frac{\sum_{j = 1}^{N} ψ_{j}^{r}}{N} \leq B_{2} < \infty où ψ_{j} est y_{j} ou toute composante de x_{j} ou z_{j}, tandis que r = 1 ou 2, (3.5)$

et $N^{- 1} \sum_{R} d_{k} α^{'} (g^{T} x_{k}) z_{k} x_{k}^{T}$ est de plein rang et est bornée en probabilité quand la taille de l’échantillon devient arbitrairement grande.

En vertu de cela, de $α^{'} (ϕ) = (1 - α (ϕ) / u) \exp (ϕ) / [(1 + \exp (ϕ) / u)]$ étant bornée quand $u$ est finie, et de l’inégalité de Cauchy-Schwarz $({(\sum a_{k} b_{k})}^{2} \leq \sum a_{k}^{2} \sum b_{k}^{2}),$ il n’est pas difficile de voir non seulement que $g$ est un estimateur convergent de $γ,$ mais aussi que $b$ dans l’équation (3.2) (qui peut être rendue sous la forme $b = {[N^{- 1} \sum_{R} d_{k} α^{'} (g^{T} x_{k}) x_{k} z_{k}^{T}]}^{- 1} N^{- 1} \sum_{R} d_{k} α^{'} (g^{T} x_{k}) x_{k} y_{k})$ possède une limite en probabilité, que nous appellerons $b^{*},$ que le modèle de prédiction soit vérifié ou non. En outre, $b - b^{*}$ ainsi que $g - γ$ sont $O_{p} (1 / \sqrt{n}) .$

Observons que

$\begin{array}{l} (t_{y} - T_{y}) / N & = & θ (\sum_{S} d_{k} z_{k}^{T} b^{*} - \sum_{U} z_{k}^{T} b^{*}) / N \\ + & [\sum_{R} d_{k} α (g^{T} x_{k}) e_{k}^{*} - \sum_{R} d_{k} α (γ^{T} x_{k}) e_{k}^{*}] / N \\ + & [\sum_{R} d_{k} α (γ^{T} x_{k}) e_{k}^{*} - \sum_{U} e_{k}^{*}] / N, \end{array}$

où $e_{k}^{*} = y_{k} - z_{k}^{T} b^{*} .$ L’insertion de $α^{'} (\cdot)$ dans le « coefficient de régression » $b$ nous permet d’ignorer la contribution du deuxième terme de cette somme, $Q = \sum_{R} d_{k} [α (g^{T} x_{k}) - α (γ^{T} x_{k})] e_{k}^{*} / N,$ à l’erreur quadratique moyenne sous le quasi-plan d’échantillonnage. Il en est ainsi parce que $\sum_{R} d_{k} α^{'} (γ^{T} x_{k}) x_{k} e_{k} = 0$ est vraie par définition, ce qui implique que $\sum_{R} d_{k} α^{'} (γ^{T} x_{k}) x_{k} e_{k}^{*}$ est $O_{p} (1 / \sqrt{n})$ sous nos hypothèses. En outre, puisque $α (g^{T} x_{k}) - α (γ^{T} x_{k}) = α^{'} (c_{k}) {(g - γ)}^{T} x_{k}$ est aussi $O_{p} (1 / \sqrt{n}),$ $Q = {(g - γ)}^{T} \sum_{R} d_{k} α^{'} (c_{k}) x_{k} e_{k}^{*}$ est $O_{p} (1 / n),$ qui est asymptotiquement ignorable par rapport aux deux composantes $O_{p} (1 / \sqrt{n})$ de $(t_{y} - T_{y}) / N .$

La contribution de $Q$ étant éliminée, un estimateur sans biais idéalisé, mais incalculable, de l’erreur quadratique moyenne sous le quasi-plan d’échantillonnage de $t_{y}$ est donné par

$v_{I 1} (t_{y}) = \sum_{k, j \in S} (1 - \frac{π_{k} π_{j}}{π_{k j}}) [d_{k} (θ z_{k}^{T} b^{*} + e_{k}^{*})] [d_{j} (θ z_{j}^{T} b^{*} + e_{j}^{*})] + {\sum_{k \in R} (\frac{d_{k} e_{k}^{*}}{p_{k}})}^{2} (1 - p_{k}), (3.6)$

où le premier terme du deuxième membre estime l’erreur quadratique moyenne avant la non-réponse (s’il y en a une) et le deuxième terme estime la variance ajoutée par la non-réponse.

Un estimateur quasi sans biais idéalisé de l’erreur quadratique moyenne de rechange, plus près d’être calculable, est donné par

$v_{I 2} (t_{y}) = \sum_{k, j \in S} (1 - \frac{π_{k} π_{j}}{π_{k j}}) [d_{k} (θ z_{k}^{T} b^{*} + \frac{R_{k}}{p_{k}} e_{k}^{*})] [d_{j} (θ z_{j}^{T} b^{*} + \frac{R_{j}}{p_{j}} e_{j}^{*})] + {\sum_{k \in R} d_{k} (\frac{e_{k}^{*}}{p_{k}})}^{2} (1 - p_{k}), (3.7)$

où de nouveau $R_{k} = 1$ quand $k \in R, 0$ autrement. Puisque les $(R_{k} / p_{k}) e_{k}^{*}$ sont indépendants sous le modèle de réponse et sont de moyenne $e_{k}^{*}$ et de variance ${(e_{k}^{*} / p_{k})}^{2} p_{k} (1 - p_{k}),$ $E [(R_{k} / p_{k}) e_{k}^{*} (R_{j} / p_{j}) e_{j}^{*}] = e_{k}^{*} e_{j}^{*}$ quand $k \neq j .$ Par contre, l’expression qui suit est vérifiée quand $k = j :$

$\begin{array}{l} (1 - π_{k}) E [{(d_{k} \frac{R_{k}}{p_{k}} e_{k}^{*})}^{2}] & = (1 - π_{k}) [{(d_{k} e_{k}^{*})}^{2} + {(\frac{d_{k} e_{k}^{*}}{p_{k}})}^{2} p_{k} (1 - p_{k})] \\ = (1 - π_{k}) {(d_{k} e_{k}^{*})}^{2} + {(\frac{d_{k} e_{k}^{*}}{p_{k}})}^{2} p_{k} (1 - p_{k}) - d_{k} {(\frac{e_{k}^{*}}{p_{k}})}^{2} p_{k} (1 - p_{k}) . \end{array}$

La première sommation dans le deuxième membre de l’équation (3.7) contient des termes où $k \neq j$ et des termes où $k = j,$ les derniers faisant que la deuxième sommation dans (3.7) diffère de la deuxième sommation dans le deuxième membre de l’équation (3.6). Notons que l’espérance sous le modèle de réponse de $\sum_{R} d_{k} {(e_{k}^{*} / p_{k})}^{2} (1 - p_{k})$ dans la deuxième sommation dans le deuxième membre de (3.7) est $\sum_{S} d_{k} {(e_{k}^{*} / p_{k})}^{2} p_{k} (1 - p_{k}) .$

Enfin, $v_{I 2} (t_{y})$ peut être remplacé par l’estimateur $v (t_{y})$ asymptotiquement identique, mais calculable, dans l’équation (3.1) puisque $\sum_{j \in S} (1 - π_{k} π_{j} / π_{k j})$ est borné pour tout $k$ sous les hypothèses (3.3) et (3.4), ce qui permet de substituer $e_{k}$ et $α_{k}$ à $e_{k}^{*}$ et $1 / p_{k}$ inconnus, respectivement (parce que $e_{k}^{*} - e_{k}$ et $α_{k} - 1 / p_{k}$ sont $O_{p} (1 / \sqrt{n})$ pour tout $k) .$

3.2 Estimation de la variance sous le modèle de prédiction

Les choses sont un peu plus simples quand nous supposons qu’un modèle de prédiction est vérifié mais que le modèle de réponse de l’équation (2.4) ne l’est pas nécessairement. Supposons que $E (y_{k} | x_{k}, z_{k}) = z_{k}^{T} β,$ peu importe que l’unité $k$ soit échantillonnée ou non ou qu’elle réponde ou non quand elle est échantillonnée, et que les $ε_{k} = y_{k} - z_{k}^{T} β$ sont des variables aléatoires non corrélées de variance égale à $σ_{k}^{2} = z_{k}^{T} η,$ où $η$ ne nécessite pas d’autres spécifications que le fait d’avoir des composantes finies.

L’erreur quadratique moyenne de $t_{y}$ en tant qu’estimateur de $T_{y}$ sous le modèle de prédiction est égale à la somme de la variance de prédiction de $t_{y}$ en tant qu’estimateur de $T_{y}, \sum_{R} (w_{k}^{2} - w_{k}) σ_{k}^{2}$ (voir, par exemple, Kott 2009, page 69), et du carré du biais, ${(\sum_{S} x_{k}^{T} β - \sum_{U} x_{k}^{T} β)}^{2},$ ce dernier étant égal à zéro quand $θ = 0.$ La variance combinée de $t_{y}$ en tant qu’estimateur de $T_{y}$ sous le modèle de prédiction et le plan d’échantillonnage original est donnée par

$V_{C} = θ {Var}_{D} (\sum_{S} x_{k}^{T} β) + E_{D} [\sum_{S} (w_{k}^{2} - w_{k}) σ_{k}^{2}],$

où l’indice inférieur $D$ indique que l’opération (variance ou espérance) est effectuée par rapport au plan d’échantillonnage original. Rappelons que $w_{k} = 0$ pour $k \neq R .$

Pour voir que $v (t_{y})$ dans l’équation (3.1) donne un estimateur quasi sans biais de $V_{C},$ observons d’abord que

$e_{k} = y_{k} - z_{k}^{T} b = ε_{k} - z_{k}^{T} {[N^{- 1} \sum_{R} d_{j} α^{'} (g^{T} x_{j}) x_{j} z_{j}^{T}]}^{- 1} N^{- 1} \sum_{R} d_{j} α^{'} (g^{T} x_{j}) x_{j} ε_{j} .$

Soit $δ_{k j} = 1$ quand $k = j$ et $0$ autrement. Parce que les $ε_{k}$ ne sont pas corrélés, et que $E (ε_{k}^{2}) = σ_{k} = z_{k}^{T} η,$ il est maintenant facile de montrer que $E (e_{k} e_{j}) = δ_{k j} σ_{k}^{2} + O (1 / n)$ pour presque chaque paire $k, j$ sous le modèle de prédiction quand $N^{- 1} \sum_{R} d_{k} α^{'} (g^{T} x_{k}) z_{k} x_{k}^{T}$ converge vers une matrice inversible, et que les hypothèses (3.3), (3.4), et

$\frac{\sum_{j = 1}^{N} ψ_{j}^{r}}{N} \leq B_{2} < \infty où ψ_{j} désigne toute composante de x_{j} ou z_{j}, et r = 1, 2, 3 ou 4, (3.8)$

sont vérifiées. Observons que le changement provenant des hypothèses dans (3.5) à (3.8) fait que le biais relatif de $v (t_{y})$ est un estimateur de $V_{C} (ou \sum_{R} (w_{k}^{2} - w_{k}) σ_{k}^{2} quand θ = 0) O (1 / n)$ plutôt que $O (1 / \sqrt{n}) .$

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

3. Estimation de la variance de l’estimateur par calage en une étape

3.1 Estimation de la variance sous le modèle de réponse

3.2 Estimation de la variance sous le modèle de prédiction