Publications

Techniques d’enquête

Recherche par

3 Méthodologie

Iván A. Carrillo et Alan F. Karr

3.1 Motivation

Supposons que (hors du contexte d'une enquête) l'on s'intéresse au paramètre vectoriel $β$ de dimension $p \times 1$ dans le modèle suivant :

$ξ : (\begin{array}{l} E [Y_{i j} | X_{i j}] = μ_{i j} = g^{- 1} ({X^{'}}_{i j} β), & j = 1,2, \dots, J, i = 1,2, \dots \\ Var [Y_{i j} | X_{i j}] = ϕ ν (μ_{i j}), & j = 1,2, \dots, J, i = 1,2, \dots \\ Cov [Y_{i} | X_{i}] = Σ_{i}, & i = 1,2, \dots \\ Y_{k} ⊥ Y_{l} | X_{k}, X_{l}, & k \neq l = 1,2, \dots; \end{array}$ (3.1)

où $Y_{i j}$ est la variable réponse pour le sujet $i$ à la vague $j, X_{i j}$ est un vecteur de covariables de dimension $p \times 1,$ $Y_{i} = {(Y_{i 1}, Y_{i 2}, \dots, Y_{i J})}^{'},$ $X_{i} = (X_{i 1}, X_{i 2}, \dots, X_{i J})$ est une matrice de dimensions $p \times J,$ $g (\cdot)$ est une « fonction de lien » monotone de type un à un différenciable, $ν (\cdot)$ est la « fonction de variance » de forme connue, et $ϕ > 0$ est le « paramètre de dispersion ». Puisqu'en général, la matrice de covariance $Σ_{i}$ de dimensions $J \times J$ est difficile à spécifier, nous la modélisons sous la forme $Cov [Y_{i} | X_{i}] = V_{i} = A_{i}^{1 / 2} R (α) A_{i}^{1 / 2},$ une matrice de covariance « de travail », où $A_{i} = diag [ϕ ν (μ_{i 1}), ϕ ν (μ_{i 2}), \dots, ϕ ν (μ_{i J})]$ et $R (α)$ est une matrice de corrélation « de travail », toutes deux de dimensions $J \times J,$ et $α$ est un vecteur qui caractérise entièrement $R (α)$ (voir Liang et Zeger 1986).

Pour estimer $β,$ nous sélectionnons un échantillon (cohorte unique) de $n$ éléments à partir du modèle $ξ$ et nous mesurons (avons l'intention de mesurer) chacun d'eux à $J$ occasions. Si tous les éléments de l'échantillon répondent à chaque occasion $j,$ la tâche peut être achevée en appliquant la méthode aux équations d'estimation généralisées (EEG) habituelles de Liang et Zeger (1986). Cependant, dans toute étude, il est rare que tous les sujets répondent à toutes les vagues. Il est plus fréquent que certains éléments de l'échantillon décrochent de l'étude.

Dans ces conditions, et en supposant que les réponses manquantes peuvent être considérées comme manquant au hasard ou MAR (pour missing at random) (voir Rubin 1976), en particulier que le décrochage durant une vague donnée ne dépend pas de la valeur courante (non observée), Robins, Rotnitzky et Zhao (1995) ont proposé d'estimer $β$ en résolvant les équations d'estimation $\sum_{i = 1}^{n} (\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1} {\hat{Δ}}_{i} (y_{i} - μ_{i}) = 0,$ où $μ_{i} = {(μ_{i 1}, μ_{i 2}, \dots, μ_{i J})}^{'},$ ${\hat{Δ}}_{i} = diag [R_{i 1} {\hat{q}}_{i 1}^{- 1}, R_{i 2} {\hat{q}}_{i 2}^{- 1}, \dots, R_{i J} {\hat{q}}_{i J}^{- 1}], R_{i j}$ est l'indicateur de réponse pour le sujet $i$ à la vague $j,$ et ${\hat{q}}_{i j}$ est une estimation de la probabilité que le sujet $i$ soit observé durant la vague $j .$

Pour les applications d'enquête, on utiliserait l'équation d'estimation $\sum_{i \in s} [w_{i} (\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1} {\hat{Δ}}_{i} (y_{i} - μ_{i})] = 0,$ où $w_{i}$ est le poids de sondage du sujet $i .$ Une autre façon d'écrire cette équation est $\sum_{i \in s} (\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1} {\hat{Δ}}_{w i} (y_{i} - μ_{i}) = 0,$ avec ${\hat{Δ}}_{w i} = diag [w_{i} R_{i 1} {\hat{q}}_{i 1}^{- 1}, w_{i} R_{i 2} {\hat{q}}_{i 2}^{- 1}, \dots, w_{i} R_{i J} {\hat{q}}_{i J}^{- 1}] .$

Nous constatons que les éléments de la diagonale de ${\hat{Δ}}_{w i}$ sont simplement égaux aux poids de sondage propres à la vague non corrigés de la non-réponse quand le sujet est observé et sont égaux à zéro quand le sujet est manquant. Cette caractéristique suggère en soi une solution au problème des cohortes multiples, qui sera présentée à la section suivante.

3.2 Une nouvelle approche pour combiner les cohortes dans les enquêtes longitudinales

Compte tenu de la discussion de la section précédente, si nous avons une enquête à panel fixe, à panel fixe plus des « unités nouvelles », à panel répété, à panel rotatif, à panel divisé ou à renouvellement de l'échantillon, nous proposons d'estimer le paramètre de superpopulation $β$ dans le modèle $ξ$ par la solution des équations d'estimation :

$Ψ_{s} (β) = \sum_{i \in s} \frac{\partial {μ^{'}}_{i}}{\partial β} V_{i}^{- 1} W_{i} (y_{i} - μ_{i}) = 0,$ (3.2)

où la sommation est faite sur l'échantillon $s,$ c'est-à-dire sur les éléments sélectionnés (pour la première fois) dans l'un des échantillons $s_{1 (1)}, s_{2 (2)}, \dots, s_{J (J)} .$ La matrice diagonale $W_{i}$ est $W_{i} = diag [I_{i} (U_{1}) w_{i 1}, I_{i} (U_{2}) w_{i 2}, \dots, I_{i} (U_{J}) w_{i J}],$ où $w_{i j}$ est le poids transversal (corrigé pour la non-réponse) pour le sujet $i$ à la vague $j$ (à condition que le sujet $i$ fasse partie de l'échantillon $s_{j}$ ) et $I_{i} (U_{j})$ est l'indicateur signalant si le sujet $i$ appartient ou non à la population finie $U_{j}$ . À la section 3.2.1, nous présentons des arguments justifiant qu'il s'agit d'une procédure d'estimation raisonnable, et à la section 3.2.2, nous discutons du problème des valeurs manquantes.

Les poids transversaux $w_{i j},$ dans $W_{i},$ sont tels que l'échantillon $s_{j}$ représente $U_{j}$ lorsqu'il est utilisé avec lesdits poids. Cela signifie que, pour chaque observation $i$ dans l'échantillon $s_{j},$ il existe un poids de sondage $w_{i j},$ qui pourrait être considéré comme le nombre d'unités que cette observation représente dans $U_{j} .$ Cependant, rappelons que l'échantillon $s_{j}$ est composé de différents ensembles de sujets, ou différents sous-échantillons (les différentes cohortes), et que l'intégration de ces sous-échantillons en une variable de pondération transversale unique $w_{i j}$ n'est pas forcément une tâche facile.

Pour la SDR, la construction d'un poids transversal pour la vague $j$ n'est pas trop compliquée, parce que les diverses cohortes sont sélectionnées indépendamment les unes des autres, à partir de populations non chevauchantes. Dans ces conditions, le poids de base est facile à calculer, et tout ce qu'il reste à faire est la conversion pour tenir compte d'aspects tels que l'attrition et le calage sur des totaux connus de la population $U_{j} .$

Par ailleurs, dans d'autres situations, par exemple lorsqu'il n'existe pas de liste des nouveaux membres, la nouvelle cohorte doit parfois être sélectionnée dans la population globale au moment de la vague en question, ou en se servant d'une base de sondage contenant les nouveaux membres plus certains anciens membres, ou à partir de bases de sondage multiples. Le cas échéant, la construction de poids transversaux n'est pas nécessairement simple, et la théorie des bases de sondage multiples peut devoir être appliquée. Nous renvoyons le lecteur aux travaux de Lohr (2007) et de Rao et Wu (2010), ainsi qu'aux références mentionnées dans ces articles, pour les cas de ce genre.

L'expression (3.2) est une généralisation de l'équation (2.25) donnée dans Vieira (2009). Cette dernière n'est applicable que si le nombre d'observations est le même pour tous les sujets ou que toute réponse manquante peut être considérée comme manquant entièrement au hasard ou MCAR (pour missing completely at random) (voir Rubin 1976). Comme il est discuté dans Robins et coll. (1995), l'utilisation d'une telle équation lorsque les réponses manquantes ne sont pas de type MCAR produit des estimateurs non convergents; par conséquent, sous un schéma de rotation tel que celui de la SDR, où les sujets ne sont pas tous supprimés (ou gardés) avec les mêmes probabilités, son utilisation ne serait pas appropriée. La question de l'adéquation de l'équation (3.2) dans ce cas et quand des réponses manquent est abordée aux sections 3.2.1 et 3.2.2, respectivement. Si tous les sujets possèdent des poids transversaux qui ne varient pas au cours du temps (ou qu'ils possèdent un seul poids longitudinal), l'équation (3.2) se réduit à l'équation (2.25) donnée dans Vieira (2009).

3.2.1 Absence de biais

La propriété d'absence de biais de la fonction d'estimation est importante, parce que, comme le soutient Song (2007, section 5.4), il s'agit de l'hypothèse la plus cruciale en vue d'obtenir un estimateur convergent.

Définissons $β_{N},$ ledit « estimateur par recensement », comme étant la solution de l'équation d'estimation en population finie suivante :

$Ψ_{U} (β_{N}) = \sum_{i \in U} \frac{\partial {μ^{'}}_{i}}{\partial β_{N}} V_{i}^{- 1} I_{i} (U) (y_{i} - μ_{i} (β_{N})) = 0,$ (3.3)

où la somme est calculée sur $U,$ c'est-à-dire sur tous les éléments qui sont devenus membres de la population cible dans l'une des $U_{1 (1)}, U_{2 (2)}, \dots, U_{J (J)},$ et $I_{i} (U) =diag [I_{i} (U_{1}), I_{i} (U_{2}), \dots I_{i} (U_{J})] .$ Afin de montrer l'absence de biais sous le plan de la fonction d'estimation $Ψ_{s} (β),$ nous devons montrer que son espérance sous le plan est $Ψ_{U} (β)$ pour tout $β .$

Les caractéristiques du plan d'échantillonnage d'une enquête longitudinale peuvent être vues comme celles d'un échantillon à plusieurs phases tel que l'ont montré Särndal, Swensson et Wretman (1992, section 9.9). Par conséquent, nous utilisons la méthodologie d'échantillonnage à plusieurs phases pour les calculs. Nous supposons, sans perte de généralité, que l'enquête ne comprend que trois vagues; les calculs pour trois vagues seulement montrent les tendances pour $J,$ général, en ce qui concerne l'absence de biais et la variance.

Comme nous l'avons mentionné plus haut, nous supposons que $w_{i j}$ est le poids transversal pour le sujet $i$ à la vague $j,$ si ce sujet appartient à $s_{j},$ et zéro autrement. Partant de la théorie de l'échantillonnage à plusieurs phases, nous avons que, pour $i \in s_{1 (1)}, w_{i 1} = π_{i 1}^{- 1}, w_{i 2} = π_{i 1}^{- 1} π_{i 2 | s_{1 (1)}}^{- 1}$ et $w_{i 3} = π_{i 1}^{- 1} π_{i 2 | s_{1 (1)}}^{- 1} π_{i 3 | s_{2 (1)}}^{- 1},$ pour $i \in s_{2 (2)}, w_{i 2} = π_{i 2}^{- 1}$ et $w_{i 3} = π_{i 2}^{- 1} π_{i 3 | s_{2 (2)}}^{- 1},$ et pour $i \in s_{3 (3)}, w_{i 3} = π_{i 3}^{- 1},$ où $π_{i j}$ est la probabilité d'inclusion du sujet $i$ dans l'échantillon $s_{j (j)}$ et $π_{i j | s_{j - 1 (j^{'})}}$ est la probabilité d'inclusion conditionnelle du sujet $i$ dans l'échantillon $s_{j (j^{'})}$ sachant $s_{j - 1 (j^{'})} .$

En utilisant $E_{p} (\cdot)$ pour désigner l'espérance par rapport au plan d'échantillonnage, nous avons :

$E_{p} [\sum_{i \in s} \frac{\partial {μ^{'}}_{i}}{\partial β} V_{i}^{- 1} W_{i} (y_{i} - μ_{i})] = E_{p} [\sum_{j = 1}^{3} \sum_{i \in s_{j (j)}} B_{i} W_{i} e_{i}];$ (3.4)

où $B_{i} = (\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1}$ et $e_{i} = y_{i} - μ_{i} .$ Par exemple, pour $\sum_{i \in s_{2 (2)}} B_{i} W_{i} e_{i}$ nous obtenons :

$\begin{matrix} E_{p} [\sum_{i \in s_{2 (2)}} B_{i} W_{i} e_{i}] = E {E [\sum_{i \in U_{2 (2)}} B_{i} D_{i} e_{i} | s_{2 (2)}]} = E {\sum_{i \in U_{2 (2)}} B_{i} D_{i}^{*} e_{i}} \\ = \sum_{i \in U_{2 (2)}} B_{i} D_{i}^{* *} e_{i} \overset{def}{=} \sum_{i \in U_{2 (2)}} B_{i} I_{i} (U) e_{i}, \end{matrix}$ (3.5)

où $D_{i} = diag [0, I_{i} (U_{2}) w_{i 2} I_{i} (s_{2 (2)}), I_{i} (U_{3}) w_{i 3} I_{i} (s_{3 (2)}) I_{i} (s_{2 (2)})],$
$D_{i}^{*} = diag [0, (I_{i} (U_{2}) w_{i 2} \times I_{i} (s_{2 (2)})), (I_{i} (U_{3}) π_{i 3 | s_{2 (2)}} I_{i} (s_{2 (2)})) / (π_{i 2} π_{i 3 | s_{2 (2)}})],$ et $D_{i}^{* *} = diag [0, (I_{i} (U_{2}) π_{i 2}) / π_{i 2}, (I_{i} (U_{3}) π_{i 2}) / π_{i 2}];$ similairement, nous pouvons montrer que $E_{p} [\sum_{i \in s_{1 (1)}} B_{i} W_{i} e_{i}] = \sum_{i \in U_{1 (1)}} B_{i} I_{i} (U) e_{i}$ et $E_{p} [\sum_{i \in s_{3 (3)}} B_{i} W_{i} e_{i}] = \sum_{i \in U_{3 (3)}} B_{i} I_{i} (U) e_{i} .$ De ces expressions et de l'équation (3.4), nous concluons que $E_{p} [Ψ_{s} (β)] = Ψ_{U} (β)$ pour tout $β,$ ce qui signifie que la fonction d'estimation $Ψ_{s} (β)$ est sans biais sous le plan pour la fonction d'estimation en population finie.

En outre, comme la cible de l'inférence est le paramètre de superpopulation, nous devons garantir que le modèle pour $μ_{i j}$ est tel que l'expression $E_{ξ} (Y_{i j} - μ_{i j}) = 0$ est satisfaite, où $E_{ξ} (\cdot)$ représente l'espérance sous le modèle $ξ$ car, si cela est le cas, nous avons :

$E_{ξ p} [Ψ_{s} (β)] \overset{def}{=} E_{ξ} E_{p} [Ψ_{s} (β)] = E_{ξ} [Ψ_{U} (β)] = \sum_{i \in U} \frac{\partial {μ^{'}}_{i}}{\partial β} V_{i}^{- 1} I_{i} (U) E_{ξ} (y_{i} - μ_{i}) = 0,$

de sorte que la fonction d'estimation $Ψ_{s} (β)$ est sans biais par rapport au modèle et au plan. La contrainte $E_{ξ} (Y_{i j} - μ_{i j}) = 0$ signifie que le modèle de la moyenne doit être spécifié correctement; par conséquent, il faut faire attention aux tests diagnostiques sur les résidus pour le modèle particulier qui est ajusté.

3.2.2 Une remarque concernant la non-réponse

Dans le cas de la SDR, comme dans celui de toute autre enquête (longitudinale), il y a de la non-réponse. Certains sujets échantillonnés choisissent de ne pas participer du tout, tandis que certains participent à certaines vagues, mais pas à d'autres. Dans le cas de la SDR, pour remédier à cette situation, les poids de sondage transversaux sont corrigés pour tenir compte de la non-réponse.

Supposons que la correction pour la non-réponse à la vague $j$ est une multiplication par l'inverse de la probabilité estimée de réponse à la vague $j,$ ${\hat{π}}_{r i j} .$ Par exemple, le poids corrigé de la non-réponse pour une personne qui a répondu à la vague 3 (et qui avait été sélectionnée initialement à la vague 2), c'est-à-dire pour $i \in r_{3 (2)},$ serait $w_{r i 3} = π_{i 2}^{- 1} π_{i 3 | s_{2 (2)}}^{- 1} {\hat{π}}_{r i 3}^{- 1} .$

Nous devons redéfinir l'équation d'estimation afin d'inclure uniquement les répondants comme étant $Ψ_{r} (β) = \sum_{i \in r} (\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1} W_{r i} (y_{i} - μ_{i}) = 0,$ où la somme est calculée sur l'ensemble des répondants $r,$ c'est-à-dire sur tous les éléments qui appartenaient pour la première fois à n'importe lequel des ensembles de répondants $r_{1 (1)}, r_{2 (2)}, \dots, r_{J (J)},$ et la matrice $W_{r i}$ est $W_{r i} = diag [I_{i} (U_{1}) w_{r i 1}, I_{i} (U_{2}) w_{r i 2}, \dots, I_{i} (U_{J}) w_{r i J}] .$ En outre, désignons par $r_{j (j^{'})}$ l'ensemble de répondants de la cohorte $j^{'}$ à la vague $j .$ Manifestement, $w_{r i j} = 0$ si $i \notin r_{j} = \cup_{j^{'} = 1}^{j} r_{j (j^{'})} .$

Si, de surcroît, on peut supposer que le mécanisme de réponse $(R)$ est de type MAR, nous avons alors, par exemple pour $\sum_{i \in r_{2 (2)}} B_{i} W_{r i} e_{i} :$

$E_{R} {\sum_{i \in r_{2 (2)}} B_{i} W_{r i} e_{i}} = E_{R} {\sum_{i \in s_{2 (2)}} B_{i} D_{i} e_{i}} = \sum_{i \in s_{2 (2)}} B_{i} D_{i}^{*} e_{i} = \sum_{i \in s_{2 (2)}} B_{i} D_{i}^{* *} e_{i} \overset{def}{=} \sum_{i \in s_{2 (2)}} B_{i} W_{i} e_{i},$ (3.6)

où $D_{i} = diag [0, I_{i} (U_{2}) w_{r i 2} I_{i} (r_{2 (2)}), I_{i} (U_{3}) w_{r i 3} I_{i} (r_{3 (2)})],$
$D_{i}^{*} = diag [0, (I_{i} (U_{2}) π_{r i 2}) / (π_{i 2} \times {\hat{π}}_{r i 2}), (I_{i} (U_{3}) π_{r i 3}) / (π_{i 2} π_{i 3 | s_{2 (2)}} {\hat{π}}_{r i 3})],$ et $D_{i}^{* *} = diag [0, I_{i} (U_{2}) w_{i 2}, I_{i} (U_{3}) w_{i 3}] .$ La troisième égalité dans (3.6) requiert que le modèle de non-réponse utilisé pour ${\hat{π}}_{r i j}$ satisfasse $E_{R} [I_{i} (r_{j (j^{'})})] \overset{def}{=} π_{r i j} = {\hat{π}}_{r i j} .$ Cela signifie que, dans le modèle pour ${\hat{π}}_{r i j},$ nous devons inclure le plus possible d'information possible considérée comme ayant une influence sur la propension à répondre, pour que cette hypothèse (c'est-à-dire l'hypothèse MAR) tienne. Par exemple, si l'on pense que la non-réponse est indépendante d'une vague à l'autre, on doit inclure dans le modèle pour ${\hat{π}}_{r i j}$ autant de variables que possible provenant de la vague correspondante. Si, par ailleurs, il est raisonnable de supposer que la propension à répondre à une vague donnée dépend des réponses précédentes (et éventuellement de l'historique des réponses), ces réponses doivent être incluses dans le modèle de réponse, et ainsi de suite.

L'absence de biais par rapport au plan ainsi que l'absence de biais par rapport au modèle et au plan découle directement de (3.6) ainsi que de la section précédente. Par conséquent, dans la suite de l'exposé, nous ignorons la question de la non-réponse pour simplifier la notation.

3.3 Variance et estimation de la variance

Nous développons maintenant une linéarisation (développement en série de Taylor) pour la variance de l'estimateur proposé. La technique de base a été élaborée par Binder (1983). Pour simplifier les calculs et la notation, nous divisons tous les termes par $N;$ nous redéfinissons

$Ψ_{s} (β) = N^{- 1} \sum_{i \in s} \frac{\partial {μ^{'}}_{i}}{\partial β} V_{i}^{- 1} W_{i} (y_{i} - μ_{i})$ et $Ψ_{U} (β) = N^{- 1} \sum_{i \in U} \frac{\partial {μ^{'}}_{i}}{\partial β} V_{i}^{- 1} I_{i} (U) (y_{i} - μ_{i}),$

où $N = \sum_{j = 1}^{J} N_{j} .$ Soit $\hat{β}$ notre estimateur, qui satisfait $Ψ_{s} (\hat{β}) = 0,$ et soit $β_{N}$ l'« estimateur par recensement », qui satisfait $Ψ_{U} (β_{N}) = 0 .$ Supposons que $β_{N} - β = O_{P} (1 / \sqrt{N_{m}})$ et $\hat{β} - β_{N} = O_{P} (1 / \sqrt{n_{m}}),$ avec $N_{m} = \min {N_{1}, N_{2}, \dots, N_{J}}$ et $n_{m} = \min {n_{1}, n_{2}, \dots, n_{J}} .$ Nous pouvons écrire l'erreur totale de $\hat{β}$ sous la forme $\hat{β} - β = (\hat{β} - β_{N}) + (β_{N} - β) =$ erreur d'échantillonnage + erreur du modèle. Après certains calculs simples, la variance totale, ou plus précisément l'EQM totale, peut être décomposée comme il suit :

$V_{Tot} = E_{ξ p} (\hat{β} - β) {(\hat{β} - β)}^{'} = V_{Éch} + 2 \otimes C_{Éch - Mod} + o (1 / n_{m}),$ (3.7)

où $2 \otimes A = A + A^{'}$ pour toute matrice $A, V_{Éch} = E_{ξ} V_{p}$ est la composante de « variance d'échantillonnage », $2 \otimes C_{Éch - Mod}$ est la composante croisée « variance d'échantillonnage-modèle », $V_{p} = E_{p} [(\hat{β} - β_{N}) {(\hat{β} - β_{N})}^{'}], C_{Éch - Mod} = E_{p} C_{ξ},$ et $C_{ξ} = E_{ξ} (\hat{β} - β) {(β_{N} - β)}^{'} .$ En outre, par développements en série de Taylor, nous pouvons obtenir les approximations suivantes : $\hat{β} - β_{N} = {[H (β_{N})]}^{- 1} Ψ_{s} (β_{N}) + o_{P} (1 / \sqrt{n_{m}}),$ $\hat{β} - β = {[\hat{H} (β)]}^{- 1} Ψ_{s} (β) + o_{P} (1 / \sqrt{n_{m}})$ et $β_{N} - β = {[H (β)]}^{- 1} Ψ_{U} (β) + o_{P} (1 / \sqrt{N_{m}}),$ où nous définissons $H (β) = N^{- 1} \sum_{i \in U} (\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1} I_{i} (U) (\partial μ_{i} / \partial β)$ et $\hat{H} (β) = N^{- 1} \sum_{i \in s} (\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1} W_{i} (\partial μ_{i} / \partial β) .$

Nous obtenons alors, pour $V_{p}$ et $C_{ξ}$ dans (3.7),

$V_{p} = {[H (β_{N})]}^{- 1} {Var}_{p} [Ψ_{s} (β_{N})] {[H (β_{N})]}^{- 1} + o_{P} (1 / n_{m}),$ (3.8)

$\begin{matrix} C_{ξ} = {[\hat{H} (β)]}^{- 1} E_{ξ} [Ψ_{s} (β) {Ψ^{'}}_{U} (β)] {[H (β)]}^{- 1} + o_{P} (1 / n_{m}) \\ = N^{- 1} {[\hat{H} (β)]}^{- 1} {\hat{H}}_{Σ V} (β) {[H (β)]}^{- 1} + o_{P} (1 / n_{m}), \end{matrix}$ (3.9)

où ${Var}_{p} [Ψ_{s} (β_{N})] = E_{p} [Ψ_{s} (β_{N}) {Ψ^{'}}_{s} (β_{N})]$ et ${\hat{H}}_{Σ V} (β) = N^{- 1} \sum_{i \in s} [(\partial {μ^{'}}_{i} / \partial β) V_{i}^{- 1} W_{i} Σ_{i} \times V_{i}^{- 1} (\partial μ_{i} / \partial β)];$ la dérivation de l'expression (3.9) est donnée en annexe.

En conclusion, jusqu'à présent, nous avons trouvé que :

$\begin{matrix} V_{Tot} & = E_{ξ} V_{p} + 2 \otimes E_{p} C_{ξ} + o (1 / n_{m}) \\ = E_{ξ} {{[H (β_{N})]}^{- 1} {Var}_{p} [Ψ_{s} (β_{N})] {[H (β_{N})]}^{- 1}} \\ + 2 \otimes N^{- 1} E_{p} {{[\hat{H} (β)]}^{- 1} {\hat{H}}_{Σ V} (β) {[H (β)]}^{- 1}} + o (1 / n_{m}) . \end{matrix}$ (3.10)

Dans (3.10), tous les termes peuvent être estimés en « insérant » l'estimation $\hat{β},$ sauf pour le terme ${Var}_{p} [Ψ_{s} (β_{N})];$ celui-ci est le sujet de la section suivante.

Si la fraction d'échantillonnage est faible, c'est-à-dire que $n ≪ N,$ le premier terme de l'expression (3.10) est une bonne approximation de la variance totale; autrement, l'expression pour $V_{Tot}$ est simplement $E_{ξ} V_{p}$ (et les termes d'ordre inférieur). Si, au contraire, la fraction d'échantillonnage est grande, les deux termes de (3.10) sont requis.

3.3.1 Variance sous le plan de la fonction d'estimation

Afin d'obtenir une expression pour ${Var}_{p} [Ψ_{s} (β_{N})],$ nous supposons que $J = 3,$ comme auparavant. La méthodologie est celle de l'échantillonnage à deux phases (plus précisément, l'échantillonnage a plusieurs phases), comme il est discuté au chapitre 9 de Särndal et coll. (1992). Après certains calculs (voir l'annexe), et en définissant $B_{i} = {(\partial {μ^{'}}_{i} / \partial β) |}_{β = β_{N}} V_{i}^{- 1}, e_{i} = y_{i} - μ_{i} (β_{N}), e_{i (1 \dots 3)} = e_{i}, e_{i (2 \dots 3)} = {(0, e_{i 2}, e_{i 3})}^{'},$ et $e_{i (3 \dots 3)} = {(0,0, e_{i 3})}^{'},$ nous obtenons :

${Var}_{p} [Ψ_{s} (β_{N})] = \sum_{j = 1}^{3} D_{(j)} = \sum_{j = 1}^{3} \sum_{k = j}^{3} D_{(j) k},$ (3.11)

où $D_{(j)} \overset{def}{=} N^{- 2} {Var}_{p} (\sum_{i \in s_{j (j)}} B_{i} W_{i} e_{i}) = \sum_{k = j}^{3} D_{(j) k},$ pour $j = 1,2,3,$

$N^{2} D_{(j) j} \overset{def}{=} Var [\sum_{i \in s_{j (j)}} w_{i j} B_{i} I_{i} (U) e_{i (j \dots 3)}], pour j = 1,2,3,$

$N^{2} D_{(j - 1) j} \overset{def}{=} E {Var [\sum_{i \in s_{j (j - 1)}} w_{i j} B_{i} I_{i} (U) e_{i (j \dots 3)} | s_{j - 1 (j - 1)}]}, pour j = 2,3,$

$N^{2} D_{(1) 3} \overset{def}{=} E {E [Var (\sum_{i \in s_{3 (1)}} w_{i 3} B_{i} I_{i} (U) e_{i (3 \dots 3)} | s_{2 (1)}, s_{1 (1)}) | s_{1 (1)}]},$

et, en annexe, nous montrons que :

$N^{2} D_{(j) k} = Var [\sum_{i \in s_{k (j)}} w_{i k} B_{i} I_{i} (U) e_{i (k \dots 3)}] - Var [\sum_{i \in s_{k - 1 (j)}} w_{i, k - 1} B_{i} I_{i} (U) e_{i (k \dots 3)}],$

pour $j = 1,2,3$ et $3 \geq k > j .$ De manière générale, nous avons prouvé ce qui suit.

Propriété 3.1 La variance (sous le plan) de $Ψ_{s} (β_{N})$ peut être décomposée en :

$\begin{array}{l} {Var}_{p} [Ψ_{s} (β_{N})] \\ = \frac{1}{N^{2}} \sum_{j^{'} = 1}^{J} \sum_{j = j^{'}}^{J} {{Var}_{p} [\sum_{i \in s_{j (j^{'})}} w_{i j} B_{i} I_{i} (U) e_{i (j \dots J)}] - {Var}_{p} [\sum_{i \in s_{j - 1 (j^{'})}} w_{i, j - 1} B_{i} I_{i} (U) e_{i (j \dots J)}]} \end{array}$ (3.12)

$= \frac{1}{N^{2}} \sum_{j = 1}^{J} {{Var}_{p} [\sum_{i \in s_{j}} w_{i j} B_{i} I_{i} (U) e_{i (j \dots J)}] - {Var}_{p} [\sum_{i \in s_{j - 1}} w_{i, j - 1} B_{i} I_{i} (U) e_{i (j \dots J)}]},$ (3.13)

où nous posons que $w_{i, j - 1} = 0$ quand $j = j^{'}, w_{i 0} = 0,$ et pour obtenir (3.13), nous avons changé les variable et utilisé la propriété d'indépendance entre les cohortes.

Dans (3.11), (3.12) et (3.13), nous avons supposé que les cohortes sont indépendantes sous le plan. Cependant, dans certains cas, cette hypothèse ne tient pas; un exemple est celui d'une base de sondage multiple dont nous avons discuté dans la première partie de la section 3.2. Une autre situation dans laquelle il pourrait ne pas être approprié de supposer que les cohortes sont indépendantes est celle où les ajustements de pondération recoupent les cohortes, ce qui est le cas de la SDR; nous discutons de ce problème à la section 5. Les calculs pour le cas des trois cohortes, fournis en annexe, montrent que l'équation (3.13) est vérifiée pour les termes de variance, même sans indépendance. Nous précisons aussi dans l'annexe les conditions sous lesquelles il s'agit d'une bonne approximation pour les termes de covariance.

3.3.2 Estimation

L'estimation de $V_{Tot}$ dans (3.10) peut être effectuée comme il suit. $H (β_{N}), \hat{H} (β)$ et $H (β)$ peuvent être estimés par $\hat{H} (\hat{β}) .$ ${\hat{H}}_{Σ V} (β)$ peut être estimé par ${\hat{H}}_{Σ V} (\hat{β}),$ où $Σ_{i} = Cov [Y_{i} | X_{i}]$ peut être estimé par ${\hat{e}}_{i} {\hat{e}}^{'}_{i} .$

Nous utilisons (3.13) dans la propriété 3.1 pour estimer ${Var}_{p} [Ψ_{s} (β_{N})] .$ À condition qu'il existe une méthode pour estimer la variance des estimateurs (transversaux) de Horvitz-Thompson (H-T), l'expression (3.13) peut être utilisée. Si nous définissons $Z_{i j} = B_{i} I_{i} (U) e_{i (j \dots J)},$ nous constatons que chaque terme intervenant dans le calcul de (3.13) tel que ${Var}_{p} [\sum_{i \in s_{j}} w_{i j} Z_{i j}]$ est simplement la variance d'un estimateur H-T de la vague $j .$ De toute évidence, la méthode d'estimation de la variance doit prendre en considération à la fois le plan d'échantillonnage et toute correction pour tenir compte de la non-réponse et du calage, mais cela ne présente aucune difficulté de plus que celle posée par tout problème transversal, car tous les éléments sont appliqués transversalement. Dans le cas de la SDR, les variances des estimateurs transversaux sont estimées par rééchantillonnage, mais toute méthode d'estimation de la variance sous le plan peut être utilisée.

Nous utilisons les poids de rééchantillonnage transversaux fournis par le programme de la SDR, mais nous ne réestimons pas le paramètre d'intérêt pour chaque réplique. Premièrement, notons que nous ne devons effectuer le rééchantillonnage que pour l'estimation de la « partie substantielle » $({Var}_{p} [Ψ_{s} (β_{N})])$ de la variance sous le plan $(E_{ξ} V_{p}) .$ Deuxièmement, bien que $\hat{β}$ ne figure pas dans l'expression de l'estimateur H-T dont la variance doit être calculée (et recalculée à chaque réplique), les travaux de Roberts, Binder, Kova�ević, Pantel et Phillips (2003), qui appliquent la méthode du « bootstrap de la fonction d'estimation » (Hu et Kalbfleisch 2000) à des données d'enquête, montrent que dans des conditions telles que les nôtres, il n'est pas nécessaire de recalculer l'estimateur à chaque réplique, mais que l'estimateur sur l'échantillon complet suffit. Cette simplification accélère le calcul des estimations répétées.

En guise d'illustration, disons que nous en sommes à la vague $j,$ c'est-à-dire que nous estimons le $j^{e}$ terme dans (3.13). La $r^{e}$ réplique du premier terme est $\sum_{i \in s_{j}} w_{i j}^{(r)} B_{i} (\hat{β}) I_{i} (U) e_{i (j \dots J)} (\hat{β}),$ où $w_{i j}^{(r)}$ est le $r^{e}$ poids de rééchantillonnage pour le sujet $i$ à la vague $j,$ et la $r^{e}$ réplique du deuxième terme est $\sum_{i \in s_{j - 1}} w_{i, j - 1}^{(r)} B_{i} (\hat{β}) I_{i} (U) e_{i (j \dots J)} (\hat{β}),$ où $w_{i, j - 1}^{(r)}$ est le $r^{e}$ poids de rééchantillonnage pour le sujet $i$ à la vague $j - 1.$

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche