3 Méthodologie
Iván A. Carrillo et Alan F. Karr
Précédent | Suivant
3.1 Motivation
Supposons
que (hors du contexte d'une enquête) l'on s'intéresse au paramètre vectoriel de dimension dans le modèle suivant :
(3.1)
où
est la variable réponse pour le
sujet à la vague est un vecteur de covariables de
dimension est une matrice de dimensions est une « fonction de
lien » monotone de type un à un différenciable, est la « fonction de
variance » de forme connue, et est le « paramètre de
dispersion ». Puisqu'en général, la matrice de covariance de dimensions est difficile à spécifier, nous
la modélisons sous la forme une matrice de covariance
« de travail », où et est une matrice de corrélation
« de travail », toutes deux de dimensions et est un vecteur qui caractérise
entièrement (voir Liang et Zeger 1986).
Pour
estimer nous sélectionnons un échantillon
(cohorte unique) de éléments à partir du modèle et nous
mesurons (avons l'intention de mesurer) chacun d'eux à occasions. Si tous les éléments de
l'échantillon répondent à chaque occasion la tâche
peut être achevée en appliquant la méthode aux équations d'estimation
généralisées (EEG) habituelles de Liang et Zeger (1986). Cependant, dans toute
étude, il est rare que tous les sujets répondent à toutes les vagues. Il est
plus fréquent que certains éléments de l'échantillon décrochent de l'étude.
Dans
ces conditions, et en supposant que les réponses manquantes peuvent être
considérées comme manquant au hasard ou MAR (pour missing at random) (voir
Rubin 1976), en particulier que le décrochage durant une vague donnée ne dépend
pas de la valeur courante (non observée), Robins, Rotnitzky et Zhao (1995) ont
proposé d'estimer en
résolvant les équations d'estimation où est
l'indicateur de réponse pour le sujet à la
vague et est une
estimation de la probabilité que le sujet soit
observé durant la vague
Pour
les applications d'enquête, on utiliserait l'équation d'estimation où est le
poids de sondage du sujet Une
autre façon d'écrire cette équation est avec
Nous
constatons que les éléments de la diagonale de sont
simplement égaux aux poids de sondage propres à la vague non corrigés de la
non-réponse quand le sujet est observé et sont égaux à zéro quand le sujet est
manquant. Cette caractéristique suggère en soi une solution au problème des
cohortes multiples, qui sera présentée à la section suivante.
3.2 Une nouvelle approche pour combiner les cohortes dans les enquêtes longitudinales
Compte
tenu de la discussion de la section précédente, si nous avons une enquête à
panel fixe, à panel fixe plus des « unités nouvelles », à panel
répété, à panel rotatif, à panel divisé ou à renouvellement de l'échantillon,
nous proposons d'estimer le paramètre de superpopulation dans le
modèle par la
solution des équations d'estimation :
(3.2)
où
la sommation est faite sur l'échantillon c'est-à-dire sur les éléments sélectionnés
(pour la première fois) dans l'un des échantillons La
matrice diagonale est où est le
poids transversal (corrigé pour la non-réponse) pour le sujet à la
vague (à
condition que le sujet fasse
partie de l'échantillon ) et est
l'indicateur signalant si le sujet appartient ou non à la population finie . À la section 3.2.1, nous présentons des
arguments justifiant qu'il s'agit d'une procédure d'estimation raisonnable, et
à la section 3.2.2, nous discutons du problème des valeurs manquantes.
Les
poids transversaux dans sont
tels que l'échantillon représente lorsqu'il est utilisé avec lesdits poids. Cela
signifie que, pour chaque observation dans
l'échantillon il
existe un poids de sondage qui
pourrait être considéré comme le nombre d'unités que cette observation
représente dans Cependant, rappelons que l'échantillon est
composé de différents ensembles de sujets, ou différents sous-échantillons (les
différentes cohortes), et que l'intégration de ces sous-échantillons en une
variable de pondération transversale unique n'est
pas forcément une tâche facile.
Pour la
SDR, la construction d'un poids transversal pour la vague n'est
pas trop compliquée, parce que les diverses cohortes sont sélectionnées
indépendamment les unes des autres, à partir de populations non chevauchantes.
Dans ces conditions, le poids de base est facile à calculer, et tout ce qu'il
reste à faire est la conversion pour tenir compte d'aspects tels que
l'attrition et le calage sur des totaux connus de la population
Par
ailleurs, dans d'autres situations, par exemple lorsqu'il n'existe pas de liste
des nouveaux membres, la nouvelle
cohorte doit parfois être sélectionnée dans la population globale au moment de
la vague en question, ou en se servant d'une base de sondage contenant les
nouveaux membres plus certains anciens membres, ou à partir de bases de
sondage multiples. Le cas échéant, la construction de poids transversaux n'est
pas nécessairement simple, et la théorie des bases de sondage multiples peut
devoir être appliquée. Nous renvoyons le lecteur aux travaux de Lohr (2007) et
de Rao et Wu (2010), ainsi qu'aux références mentionnées dans ces articles,
pour les cas de ce genre.
L'expression
(3.2) est une généralisation de l'équation (2.25) donnée dans Vieira
(2009). Cette dernière n'est applicable que si le nombre d'observations est le
même pour tous les sujets ou que toute réponse manquante peut être considérée
comme manquant entièrement au hasard ou MCAR (pour missing completely at random) (voir Rubin 1976). Comme il est
discuté dans Robins et coll. (1995), l'utilisation d'une telle équation
lorsque les réponses manquantes ne sont pas de type MCAR produit des
estimateurs non convergents; par conséquent, sous un schéma de rotation tel que
celui de la SDR, où les sujets ne sont pas tous supprimés (ou gardés) avec les
mêmes probabilités, son utilisation ne serait pas appropriée. La question de
l'adéquation de l'équation (3.2) dans ce cas et quand des réponses
manquent est abordée aux sections 3.2.1 et 3.2.2, respectivement. Si tous les
sujets possèdent des poids transversaux qui ne varient pas au cours du temps
(ou qu'ils possèdent un seul poids longitudinal), l'équation (3.2) se réduit à
l'équation (2.25) donnée dans Vieira (2009).
3.2.1 Absence de biais
La
propriété d'absence de biais de la fonction d'estimation est importante, parce
que, comme le soutient Song (2007, section 5.4), il s'agit de l'hypothèse la
plus cruciale en vue d'obtenir un estimateur convergent.
Définissons
ledit
« estimateur par recensement », comme étant la solution de l'équation
d'estimation en population finie suivante :
(3.3)
où
la somme est calculée sur c'est-à-dire sur tous les éléments qui sont
devenus membres de la population cible dans l'une des et Afin de
montrer l'absence de biais sous le plan de la fonction d'estimation nous
devons montrer que son espérance sous le plan est pour
tout
Les
caractéristiques du plan d'échantillonnage d'une enquête longitudinale peuvent
être vues comme celles d'un échantillon à plusieurs phases tel que l'ont montré
Särndal, Swensson et Wretman (1992, section 9.9). Par conséquent, nous
utilisons la méthodologie d'échantillonnage à plusieurs phases pour les
calculs. Nous supposons, sans perte de généralité, que l'enquête ne comprend
que trois vagues; les calculs pour trois vagues seulement montrent les
tendances pour général,
en ce qui concerne l'absence de biais et la variance.
Comme
nous l'avons mentionné plus haut, nous supposons que est le
poids transversal pour le sujet à la
vague si ce
sujet appartient à et zéro
autrement. Partant de la théorie de l'échantillonnage à plusieurs phases, nous
avons que, pour et pour et et pour où est la
probabilité d'inclusion du sujet dans
l'échantillon et est la
probabilité d'inclusion conditionnelle du sujet dans
l'échantillon sachant
En
utilisant pour
désigner l'espérance par rapport au plan d'échantillonnage, nous avons :
(3.4)
où
et Par
exemple, pour nous
obtenons :
(3.5)
où
et similairement, nous pouvons montrer que et De ces
expressions et de l'équation (3.4), nous concluons que pour
tout ce qui
signifie que la fonction d'estimation est sans
biais sous le plan pour la fonction d'estimation en population finie.
En
outre, comme la cible de l'inférence est le paramètre de superpopulation, nous
devons garantir que le modèle pour est tel
que l'expression est
satisfaite, où représente l'espérance sous le modèle car, si
cela est le cas, nous avons :
de
sorte que la fonction d'estimation est sans
biais par rapport au modèle et au plan. La contrainte signifie
que le modèle de la moyenne doit être spécifié correctement; par conséquent, il
faut faire attention aux tests diagnostiques sur les résidus pour le modèle particulier
qui est ajusté.
3.2.2 Une remarque concernant la non-réponse
Dans le
cas de la SDR, comme dans celui de toute autre enquête (longitudinale), il y a
de la non-réponse. Certains sujets échantillonnés choisissent de ne pas
participer du tout, tandis que certains participent à certaines vagues, mais
pas à d'autres. Dans le cas de la SDR, pour remédier à cette situation, les
poids de sondage transversaux sont corrigés pour tenir compte de la
non-réponse.
Supposons
que la correction pour la non-réponse à la vague est une
multiplication par l'inverse de la probabilité estimée de réponse à la vague Par
exemple, le poids corrigé de la non-réponse pour une personne qui a répondu à la vague 3 (et qui
avait été sélectionnée initialement à la vague 2), c'est-à-dire pour serait
Nous
devons redéfinir l'équation d'estimation afin d'inclure uniquement les
répondants comme étant où la
somme est calculée sur l'ensemble des répondants c'est-à-dire sur tous les éléments qui
appartenaient pour la première fois à n'importe lequel des ensembles de
répondants et la
matrice est En
outre, désignons par l'ensemble de répondants de la cohorte à la
vague Manifestement, si
Si, de
surcroît, on peut supposer que le mécanisme de réponse est de
type MAR, nous avons alors, par exemple pour
(3.6)
où
et La
troisième égalité dans (3.6) requiert que le modèle de non-réponse utilisé pour
satisfasse Cela
signifie que, dans le modèle pour nous
devons inclure le plus possible d'information possible considérée comme ayant
une influence sur la propension à répondre, pour que cette hypothèse
(c'est-à-dire l'hypothèse MAR) tienne. Par exemple, si l'on pense que la
non-réponse est indépendante d'une vague à l'autre, on doit inclure dans le
modèle pour autant
de variables que possible provenant de la vague correspondante. Si, par ailleurs,
il est raisonnable de supposer que la propension à répondre à une vague donnée
dépend des réponses précédentes (et éventuellement de l'historique des
réponses), ces réponses doivent être incluses dans le modèle de réponse, et
ainsi de suite.
L'absence
de biais par rapport au plan ainsi que l'absence de biais par rapport au modèle
et au plan découle directement de (3.6) ainsi que de la section précédente. Par
conséquent, dans la suite de l'exposé, nous ignorons la question de la
non-réponse pour simplifier la notation.
3.3 Variance et estimation de la variance
Nous
développons maintenant une linéarisation (développement en série de Taylor)
pour la variance de l'estimateur proposé. La technique de base a été élaborée
par Binder (1983). Pour simplifier les calculs et la notation, nous divisons
tous les termes par nous
redéfinissons
et
où
Soit notre
estimateur, qui satisfait et soit l'« estimateur par recensement »,
qui satisfait Supposons que et avec et Nous
pouvons écrire l'erreur totale de sous la
forme erreur d'échantillonnage + erreur du modèle. Après certains calculs
simples, la variance totale, ou plus précisément l'EQM totale, peut être
décomposée comme il suit :
(3.7)
où
pour
toute matrice est la
composante de « variance d'échantillonnage », est la
composante croisée « variance d'échantillonnage-modèle », et En
outre, par développements en série de Taylor, nous pouvons obtenir les
approximations suivantes : et où nous
définissons et
Nous
obtenons alors, pour et dans
(3.7),
(3.8)
(3.9)
où
et la
dérivation de l'expression (3.9) est donnée en annexe.
En
conclusion, jusqu'à présent, nous avons trouvé que :
(3.10)
Dans
(3.10), tous les termes peuvent être estimés en « insérant »
l'estimation sauf
pour le terme celui-ci
est le sujet de la section suivante.
Si la
fraction d'échantillonnage est faible, c'est-à-dire que le
premier terme de l'expression (3.10) est une bonne approximation de la
variance totale; autrement, l'expression pour est
simplement (et les
termes d'ordre inférieur). Si, au contraire, la fraction d'échantillonnage est
grande, les deux termes de (3.10) sont requis.
3.3.1 Variance sous le plan de la fonction d'estimation
Afin
d'obtenir une expression pour nous supposons
que comme
auparavant. La méthodologie est celle de l'échantillonnage à deux phases (plus
précisément, l'échantillonnage a plusieurs phases), comme il est discuté au
chapitre 9 de Särndal et coll. (1992). Après certains calculs (voir
l'annexe), et en définissant et nous
obtenons :
(3.11)
où pour
et,
en annexe, nous montrons que :
pour
et De
manière générale, nous avons prouvé ce qui suit.
Propriété
3.1 La variance (sous le plan) de peut
être décomposée en :
(3.12)
(3.13)
où
nous posons que quand et pour
obtenir (3.13), nous avons changé les variable et utilisé la propriété
d'indépendance entre les cohortes.
Dans
(3.11), (3.12) et (3.13), nous avons supposé que les cohortes sont
indépendantes sous le plan. Cependant, dans certains cas, cette hypothèse ne
tient pas; un exemple est celui d'une base de sondage multiple dont nous avons
discuté dans la première partie de la section 3.2. Une autre situation
dans laquelle il pourrait ne pas être approprié de supposer que les cohortes
sont indépendantes est celle où les ajustements de pondération recoupent les
cohortes, ce qui est le cas de la SDR; nous discutons de ce problème à la
section 5. Les calculs pour le cas des trois cohortes, fournis en annexe,
montrent que l'équation (3.13) est vérifiée pour les termes de variance, même
sans indépendance. Nous précisons aussi dans l'annexe les conditions sous
lesquelles il s'agit d'une bonne approximation pour les termes de covariance.
3.3.2 Estimation
L'estimation
de dans
(3.10) peut être effectuée comme il suit. et peuvent
être estimés par peut
être estimé par où peut
être estimé par
Nous
utilisons (3.13) dans la propriété 3.1 pour estimer À
condition qu'il existe une méthode pour estimer la variance des estimateurs
(transversaux) de Horvitz-Thompson (H-T), l'expression (3.13) peut être
utilisée. Si nous définissons nous
constatons que chaque terme intervenant dans le calcul de (3.13) tel que est
simplement la variance d'un estimateur H-T de la vague De toute
évidence, la méthode d'estimation de la variance doit prendre en considération
à la fois le plan d'échantillonnage et toute correction pour tenir compte de la
non-réponse et du calage, mais cela ne présente aucune difficulté de plus que
celle posée par tout problème transversal, car tous les éléments sont appliqués
transversalement. Dans le cas de la SDR, les variances des estimateurs
transversaux sont estimées par rééchantillonnage, mais toute méthode
d'estimation de la variance sous le plan peut être utilisée.
Nous
utilisons les poids de rééchantillonnage transversaux fournis par le programme
de la SDR, mais nous ne réestimons pas le paramètre d'intérêt pour chaque
réplique. Premièrement, notons que nous ne devons effectuer le
rééchantillonnage que pour l'estimation de la « partie
substantielle » de la
variance sous le plan Deuxièmement, bien que ne
figure pas dans l'expression de l'estimateur H-T dont la variance doit être
calculée (et recalculée à chaque réplique), les travaux de Roberts, Binder, Kova�ević, Pantel et Phillips (2003), qui
appliquent la méthode du « bootstrap de la fonction d'estimation »
(Hu et Kalbfleisch 2000) à des données d'enquête, montrent que dans des
conditions telles que les nôtres, il n'est pas nécessaire de recalculer
l'estimateur à chaque réplique, mais que l'estimateur sur l'échantillon complet
suffit. Cette simplification accélère le calcul des estimations répétées.
En
guise d'illustration, disons que nous en sommes à la vague c'est-à-dire que nous estimons le terme
dans (3.13). La réplique
du premier terme est où est le poids de
rééchantillonnage pour le sujet à la
vague et la réplique
du deuxième terme est où est le poids de
rééchantillonnage pour le sujet à la
vague
Précédent | Suivant