3. Estimation par la régression modifiée pour bases de sondage évolutives
John Preston
Précédent | Suivant
Les estimateurs RM peuvent être
étendus au cas des bases de sondage évolutives par ajout des « nouvelles
unités » à la population de la période précédente et par ajout des
« unités disparues » à la population de la période courante pour
créer une « pseudo-population » (diagramme 3.1). Ces
« pseudo-populations » satisferont à l'exigence que les unités de la
population ne changent pas entre la période précédente et la période courante.
L'extension de l'estimateur RM pour tenir compte des bases de sondage
évolutives est décrite en détail ci-après.
Considérons une population dynamique qui
évolue au cours du temps en raison de l'ajout des « nouvelles
unités » et de la suppression des « unités disparues ». À la
période
l'union de
et
peut être subdivisée en trois composantes. La
première composante comprend les unités de la population présentes dans la
strate
à la période
mais non à la période
c'est-à-dire la population d'« unités
disparues »
de la strate
constituée de
unités. La deuxième composante comprend les
unités présentes dans la population de la strate
à la période
et à la période
c'est-à-dire la population
« commune »
de la strate
constituée de
unités. La troisième composante comprend les
unités présentes dans la population de la strate
à la période
mais non à la période
c'est-à-dire la population de « nouvelles
unités »
de la strate
constituée de
unités. Les unités de la population qui
changent de strate entre les périodes
et
sont incluses dans la population
d'« unités disparues »
sous leur strate à la période
et sont également incluses dans la population
de « nouvelles unités »
sous leur strate à la période
Diagramme 3.1 Populations et échantillons standard et pseudo-populations et échantillons
Description du diagramme 3.1
À la période
définissons la « pseudo-population »
dans la strate
comme étant l'union de
et
constituée de
unités. Il est important de noter que la
« pseudo-population »
à la période
diffère de la « pseudo-population »
à la période
car la « pseudo-population »
à la période
est fondée sur l'union de
et
tandis que la « pseudo-population »
à la période
est fondée sur l'union de
et
Donc, les « pseudo-populations »
pour les périodes courante et précédente doivent être calculées à chaque
période. Définissons les « pseudo-valeurs » de la variable d'intérêt
pour l'unité
à la période
et à la période
comme étant :
et
définissons les « pseudo-valeurs » des variables auxiliaires
pour
l'unité
à la
période
et à la
période
comme
étant :
À la période
notons que
et
sont les « pseudo-échantillons »
dans la strate
où
est constitué de toutes les unités
sélectionnées dans l'échantillon original
dans la strate
à la période
plus un échantillon aléatoire d'unités
provenant de la population de « nouvelles
unités »
dans la strate
à la période
sélectionnées avec les probabilités
d'inclusion
et
est constitué de toutes les unités
sélectionnées dans l'échantillon original
dans la strate
à la période
plus un échantillon aléatoire d'unités
provenant de la population d'« unités
disparues »
dans la strate
à la période
sélectionnées avec les probabilités
d'inclusion
Soient
et
les tailles des
« pseudo-échantillons »
et
, respectivement.
De nouveau, il est important de noter que le « pseudo-échantillon »
à la période
diffère du « pseudo-échantillon »
à la période
car le « pseudo-échantillon »
à la période
comprend un échantillon aléatoire d'unités
provenant de la population de « nouvelles unités » à la période
tandis que le « pseudo-échantillon »
à la période
comprend un échantillon aléatoire d'unités
provenant de la population d'« unités disparues » à la période
Donc, les « pseudo-échantillons »
pour les périodes courante et précédente doivent être calculés à chaque
période.
Le choix d'une méthode appropriée de
sélection de l'échantillon, pour la sélection des échantillons aléatoires
supplémentaires d'unités tirées des populations de « nouvelles
unités » et d'« unités disparues », dépendra de la méthode de
sélection de l'échantillon utilisée pour sélectionner les échantillons
originaux. Dans le cas de nombreuses enquêtes-entreprises répétées, les
échantillons sont sélectionnés en utilisant une méthode de sélection par
attribution de nombres aléatoires permanents (NAP) afin de pouvoir exercer un
certain contrôle sur le roulement des unités qui entrent dans l'échantillon et
qui en sortent d'une période à la suivante. Considérons le cas le plus simple où les échantillons originaux
et
dans la strate
décrits par
et
où
et
sont les points de début et de fin de
l'intervalle de sélection dans la strate
à la période
et
est le nombre aléatoire permanent attribué à
l'unité
Dans ce cas, les
« pseudo-échantillons »
et
dans la strate
sont décrits par
et
Cette méthode de sélection donnera une même
quantité de chevauchement entre les échantillons provenant de la population
d'« unités disparues » aux périodes
et
et entre les échantillons provenant de la
population de « nouvelles unités » aux périodes
et
qu'entre les échantillons
provenant de la population « commune » aux périodes
et
Manifestement, la quantité de chevauchements des
échantillons provenant des populations d'« unités disparues » et de
« nouvelles unités » aura une incidence sur le comportement des
estimations, et l'optimisation de la quantité de chevauchements pourrait être
étudiée.
Soit les « pseudo-poids de
sondage »
pour toutes les unités du
« pseudo-échantillon »
et
pour toutes les unités du
« pseudo-échantillon »
Puisque les « pseudo-poids de
sondage » pour les unités échantillonnées originales sont égaux aux poids
de sondage originaux et les « pseudo-valeurs » de la variable
d'intérêt sont égales à zéro pour les unités échantillonnées additionnelles
provenant des populations de « nouvelles unités » et d'« unités
disparues », l'estimateur HT
basé sur le « pseudo-échantillon »,
les « pseudo-valeurs » et les « pseudo-poids de sondage »
est équivalent à l'estimateur HT
basé sur l'échantillon original, les valeurs
originales et les poids de sondage originaux. D'où, l'inclusion de ces unités
échantillonnées additionnelles dans le « pseudo-échantillon »
provenant des populations de « nouvelles unités » et d'« unités
disparues » n'introduira aucune variabilité supplémentaire dans les
estimations ponctuelles.
L'estimateur RM proposé pour le cas
particulier des bases de sondage évolutives peut s'écrire sous la forme :
où
et
est le
« pseudo-poids
» pour l'unité
à la
période
donné
par :
et
les valeurs RM1, RM2 et RMP pour les « pseudo-variables auxiliaires
composites » sont données par :
où
est un
facteur de correction appliqué aux valeurs RM1, RM2 et RMP pour tenir compte de
la variation relative de la taille de la population dans la strate
entre la
période
et la
période
Les
autres ajustements des valeurs RM2 et RMP ont été effectués pour s'assurer que
l'estimateur HT pour les « pseudo-variables auxiliaires
composites »
à la
période
soit
sans biais pour les variables d'enquête clés correspondantes
à la
période
Une
simple preuve de l'absence de biais dans l'estimateur HT pour les
« pseudo-variables auxiliaires composites » est donnée à
l'annexe.
L'estimateur HT
est équivalent à
puisque les « pseudo-valeurs » pour
la variable d'intérêt sont égales à zéro pour les unités échantillonnées
additionnelles provenant des populations de « nouvelles unités » et
d'« unités disparues ». De même, l'estimateur RG
est équivalent à
puisque les « pseudo-valeurs » pour
la variable d'intérêt et les variables auxiliaires sont égales à zéro pour les
unités échantillonnées additionnelles provenant des populations de
« nouvelles unités » et d'« unités disparues ». Cependant,
l'estimateur RM
n'est pas équivalent à
puisque les « pseudo-valeurs » pour
les variables auxiliaires composites ne sont pas égales à zéro pour les unités
échantillonnées additionnelles provenant des populations de « nouvelles
unités » et d'« unités disparues ».
La procédure proposée d'ajout des
« nouvelles unités » à la population de la période précédente et d'ajout
des « unités disparues » à la population de la période courante est
exécutée indépendamment à chaque période, de sorte qu'il n'y a pas
d'accumulation de « nouvelles unités » et d'« unités
disparues » dans la « pseudo-population » au cours du temps.
Précédent | Suivant