1. Introduction
Jan Kowalski et Jacek Wesołowski
Précédent | Suivant
Les bureaux de la statistique et d’autres
institutions utilisent fréquemment des enquêtes répétées avec renouvellement
des éléments dans les échantillons. Le renouvellement préconçu de (groupes d’) éléments
selon une forme de schéma en cascade, c’est-à-dire des scénarios où, à chaque
édition de l’enquête, l’élément (le groupe d’éléments) « le plus
ancien » quitte l’échantillon et est remplacé par un nouveau, est
également d’usage très répandu, mais souvent, l’information que contiennent les
données d’enquête n’est pas pleinement exploitée. Cela, à son tour, entraîne la
construction d’estimateurs sous-optimaux dont la variance est plus grande que
le minimum réalisable. Afin d’accroître l’utilisation d’estimateurs optimaux dans
les scénarios de renouvellement, dans un article fondamental, Patterson (1950) a introduit la notion de récurrence
pour calculer les meilleurs estimateurs linéaires sans biais (BLUE) de la
moyenne à chaque édition de l’enquête. Les principales hypothèses étaient que
les moyennes de population inconnues sont déterministes et que les réponses sont
des variables aléatoires dont la variance et la structure de corrélation sont
entièrement connues. Sous corrélation exponentielle et en supposant en outre que
tout élément qui quitte l’échantillon n’y revient pas, Patterson a prouvé que, pour toute édition
de l’enquête, l’estimateur
BLUE
de la moyenne courante
au temps
(basé sur toutes les observations passées) peut
être calculé à partir de la récurrence en une étape suivante :
où
est le vecteur des observations au temps
Les formules pour les coefficients de
récurrence, c’est-à-dire les nombres
et les vecteurs
étaient donnés dans cet article également.
(Ici et tout au long de l’exposé, un vecteur, disons
s’entend d’une colonne, et
est sa transposée. Pour deux vecteurs
l’expression
est simplement le produit scalaire de
et
L’hypothèse de Patterson selon laquelle une unité qui quitte un échantillon ne
revient jamais dans l’enquête était au cœur de son approche. Si
cette hypothèse est violée (c’est-à-dire, s’il existe des intervalles dans le schéma
de renouvellement), on sait depuis des années que de sérieuses difficultés se
posent si l’on cherche un analogue de la récurrence (1.1). Sachant cela (voir, par exemple,
Yansaneh et Fuller 1998), les chercheurs
ont plutôt essayé des approches de rechange : l’estimateur composite
classique a été proposé par Hansen et coll. (1955). Ses propriétés d’optimalité
ont été développées dans Rao et Graham
(1964) et, plus récemment, dans Ciepiela,
Gniado, Wesołowski et Wojtyś (2012). La principale différence est que, au lieu de rechercher la
récurrence pour l’estimateur BLUE, ces auteurs restreignent le problème d’optimalité
aux estimateurs linéaires sans biais satisfaisant juste la récurrence d’ordre
un, c’est-à-dire qu’ils minimisent la variance de l’estimateur basée sur l’estimateur
le plus récent et les observations provenant des deux dernières éditions de
l’enquête seulement. Des ajustements, appelés estimateurs composites
introduits dans Gurney et Daly (1965), ont été élaborés, par exemple,
dans Cantwell (1988, 1990) et dans Cantwell et Caldwell (1998)
en fait dans ces articles, les auteurs introduisent la notion de
plan équilibré à plusieurs niveaux, et un plan à un niveau correspond au schéma
en cascade que nous considérons ici. Une autre approche basée sur l’estimateur
par régression composite a été examinée dans Bell
(2001), Fuller et Rao (2001), ainsi que Singh, Kennedy et Wu (2001) (avec
des implications pour l’Enquête sur la population active du Canada).
La difficulté que pose l’estimation récursive
dans le cas d’enquêtes répétées pour des schémas avec intervalles était
soulignée dans Yansaneh et Fuller (1998),
qui ont analysé les variances des estimateurs composites sous plusieurs scénarios
de renouvellement de l’échantillon. Pour une description relativement à jour de
l’état de l’art en la matière, le lecteur peut consulter Steel et McLaren (2008), en particulier la section IV
sur les différents schémas de renouvellement et la section V sur les estimateurs
composites. Des comparaisons de l’efficacité sous différents schémas en cascade
figurent dans McLaren et Steel (2000) et dans
Steel et McLaren (2002). Un article très récent sur l’estimation
optimale sous renouvellement de l’échantillon est celui de Towhidi et Namazi-Rad (2010). Certains des
articles susmentionnés traitent aussi de l’approche par série chronologique (qui
n’est pas examinée dans le présent article) dans laquelle les moyennes
inconnues sont traitées comme des quantités aléatoires
un aperçu de cette approche est donné dans Binder et Hidiroglou (1988). Pour un
développement plus récent de cette approche, voir, par exemple, Lind (2005).
Quant à l’approche originale de Patterson, le résultat suivant concernant la
forme récursive de l’estimateur BLUE a été présenté dans Kowalski (2009), où des intervalles uniques dans le schéma de renouvellement étaient
permis. Comme dans Patterson (1950), cet
article était consacré à la situation « classique » dans laquelle les
coefficients de l’équation (1.2) présentée plus bas peuvent dépendre de
Trois conclusions découlant de ces travaux ont
une incidence sur le présent article. Premièrement, il était suggéré que la formule (1.1)
pouvait être généralisée à un scénario de renouvellement arbitraire (comprenant
des intervalles) en intégrant les estimateurs optimaux et les observations provenant
d’un nombre probablement plus grand (mais encore aussi petit que possible) d’éditions
antérieures de l’enquête et que l’ordre de la récurrence devrait dépendre de la
taille de l’intervalle le plus grand. Deuxièmement, il était observé que la corrélation
exponentielle, telle que supposée dans Patterson
(1950), est essentielle à l’obtention de la représentation récursive et qu’il
est plausible de se limiter à la classe des schémas « en cascade ». Ces
hypothèses sont toutes deux retenues plus bas. Enfin, puisque selon les simulations
numériques, les coefficients de récurrence semblent être rapidement convergents
quand
il a été proposé de considérer
le cas « limite » de la configuration « classique », dans
lequel les coefficients de récurrence ne varient pas au cours du temps.
Nous insistons sur le fait que, dans le
présent article, n’importe quel ensemble d’intervalles est permis dans le schéma de
renouvellement en cascade. L’objectif est de montrer que la récurrence
est vérifiée pour tout schéma de
renouvellement en cascade et de trouver l’ordre de la récurrence
les coefficients numériques
et les coefficients vectoriels
Soulignons que la représentation
(1.2) est « stationnaire » en ce sens que ni l’ordre de la récurrence
ni les coefficients de
récurrence
et
ne dépendent de
Notre résultat principal est la
réduction du problème de récurrence à l’analyse d’un certain polynôme
(de degré
où
est la taille de l’intervalle
le plus grand dans le schéma de renouvellement) et à la question de l’obtention
d’une solution unique pour un certain système linéaire d’équations, qui dépend des
racines de
Heureusement, il se fait que
le polynôme
s’exprime de façon pratique au
moyen de polynômes de Tchebychev de la première espèce. Nous fournissons une condition
suffisante en ce qui concerne les propriétés de localisation des racines de
pour l’existence de la forme récursive
de l’estimateur BLUE d’ordre
donnée en (1.2), et dérivons
des formules explicites (exploitant les racines de
pour les coefficients de
récurrence
et
Les formes des coefficients dépendent
aussi de la solution unique du système linéaire susmentionné. Les résultats
sont illustrés au moyen de plusieurs exemples tirés d’enquêtes réelles.
La convergence des coefficients de
récurrence que nous avons observée numériquement dans de nombreux schémas
« classiques » (c’est-à-dire, avec les coefficients dans l’expression
analogue de (1.2) dépendant de
de complexités diverses indique
que la solution d’un tel problème de récurrence « stationnaire » devrait
être universelle (en fait, cette convergence n’est prouvée formellement que
dans le cas de Patterson,
S’il en est ainsi, elle peut
être traitée comme une solution approximative pour le scénario
« classique ». Comme le lecteur le constatera, cette intuition est
largement confirmée dans le présent article. Notre résultat principal n’est
toujours pas universel, même dans les modèles avec corrélation exponentielle. Notre
approche s’appuie fortement sur deux hypothèses (HYPOTHÈSE I et HYPOTHÈSE II
ci-dessous) qui nous permettent d’affirmer que la récurrence (1.2) est vérifiée.
Néanmoins, nous avons exécuté de nombreuses expériences numériques pour différents
schémas de renouvellement et différentes valeurs de la corrélation qui, toutes,
laissent entendre que ces hypothèses peuvent toutes deux être universellement
satisfaites. Malheureusement, à l’heure actuelle, nous sommes incapables de
confirmer théoriquement ces observations.
Le plan de l’article est le suivant. À
la section 2, nous présentons en termes mathématiques notre modèle de
travail. À la section 3, nous présentons nos deux hypothèses de base et
formulons le résultat principal de l’étude. La section 4 contient des exemples
d’applications du résultat principal à plusieurs scénarios de renouvellement
souvent utilisés. La section 5 présente une discussion. Le corps principal de l’exposé mathématique est reporté à la section 6. Dans la première partie, 6.1, nous examinons les propriétés algébriques
des opérateurs de translation. Elles sont essentielles à la preuve de la
formule de récurrence qui est donnée dans la deuxième partie, 6.2, de l’annexe.
Précédent | Suivant