Recherche par

1. Introduction

Jan Kowalski et Jacek Wesołowski

Les bureaux de la statistique et d’autres institutions utilisent fréquemment des enquêtes répétées avec renouvellement des éléments dans les échantillons. Le renouvellement préconçu de (groupes d’) éléments selon une forme de schéma en cascade, c’est-à-dire des scénarios où, à chaque édition de l’enquête, l’élément (le groupe d’éléments) « le plus ancien » quitte l’échantillon et est remplacé par un nouveau, est également d’usage très répandu, mais souvent, l’information que contiennent les données d’enquête n’est pas pleinement exploitée. Cela, à son tour, entraîne la construction d’estimateurs sous-optimaux dont la variance est plus grande que le minimum réalisable. Afin d’accroître l’utilisation d’estimateurs optimaux dans les scénarios de renouvellement, dans un article fondamental, Patterson (1950) a introduit la notion de récurrence pour calculer les meilleurs estimateurs linéaires sans biais (BLUE) de la moyenne à chaque édition de l’enquête. Les principales hypothèses étaient que les moyennes de population inconnues sont déterministes et que les réponses sont des variables aléatoires dont la variance et la structure de corrélation sont entièrement connues. Sous corrélation exponentielle et en supposant en outre que tout élément qui quitte l’échantillon n’y revient pas, Patterson a prouvé que, pour toute édition $t$ de l’enquête, l’estimateur BLUE ${\hat{μ}}_{t}$ de la moyenne courante $μ_{t}$ au temps $t$ (basé sur toutes les observations passées) peut être calculé à partir de la récurrence en une étape suivante :

${\hat{μ}}_{t} = a_{1} (t) {\hat{μ}}_{t - 1} + {\underline{r}}_{0}^{T} (t) {\underline{X}}_{t} + {\underline{r}}_{1}^{T} (t) {\underline{X}}_{t - 1} (1.1)$

où ${\underline{X}}_{i}$ est le vecteur des observations au temps $i = t, t - 1.$ Les formules pour les coefficients de récurrence, c’est-à-dire les nombres $a_{1} (t)$ et les vecteurs ${\underline{r}}_{0} (t), {\underline{r}}_{1} (t),$ étaient donnés dans cet article également. (Ici et tout au long de l’exposé, un vecteur, disons $\underline{r},$ s’entend d’une colonne, et ${\underline{r}}^{T}$ est sa transposée. Pour deux vecteurs $\underline{r} = (r_{1}, \dots, r_{n}), \underline{w} = (w_{1}, \dots, w_{n}) \in ℝ^{n},$ l’expression ${\underline{r}}^{T} \underline{w} = \sum_{i = 1}^{n} r_{i} w_{i}$ est simplement le produit scalaire de $\underline{r}$ et $\underline{w} .)$

L’hypothèse de Patterson selon laquelle une unité qui quitte un échantillon ne revient jamais dans l’enquête était au cœur de son approche. Si cette hypothèse est violée (c’est-à-dire, s’il existe des intervalles dans le schéma de renouvellement), on sait depuis des années que de sérieuses difficultés se posent si l’on cherche un analogue de la récurrence (1.1). Sachant cela (voir, par exemple, Yansaneh et Fuller 1998), les chercheurs ont plutôt essayé des approches de rechange : l’estimateur composite $K$ classique a été proposé par Hansen et coll. (1955). Ses propriétés d’optimalité ont été développées dans Rao et Graham (1964) et, plus récemment, dans Ciepiela, Gniado, Wesołowski et Wojtyś (2012). La principale différence est que, au lieu de rechercher la récurrence pour l’estimateur BLUE, ces auteurs restreignent le problème d’optimalité aux estimateurs linéaires sans biais satisfaisant juste la récurrence d’ordre un, c’est-à-dire qu’ils minimisent la variance de l’estimateur basée sur l’estimateur le plus récent et les observations provenant des deux dernières éditions de l’enquête seulement. Des ajustements, appelés estimateurs composites $A K,$ introduits dans Gurney et Daly (1965), ont été élaborés, par exemple, dans Cantwell (1988, 1990) et dans Cantwell et Caldwell (1998) $-$ en fait dans ces articles, les auteurs introduisent la notion de plan équilibré à plusieurs niveaux, et un plan à un niveau correspond au schéma en cascade que nous considérons ici. Une autre approche basée sur l’estimateur par régression composite a été examinée dans Bell (2001), Fuller et Rao (2001), ainsi que Singh, Kennedy et Wu (2001) (avec des implications pour l’Enquête sur la population active du Canada).

La difficulté que pose l’estimation récursive dans le cas d’enquêtes répétées pour des schémas avec intervalles était soulignée dans Yansaneh et Fuller (1998), qui ont analysé les variances des estimateurs composites sous plusieurs scénarios de renouvellement de l’échantillon. Pour une description relativement à jour de l’état de l’art en la matière, le lecteur peut consulter Steel et McLaren (2008), en particulier la section IV sur les différents schémas de renouvellement et la section V sur les estimateurs composites. Des comparaisons de l’efficacité sous différents schémas en cascade figurent dans McLaren et Steel (2000) et dans Steel et McLaren (2002). Un article très récent sur l’estimation optimale sous renouvellement de l’échantillon est celui de Towhidi et Namazi-Rad (2010). Certains des articles susmentionnés traitent aussi de l’approche par série chronologique (qui n’est pas examinée dans le présent article) dans laquelle les moyennes inconnues sont traitées comme des quantités aléatoires $-$ un aperçu de cette approche est donné dans Binder et Hidiroglou (1988). Pour un développement plus récent de cette approche, voir, par exemple, Lind (2005).

Quant à l’approche originale de Patterson, le résultat suivant concernant la forme récursive de l’estimateur BLUE a été présenté dans Kowalski (2009), où des intervalles uniques dans le schéma de renouvellement étaient permis. Comme dans Patterson (1950), cet article était consacré à la situation « classique » dans laquelle les coefficients de l’équation (1.2) présentée plus bas peuvent dépendre de $t .$ Trois conclusions découlant de ces travaux ont une incidence sur le présent article. Premièrement, il était suggéré que la formule (1.1) pouvait être généralisée à un scénario de renouvellement arbitraire (comprenant des intervalles) en intégrant les estimateurs optimaux et les observations provenant d’un nombre probablement plus grand (mais encore aussi petit que possible) d’éditions antérieures de l’enquête et que l’ordre de la récurrence devrait dépendre de la taille de l’intervalle le plus grand. Deuxièmement, il était observé que la corrélation exponentielle, telle que supposée dans Patterson (1950), est essentielle à l’obtention de la représentation récursive et qu’il est plausible de se limiter à la classe des schémas « en cascade ». Ces hypothèses sont toutes deux retenues plus bas. Enfin, puisque selon les simulations numériques, les coefficients de récurrence semblent être rapidement convergents quand $t \to \infty,$ il a été proposé de considérer le cas « limite » de la configuration « classique », dans lequel les coefficients de récurrence ne varient pas au cours du temps.

Nous insistons sur le fait que, dans le présent article, n’importe quel ensemble d’intervalles est permis dans le schéma de renouvellement en cascade. L’objectif est de montrer que la récurrence

${\hat{μ}}_{t} = a_{1} {\hat{μ}}_{t - 1} + \dots + a_{p} {\hat{μ}}_{t - p} + {\underline{r}}_{0}^{T} {\underline{X}}_{t} + {\underline{r}}_{1}^{T} {\underline{X}}_{t - 1} + \dots + {\underline{r}}_{p}^{T} {\underline{X}}_{t - p} (1.2)$

est vérifiée pour tout schéma de renouvellement en cascade et de trouver l’ordre de la récurrence $p,$ les coefficients numériques $a_{1}, \dots, a_{p}$ et les coefficients vectoriels ${\underline{r}}_{0}, \dots, {\underline{r}}_{p} .$ Soulignons que la représentation (1.2) est « stationnaire » en ce sens que ni l’ordre de la récurrence $p$ ni les coefficients de récurrence $(a_{i})$ et $({\underline{r}}_{i})$ ne dépendent de $t .$

Notre résultat principal est la réduction du problème de récurrence à l’analyse d’un certain polynôme $Q_{p}$ (de degré $p,$ où $p - 1$ est la taille de l’intervalle le plus grand dans le schéma de renouvellement) et à la question de l’obtention d’une solution unique pour un certain système linéaire d’équations, qui dépend des racines de $Q_{p} .$ Heureusement, il se fait que le polynôme $Q_{p}$ s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce. Nous fournissons une condition suffisante en ce qui concerne les propriétés de localisation des racines de $Q_{p}$ pour l’existence de la forme récursive de l’estimateur BLUE d’ordre $p,$ donnée en (1.2), et dérivons des formules explicites (exploitant les racines de $Q_{p})$ pour les coefficients de récurrence $(a_{i})$ et $({\underline{r}}_{i}) .$ Les formes des coefficients dépendent aussi de la solution unique du système linéaire susmentionné. Les résultats sont illustrés au moyen de plusieurs exemples tirés d’enquêtes réelles.

La convergence des coefficients de récurrence que nous avons observée numériquement dans de nombreux schémas « classiques » (c’est-à-dire, avec les coefficients dans l’expression analogue de (1.2) dépendant de $t)$ de complexités diverses indique que la solution d’un tel problème de récurrence « stationnaire » devrait être universelle (en fait, cette convergence n’est prouvée formellement que dans le cas de Patterson, $p = 1) .$ S’il en est ainsi, elle peut être traitée comme une solution approximative pour le scénario « classique ». Comme le lecteur le constatera, cette intuition est largement confirmée dans le présent article. Notre résultat principal n’est toujours pas universel, même dans les modèles avec corrélation exponentielle. Notre approche s’appuie fortement sur deux hypothèses (HYPOTHÈSE I et HYPOTHÈSE II ci-dessous) qui nous permettent d’affirmer que la récurrence (1.2) est vérifiée. Néanmoins, nous avons exécuté de nombreuses expériences numériques pour différents schémas de renouvellement et différentes valeurs de la corrélation qui, toutes, laissent entendre que ces hypothèses peuvent toutes deux être universellement satisfaites. Malheureusement, à l’heure actuelle, nous sommes incapables de confirmer théoriquement ces observations.

Le plan de l’article est le suivant. À la section 2, nous présentons en termes mathématiques notre modèle de travail. À la section 3, nous présentons nos deux hypothèses de base et formulons le résultat principal de l’étude. La section 4 contient des exemples d’applications du résultat principal à plusieurs scénarios de renouvellement souvent utilisés. La section 5 présente une discussion. Le corps principal de l’exposé mathématique est reporté à la section 6. Dans la première partie, 6.1, nous examinons les propriétés algébriques des opérateurs de translation. Elles sont essentielles à la preuve de la formule de récurrence qui est donnée dans la deuxième partie, 6.2, de l’annexe.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

1. Introduction