La modélisation espace-état appliquée aux séries chronologiques de l’Enquête sur la population active des Pays-Bas : sélection de modèles et estimation de l’erreur quadratique moyenne
Section 3. Modes d’estimation EQM
D’ordinaire, on ajuste les modèles structurels linéaires de séries
chronologiques ayant des composantes inobservées en appliquant le filtre de
Kalman à l’espace-état une fois formé à partir de ces composantes. On peut voir
dans Bollineni-Balabay, van den Brakel et Palm (2016b) quelle est la
représentation en espace-état du modèle SCS pour l’EPA. Le vecteur d’état
contient les variables d’état
définies à la section précédente, c’est-à-dire la tendance, la pente, les
harmoniques saisonnières, le BRE, le bruit blanc de population et les erreurs
d’enquête. Nous initialisons toutes les variables d’état non stationnaires en
prenant une distribution antérieure diffuse (à moyenne nulle et à très grande
variance). Les cinq composantes des erreurs d’enquête
et le bruit blanc de
population
sont des variables d’état
stationnaires initialisées avec des zéros. Nous tenons la variance initiale des
erreurs d’échantillonnage de la première vague pour égale à l’unité et nous
considérons que la variance des autres vagues correspond à
On pourrait même prendre une petite
valeur pour la variance initiale de
On extrait habituellement des estimations filtrées du vecteur d’état
et de sa matrice des
covariances
à l’aide du filtre de Kalman
(voir Harvey 1989). Ainsi,
contient les EQM extraites
par le filtre conditionnellement à l’information obtenue jusqu’au moment
inclusivement :
où
nous posons que
est la valeur réelle des hyperparamètres et où
l’espérance se prend sur la codistribution du vecteur d’état et des valeurs
au moment
Dans la pratique, le vecteur réel des
hyperparamètres est remplacé par son estimation
dans les récursions par filtre de Kalman. Dans
ce cas, l’EQM en (3.1) n’est plus l’EQM réelle. On la qualifie de « naïve »,
puisqu’elle ne tient pas compte de l’incertitude autour des estimations
L’EQM réelle devient ainsi :
ce
qui représente une valeur supérieure à la valeur EQM en (3.1) et peut se
décomposer comme la somme de l’incertitude du filtre et de l’incertitude des
paramètres dans une condition de normalité des termes d’erreur :
Le premier terme, l’incertitude du filtre, est ce qui est estimé par
les estimations EQM
par le filtre de Kalman. Il
faut aller plus loin pour estimer le deuxième terme, l’incertitude des paramètres.
Les études spécialisées consacrées à l’estimation EQM proposent deux grandes
méthodes, à savoir l’approximation asymptotique et le bootstrap. Le bootstrap
peut être paramétrique ou non paramétrique. Quelques observations s’imposent
ici au sujet de ces méthodes dans le contexte du modèle SCS appliqué à l’EPA.
Dans le cas du bootstrap paramétrique, les perturbations d’état,
disons, sont tirées de
coestimations de densité normale conditionnelle à plusieurs variables
étant évalué à l’estimation
des hyperparamètres. Ces
perturbations servent dans les récursions d’état par filtre de Kalman à
produire les variables d’état. Par ailleurs, le bootstrap non paramétrique a
pour avantage de ne dépendre d’aucune hypothèse particulière au sujet de cette
codistribution. Si dans le bootstrap paramétrique les perturbations d’état
viennent de l’estimation de leur distribution, dans le bootstrap non
paramétrique il y a rééchantillonnage avec remise dans un nouvel ensemble normalisé
en fonction des estimations initiales des hyperparamètres. Les nouveaux ensembles
normalisés qui sont rééchantillonnés servent en outre à produire des séries
bootstrap
par ce qu’on appelle la forme
d’innovation du filtre de Kalman (voir les détails dans Harvey 1989, ou
Bollineni-Balabay et coll. 2016b). Dans le modèle de l’EPA, les 13 premiers
points temporels d’un nouvel ensemble normalisé ne font pas l’objet d’un
rééchantillonnage et ils constituent ce qu’on appelle l’échantillon diffus
(c’est le temps dont on a besoin pour construire une distribution appropriée
pour les variables d’état non stationnaires; voir dans Koopman (1997)
l’initialisation de telles variables).
Si un modèle SCS compte des composantes non stationnaires comme dans
le modèle de l’EPA, les séries produites divergeront probablement de l’ensemble
de données au départ de l’application du bootstrap, c’est-à-dire de
Il nous faut donc recourir à
une procédure spéciale pour que les échantillons bootstrap soient mis en
correspondance avec la configuration de l’ensemble de données initial, ce qu’on
peut faire à l’aide d’un algorithme de lissage par simulation qui a été conçu
par Durbin et Koopman (2002). On trouvera les détails techniques sur cette
application dans Koopman et coll. (2008), chapitre 8.4.2. On n’a pas à
prévoir de corrections pour les erreurs d’enquête issues comme nous l’avons
décrit des récursions inconditionnelles d’état par le bootstrap paramétrique ou
non paramétrique, puisqu’il s’agit d’un bruit (en autocorrélation).
Dans les sections qui suivent, nous présenterons brièvement la
méthode asymptotique, ainsi que les applications bootstrap récentes de
Rodriguez et Ruiz (2012) (bootstrap RR) et de Pfeffermann et Tiller (2005)
(bootstrap PT).
3.1 Application bootstrap de Rodriguez et Ruiz
Rodriguez et Ruiz (2012) ont conçu leur méthode bootstrap
d’estimation EQM conditionnelle aux données, ce qui veut dire qu’on applique en
plus les hyperparamètres bootstrap à l’ensemble de données initial pour obtenir
des estimations bootstrap des variables d’état. Il peut s’agir d’un bootstrap
paramétrique ou non avec les étapes suivantes :
- On estime le modèle et obtient les estimations
des hyperparamètres.
- On produit un échantillon bootstrap
à l’aide de
par bootstrap paramétrique ou
non (voir l’introduction de cette section). Si le modèle est non stationnaire,
on se doit de corriger l’échantillon bootstrap par simulation de lissage.
- On se sert de l’ensemble bootstrap
pour obtenir tant les estimations paramétriques
d’autocorrélation des erreurs d’enquête
que les estimations bootstrap
de maximum de vraisemblance
On applique ensuite le filtre de Kalman à la
série initiale
et aux
nouvellement estimés, ce qui donne
et
- On reprend
fois les étapes 2 et 3, puis procède à
l’estimation EQM de la manière suivante :
- où
L’équation (3.3) est applicable aux estimations EQM par bootstrap
paramétrique et non paramétrique (nous emploierons dans ce cas les abréviations
EQMRR1 et EQMRR2 dans la suite du texte).
3.2 Application bootstrap de Pfeffermann et Tiller
La méthode bootstrap conçue par Pfeffermann et Tiller (2005) est un
bootstrap inconditionnel, c’est-à-dire que variables d’état bootstrap sont dérivées
de l’ensemble de données bootstrap
et non de l’ensemble de
données initial
comme dans Rodriguez et Ruiz
(2012). Pfeffermann et Tiller (2005) ont démontré que leur méthode approche l’EQM
réelle jusqu’à un ordre de
(Pfeffermann et Tiller
(2005), annexe C):
L’équation (3.4) est applicable aux estimateurs EQM par bootstrap
paramétrique ou non (nous emploierons dans ce cas les abréviations EQMPT1 et EQMPT2 dans la suite du texte). Le calcul EQM en (3.4) exige deux
exécutions du filtre de Kalman pour chaque série bootstrap. À la première
exécution,
est estimé à partir de
l’ensemble bootstrap
et des paramètres bootstrap
Dans cette exécution, on peut
aussi obtenir
par
puisque la matrice
ne dépend pas des données. Il
faut appliquer le filtre de Kalman une deuxième fois pour produire les
estimations d’état
en fonction de
et des estimations
tirées de l’ensemble initial.
La procédure se résume ainsi :
- Estimer le modèle à l’aide de l’ensemble de données initial
et obtenir les estimations
du vecteur des
hyperparamètres. Garder les estimations EQM « naïves »
pour une utilisation future en (3.4).
- Utiliser le bootstrap paramétrique ou non pour produire un
échantillon bootstrap
Apporter la correction par simulation
de lissage si le modèle est non stationnaire.
- Établir les estimations bootstrap
des hyperparamètres à partir de l’ensemble
bootstrap nouvellement produit. Appliquer le filtre de Kalman une première fois
pour obtenir
et
et une autre fois pour dégager
comme décrit en (3.4).
- Répéter
fois les étapes 2 et 3, puis procéder à
l’estimation EQM en (3.4).
Pfeffermann et Tiller (2005) signalent que, dans le cas du bootstrap
paramétrique, il est possible d’éviter le deuxième filtre de Kalman, parce que
le vecteur d’état réel est produit (et donc connu) pour chaque série bootstrap.
On peut donc remplacer les estimations d’état
en (3.4) par le vecteur réel
pour obtenir l’estimateur EQM
suivant :
Il y a un seul
du côté droit de (3.5), puisque le nouveau
terme
qui correspond au dernier
terme du côté droit de (3.5), peut lui-même se décomposer comme en (3.2) en une
mesure de l’incertitude des paramètres
et de l’incertitude du filtre
étant le vecteur réel des
paramètres par lequel on produit les variables d’état bootstrap
Toutefois, on aura peut-être
à prévoir beaucoup plus d’itérations bootstrap pour le terme moyen bootstrap
remplaçant
si on veut qu’il y ait
convergence. Ajoutons que cette méthode simplifiée peut créer plus de biais si
l’hypothèse de normalité n’est pas respectée au sujet des termes d’erreur du
modèle. Dans ce cas, la décomposition du terme
comme en (3.2) laissera aussi
un terme croisé non nul :
Dans cette application, les moyennes
bootstrap à terme croisé non nul se sont révélées négligeables, mais la moyenne
bootstrap
s’éloignait largement (dans
les deux sens) du terme qu’elle était censée remplacer, ce qu’expliquerait le
fait que l’EQM réelle par filtre de Kalman en (3.1) puisse être tirée de séries
en simulation si, dans sa distribution, le vecteur d’état est suffisamment
dispersé. Quand on met des modèles non stationnaires en bootstrap, les séries
bootstrap suivent forcément la configuration de la série initiale sous-jacente,
comme nous l’avons mentionné dans la description de l’algorithme de lissage par
simulation. Il se peut donc que le terme
qui remplace
en (3.5), n’en soit pas
suffisamment proche. C’est pourquoi le bootstrap paramétrique (PT1) ou non
(PT2) dans cette application dépend de l’estimateur en (3.4).
Disons quelques mots du rôle de la simulation de lissage de Durbin
et Koopman (2002) dont nous avons fait mention à la fin de l’introduction à la
présente section. Nous avons proposé de l’employer à l’étape de la production
des séries boostrap, sans quoi la distribution bootstrap des hyperparamètres
tirée de séries non corrigées pour un modèle non stationnaire pourrait être
fort différente de ce qu’elle devrait être pour une réalisation particulière
des données dont nous disposons. Dans le cas de l’EPA du moins, les
distributions bootstrap des hyperparamètres étaient bien plus diffuses sans la
simulation de lissage qu’avec celle-ci. De plus, les distributions bootstrap
des hyperparamètres qui viennent de séries non corrigées dans l’EPA sont
centrées sur des valeurs bien supérieures aux valeurs des hyperparamètres qui
ont servi à produire les séries. Le résultat est une moyenne bootstrap
extrêmement élevée
(par rapport à
et, par la suite, des
estimations EQM même inférieures aux estimations naïves. Il faut aussi dire que
le terme
devient très instable dans le
temps et prend des proportions excessives quand il n’y a pas de simulation de
lissage, ce qui ne compense pas le biais négatif en (3.4) sans la simulation de
lissage.
3.3 Approximation asymptotique
Hamilton (1986) a conçu une approximation asymptotique (AA) de l’EQM
réelle à l’équation (3.2). Cette approximation peut s’exprimer comme une
espérance sur la codistribution asymptotique des hyperparamètres
celle-ci étant conditionnelle
à l’ensemble de données initial
Dans la présente application,
la partie du vecteur des hyperparamètres qui est estimée par la méthode du
maximum de vraisemblance
dépend de la valeur estimée
du paramètre autorégressif
Ainsi, la codistribution
asymptotique de l’estimateur des hyperparamètres est de la forme
suivante :
L’EQM est ainsi approchée :
où
est une espérance prise sur la codistribution
asymptotique de l’estimateur des hyperparamètres
et où les
sont les estimations du vecteur d’état quand
les hyperparamètres ne sont pas connus
Dans ce cas, nous choisissons la distribution
comme la distribution
asymptotique
des
d’où sont tirées les
réalisations aléatoires
En général, la distribution
d’échantillonnage du coefficient de corrélation revêt une forme complexe, mais
elle peut fort bien être approchée par une distribution normale; tel était le
cas dans cette application (la distribution normale était un très bon
ajustement de la distribution en simulation et de la distribution bootstrap de
Si on prend l’équation (3)
dans Bartlett (1946) et qu’on considère que le coefficient autorégressif dans
un processus AR(1) est égal à la corrélation pour le décalage 1, l’estimateur
de variance de
devient
Dans le cas de l’EPA où
cela veut dire que
Comme l’erreur-type des
sert à tirer des réalisations
de la distribution asymptotique et que l’extraction de la racine carrée est une
fonction concave, l’écart-type de l’échantillon serait une sous-estimation. En
tirant donc
réalisations au moyen de
comme écart-type de la
distribution asymptotique, on ferait un choix raisonnable.
On obtient de la manière suivante un échantillon de
réalisations de la
distribution asymptotique des hyperparamètres. Après avoir tiré une valeur,
disons, de
nous réestimons les autres
hyperparamètres de l’ensemble de données initial pour obtenir
et la matrice d’information
Finalement, nous tirons une réalisation
de la distribution
Nous appliquons à nouveau le
filtre de Kalman avec les réalisations
et
pour obtenir les estimations
d’état
et leurs EQM
La procédure se répète
jusqu’à ce que
itérations
aient été effectuées, après
quoi nous dégageons (3.6) en prenant la moyenne des quantités nécessaires sur
itérations. Si tous les hyperparamètres
du modèle sont estimés par la méthode du maximum de vraisemblance,
itérations peuvent se faire
directement à partir de
On peut approcher le premier terme en (3.6) par la valeur moyenne de
la variance
par filtre de Kalman sur
réalisations du vecteur des
hyperparamètres. Le deuxième terme peut être approché par la variance des
estimations du vecteur d’état sur ces mêmes
itérations. Une approximation
asymptotique des EQM pourrait se dégager de la manière suivante :
où
est le résultat du
tirage à partir de la
distribution asymptotique
Comme le propose Hamilton (1986), la moyenne d’échantillon
peut remplacer
en (3.6). Cet auteur ajoute qu’une telle décomposition de l’incertitude du total en
une incertitude du filtre et une incertitude des paramètres ressemble à la
décomposition bien connue
Manifestement, cet estimateur EQM repose
entièrement sur l’hypothèse d’une normalité asymptotique de l’estimateur du
vecteur des hyperparamètres. De plus, cette application produit habituellement
des biais significatifs si les séries ne sont pas d’une longueur suffisante,
auquel cas la distribution asymptotique normale qui est posée ne pourrait
approcher la distribution finie (ordinairement asymétrique) des estimations de
maximum de vraisemblance.
Un autre problème est susceptible de se poser avec le traitement
asymptotique si on estime que les hyperparamètres sont proches de zéro, ce qui
peut advenir des estimations du modèle au départ ou pendant l’application de la
procédure même à cause de certaines réalisations extrêmes de
Dans ce cas, la variance
asymptotique de ces hyperparamètres sera très élevée, ce qui viendra gonfler
les estimations EQM du signal et de ses composantes inobservées. Il pourrait en
résulter un défaut d’inversion de la matrice d’information pour le vecteur des
hyperparamètres.