5 Discussion
Jan de Haan et Rens Hendriks
Précédent | Suivant
5.1
Comparaisons de GREG et SPAR
La question la plus intéressante que
suscite la section 4 est celle de savoir pourquoi les indices GREG et SPAR
sont si semblables malgré leurs méthodes de construction très différentes. Il
n'est pas étonnant que les tendances soient similaires : même si l'indice
GREG ne s'appuie pas sur la méthode d'appariement de modèles, sa cible est la
même que celle de l'indice SPAR. Si les tailles d'échantillon
et
s'approchaient de la taille de la population
ce qui naturellement n'arrive jamais dans la réalité
les deux indices des prix s'approcheraient du changement de
valeur du parc fixe de logements. Autrement dit, les deux méthodes sont
asymptotiquement sans biais ou « convergentes ».
Ce qui peut paraître surprenant est que
le degré de volatilité l'indice GREG au cours du temps est à peu près le même
que celui de l'indice SPAR. Pour en comprendre la raison, rappelons que, sous
les MCO, la somme des résidus de régression est nulle à chaque période. Cela
implique que
et
Pour les modèles de régression élémentaires (3.1)
et (3.5), l'indice SPAR peut donc s'écrire aussi sous la forme
en utilisant (3.2) et (3.6)
pour
et
respectivement, où
et
pour être bref. Il existe une similarité
frappante entre la dernière expression des deuxièmes membres de (5.1) et (3.10).
La seule différence est que, dans l'indice SPAR (5.1), les coefficients
et
sont divisés par les moyennes d'échantillon
des évaluations foncières,
et
tandis que dans l'indice GREG (3.10), ils
sont tous les deux divisés par la moyenne de population non stochastique, fixe,
Essentiellement, l'indice SPAR est un
estimateur entièrement fondé sur échantillon de l'indice GREG.
Comparativement à la méthode SPAR,
l'approche GREG élimine une source d'erreur d'échantillonnage, c'est-à-dire la
variabilité d'échantillonnage des évaluations moyennes. Conformément à la
théorie de la régression généralisée, nous nous attendrions intuitivement à ce
que la méthode GREG réduise l'erreur d'échantillonnage de l'indice des prix et
produise une série chronologique moins volatile (sous l'hypothèse raisonnable
que
et
ne sont pas corrélées entre les périodes
En d'autres mots, alors que la méthode GREG a
été conçue comme une amélioration du ratio des moyennes d'échantillon, nous
aurions pu nous attendre également à ce qu'elle joue le rôle de procédure de
lissage de l'indice SPAR. Toutefois, comme nous l'avons montré à la
section 4, en pratique, cela n'est guère le cas. Ce résultat peut
s'expliquer comme il suit.
La réduction de la variance de l'indice
GREG comparativement à l'indice SPAR dépend de la valeur des termes d'ordonnée
à l'origine des régressions aux périodes 0 et
Si les droites de régression passaient
exactement par l'origine
les indices GREG et SPAR seraient tous deux
égaux au ratio des coefficients de pente
et aucune réduction de la variance n'aurait
lieu. Dans le cas moins extrême où
et
sont proches de 0 et où les ratios
et
dans (3.10) et (5.2) sont très faibles comparativement
à
et
les indices GREG et SPAR ne différeront que
légèrement, et la réduction de la variance sera marginale; voir aussi l'annexe.
Cette dernière situation est ce que
l'on constate effectivement en pratique, comme le montrent les figures 5.1
et 5.2, où les valeurs de
et
et celles de
sont représentées en fonction du temps. Les
ratios
et
sont remarquablement similaires et petits
comparativement aux
Bien que nous ne puissions pas ignorer ces
ratios, c'est la variation de
qui dicte principalement les indices GREG et
SPAR. L'indice SPAR est non seulement un estimateur entièrement fondé sur
échantillon de l'indice GREG, comme nous l'avons mentionné plus haut, mais il
semble être presque aussi efficace.
Description de la figure 5.1
Figure 5.1 Ordonnées à l'origine divisées par les
moyennes des évaluations
Description de la figure 5.2
Figure 5.2 Coefficients de pente
5.2
Volatilité du coefficient de pente
Plusieurs facteurs peuvent avoir
contribué à la volatilité des coefficients de pente
dans nos régressions des prix de vente sur les
évaluations foncières, et donc sur les indices de GREG et SPAR. Nous allons
discuter brièvement de trois de ces facteurs, à savoir le changement de
composition de l'échantillon, l'hétéroscédasticité et les valeurs aberrantes.
Un échantillon de logements peut être
considéré comme un échantillon de localisations, ou adresses, puisque les
logements sont attachés au terrain sur lequel ils sont construits. Un
changement de composition de l'échantillon n'est rien d'autre qu'un changement
dans les localisations au niveau le plus bas. Un changement de composition des localisations influe sur la
composition de l'échantillon en ce qui concerne les caractéristiques de qualité
moyennes des biens, telles que le nombre de pièces, la superficie, etc. Dans notre cadre simple, où nous
observons une seule caractéristique (non physique), à savoir la valeur
d'évaluation, un changement de composition des localisations se résume à un
changement de la distribution d'échantillon des évaluations. Cela, conjugué à
toute variation des changements de prix selon le créneau du marché, induit un
changement dans la distribution d'échantillons des ratios
qui à son tour entraîne un changement de
dans le modèle de régression à deux
variables (3.5).
Hormis la stratification, nous ne
pouvons pas faire grand-chose quant à l'effet des changements de composition
des localisations dans l'échantillon (mais la stratification par province et
par type de logement n'a pas été très utile), de sorte qu'il est difficile de
réduire la volatilité de
et, par conséquent, des indices GREG et SPAR.
Il est également impossible d'introduire une variable de contrôle pour la
localisation au niveau de l'adresse dans les méthodes d'imputation hédoniques.
Dans ces dernières, l'effet du changement de composition (des localisations)
est atténué par l'ajout de variables de contrôle pour la région ainsi qu'une
gamme de caractéristiques physiques. Cependant, cela ne signifie pas
nécessairement que l'imputation hédonique produira une série d'indices plus
stable que les méthodes GREG ou SPAR. La plupart des modèles hédoniques
classiques sont moins bien ajustés aux données transversales que notre modèle,
et les coefficients des caractéristiques présentent habituellement une forte
variabilité au cours du temps. Donc, il n'est peut-être pas étonnant que
Bourassa, et coll. (2006)
constatent que [traduction] « l'indice SPAR
[…] suit fiablement les variations de prix des logements mais est moins volatil
que les indices produits par des méthodes qui requièrent plus d'estimations de
paramètres. »
Nous pouvons aussi examiner la
variabilité du coefficient de pente d'un point de vue purement statistique. Il
est bien connu que, dans un modèle à deux variables, l'estimateur par les MCO
peut s'écrire sous la forme
où
désigne le coefficient de corrélation dans
l'échantillon à la période
entre les prix de vente et les évaluations
foncières, qui est égal à la racine carrée de
et
sont les écarts-types d'échantillon
correspondants. Une comparaison des figures 4.1 et 5.2 laisse entendre que
des variations subites de
sont en grande partie responsables de la
volatilité de
Ainsi, en décembre 2004, une diminution
importante de
coïncide avec une diminution importante de
(et avec une diminution des indices GREG et
SPAR, comme le montre la figure 4.4).
La régression par les moindres carrés
peut être pondérée ou non pondérée. En l'absence d'hétéroscédasticité, c'est-à-dire quand la variance des erreurs est
constante, il faut utiliser les MCO. En présence d'hétéroscédasticité, la
préférence va aux moindres carrés pondérés (MCP); si l'on utilise les poids
appropriés, les MCP donnent des coefficients plus stables que les MCO. Dans ce
cas, la somme des résidus dans l'échantillon pondéré diffère de zéro, de sorte
que l'estimateur (3.9), doit être utilisé. Pour faciliter l'interprétation
de l'indice GREG et la comparaison avec l'indice SPAR, à la section 3,
nous avons supposé qu'il n'y avait pas de problème d'hétéroscédasticité et nous
nous sommes limités aux MCO. Donc, l'estimateur GREG (MCO) donné par (3.10)
demeure asymptotiquement sans biais sous le plan en présence
d'hétéroscédasticité.
La forme la plus intéressante
d'hétéroscédasticité (classique)
et, étant donné notre jeu de données, la seule forme que nous
serions capables de réduire
se présenterait si la variance des erreurs de notre modèle de
régression (3.5) dépendait de la valeur d'évaluation, celle-ci étant la seule
variable explicative. Cependant, les résidus de nos régressions par les MCO
n'indiquent par la présence d'une hétéroscédasticité de ce type importante.
Cela est illustré à la figure 5.3, qui représente les prix de vente en
fonction des évaluations, pour trois mois y compris la période de référence
(janvier 2003); les droites de régression sont également données. En guise
de confirmation, nous avons également effectué le test de White (1980), qui n'a
pas indiqué cette forme d'hétéroscédasticité.
Description de la figure 5.3
Figure 5.3 Nuages de points et droites de régression
Notre jeu de données initiales de prix
de vente et d'évaluations foncières comprenait certaines valeurs aberrantes évidentes. Pour estimer l'indice GREG, nous
avons par conséquent utilisé un jeu de données nettoyées qui a été préparé pour
calculer l'indice officiel des prix des logements aux Pays-Bas. Statistics
Netherlands applique plusieurs procédures de nettoyage des données. Les
logements qui ont été vendus plus d'une fois durant un mois donné sont exclus
du jeu de données. Pour éliminer les erreurs de saisies et les valeurs
aberrantes qui pourraient influencer excessivement les résultats, les biens
dont le prix de vente ou l'évaluation foncière est inférieur à
10 000
ou supérieur à 5 000 000
et ceux dont le ratio prix de vente-évaluation est
« irréaliste » sont également supprimés. La suppression des
observations « irréalistes » est faite en examinant la distribution
du logarithme des ratios prix de vente-évaluation; sont supprimées toutes les
observations pour lesquelles l'écart du logarithme du ratio par rapport à la
moyenne est de plus de 5 écarts-types. Pour plus de renseignements, voir
Statistics Netherlands (2008).
Ces procédures sont assez arbitraires.
Pour les estimateurs par la régression, tels que l'estimateur GREG, il est plus
approprié de supprimer les observations dont l'effet de levier est important,
c'est-à-dire d'éliminer de l'échantillon les unités dont l'exclusion a un effet
important sur les coefficients de régression. Une mesure bien connue dans ce
contexte est le DFBETA d'une unité de l'échantillon (Cook et Weisberg 1982).
Puisque l'indice SPAR peut s'écrire sous forme d'un indice fondé sur la
régression, cette mesure pourrait également être utilisée pour déceler et
supprimer les valeurs aberrantes. Les nuages de points de la figure 5.3
montrent que le jeu de données nettoyé contient encore certaines valeurs
aberrantes importantes. Il reste à déterminer si ces valeurs ont un effet de
levier important et si leur élimination réduira la volatilité des
dans les indices GREG et SPAR.
5.3
Certaines autres remarques
La méthode GREG part du principe que le
parc de logements est fixe. Autrement dit, nous avons supposé qu'il ne se
produit pas d'entrées (par exemple logements nouvellement construits) ni de
sorties (logements mis aux rebuts) et que la qualité des logements demeure
constante au cours du temps. Notre approche n'est pas symétrique en ce sens que
nous nous conditionnons sur le parc de logements à la période de référence. Dans la perspective d'un indice, nous
estimons un indice des prix de Laspeyres pour le parc de logements où les
quantités sont toutes égales à 1 parce que chaque logement est traité comme un
bien unique. Une approche tout aussi justifiable consisterait à mesurer la
variation du parc de logements à la période courante, qui comprend les ajouts au
parc durant chaque période, en utilisant un indice de Paasche. En calculant la
moyenne géométrique des deux indices, on obtiendrait l'indice de Fisher. Ce
dernier est une mesure privilégiée de la variation des prix en raison de sa
forme symétrique. La construction d'un indice GREG de type Fisher est toutefois
impossible, puisque la composante de Paasche requiert des valeurs d'évaluation
en temps réel pour les logements neufs dans le parc, alors qu'elles ne sont
manifestement pas disponibles.
L'hypothèse d'un parc de logements fixe
(à la période de référence) peut être relâchée par enchaînement annuel, à
condition que le parc de logements soit réévalué annuellement. Il s'agit de la
situation actuelle aux Pays-Bas; dans le passé, les évaluations foncières étaient
effectuées tous les trois ou quatre ans. Une mise à jour annuelle des
évaluations pourrait également comprendre une correction pour les changements
de qualité des biens, du moins dans une certaine mesure, parce que les
évaluations mises à jour tiennent vraisemblablement compte des réparations
importantes, des rénovations et de la dépréciation.
Une remarque finale s'impose. À
certaines fins, il est souhaitable de décomposer l'indice des prix des
logements global en deux composantes : l'une qui mesure la variation de
prix du bâtiment, et l'autre, la variation de prix du terrain. Ni notre méthode
GREG ni les méthodes SPAR et des ventes répétées ne conviennent pour cela. Les
méthodes d'imputation hédoniques pourraient convenir, malgré des problèmes
pratiques tels que la multicolinéarité; voir Diewert, de Haan et
Hendriks (2012) pour une première tentative. Si les données sur la taille
du bâtiment, la taille du terrain et d'autres attributs déterminant le prix
devenaient disponibles pour tous les biens inclus dans le parc de logements,
nous serions capables d'estimer un « indice GREG avec imputation
hédonique », comprenant la décomposition terrain-bâtiment. Les chances
d'obtenir ce genre de données aux Pays-Bas sont malheureusement minces.
Précédent | Suivant