5 Discussion

Jan de Haan et Rens Hendriks

5.1 Comparaisons de GREG et SPAR

La question la plus intéressante que suscite la section 4 est celle de savoir pourquoi les indices GREG et SPAR sont si semblables malgré leurs méthodes de construction très différentes. Il n'est pas étonnant que les tendances soient similaires : même si l'indice GREG ne s'appuie pas sur la méthode d'appariement de modèles, sa cible est la même que celle de l'indice SPAR. Si les tailles d'échantillon $n^{0}$ et $n^{t}$ s'approchaient de la taille de la population $N^{0}$ $-$ ce qui naturellement n'arrive jamais dans la réalité $-$ les deux indices des prix s'approcheraient du changement de valeur du parc fixe de logements. Autrement dit, les deux méthodes sont asymptotiquement sans biais ou « convergentes ».

Ce qui peut paraître surprenant est que le degré de volatilité l'indice GREG au cours du temps est à peu près le même que celui de l'indice SPAR. Pour en comprendre la raison, rappelons que, sous les MCO, la somme des résidus de régression est nulle à chaque période. Cela implique que $\sum_{n \in S^{0}} p_{n}^{0} / n^{0} = \sum_{n \in S^{0}} {\hat{p}}_{n}^{0} / n^{0}$ et $\sum_{n \in S^{t}} p_{n}^{t} / n^{t} = \sum_{n \in S^{t}} {\hat{p}}_{n}^{t} / n^{t} .$ Pour les modèles de régression élémentaires (3.1) et (3.5), l'indice SPAR peut donc s'écrire aussi sous la forme

${\hat{P}}_{SPAR}^{0 t} = \frac{\sum_{n \in S^{t}} {\hat{p}}_{n}^{t} / n^{t}}{\sum_{n \in S^{0}} {\hat{p}}_{n}^{0} / n^{0}} [\frac{\sum_{n \in S^{0}} a_{n}^{0} / n^{0}}{\sum_{n \in S^{t}} a_{n}^{0} / n^{t}}] = \frac{({\hat{α}}^{t} + {\hat{β}}^{t} {\bar{a}}^{0 (t)}) / {\bar{a}}^{0 (t)}}{({\hat{α}}^{0} + {\hat{β}}^{0} {\bar{a}}^{0 (0)}) / {\bar{a}}^{0 (0)}} = \frac{{\hat{α}}^{t} / {\bar{a}}^{0 (t)} + {\hat{β}}^{t}}{{\hat{α}}^{0} / {\bar{a}}^{0 (0)} + {\hat{β}}^{0}}, (5.1)$

en utilisant (3.2) et (3.6) pour $n \in S^{0}$ et $n \in S^{t},$ respectivement, où ${\bar{a}}^{0 (0)} = \sum_{n \in S^{0}} a_{n}^{0} / n^{0}$ et ${\bar{a}}^{0 (t)} = \sum_{n \in S^{t}} a_{n}^{0} / n^{t}$ pour être bref. Il existe une similarité frappante entre la dernière expression des deuxièmes membres de (5.1) et (3.10). La seule différence est que, dans l'indice SPAR (5.1), les coefficients ${\hat{α}}^{0}$ et ${\hat{α}}^{t}$ sont divisés par les moyennes d'échantillon des évaluations foncières, ${\bar{a}}^{0 (0)}$ et ${\bar{a}}^{0 (t)},$ tandis que dans l'indice GREG (3.10), ils sont tous les deux divisés par la moyenne de population non stochastique, fixe, ${\bar{a}}^{0} .$ Essentiellement, l'indice SPAR est un estimateur entièrement fondé sur échantillon de l'indice GREG.

Comparativement à la méthode SPAR, l'approche GREG élimine une source d'erreur d'échantillonnage, c'est-à-dire la variabilité d'échantillonnage des évaluations moyennes. Conformément à la théorie de la régression généralisée, nous nous attendrions intuitivement à ce que la méthode GREG réduise l'erreur d'échantillonnage de l'indice des prix et produise une série chronologique moins volatile (sous l'hypothèse raisonnable que ${\bar{a}}^{0 (t)}$ et ${\hat{α}}^{t}$ ne sont pas corrélées entre les périodes $t = 0, \dots, T) .$ En d'autres mots, alors que la méthode GREG a été conçue comme une amélioration du ratio des moyennes d'échantillon, nous aurions pu nous attendre également à ce qu'elle joue le rôle de procédure de lissage de l'indice SPAR. Toutefois, comme nous l'avons montré à la section 4, en pratique, cela n'est guère le cas. Ce résultat peut s'expliquer comme il suit.

La réduction de la variance de l'indice GREG comparativement à l'indice SPAR dépend de la valeur des termes d'ordonnée à l'origine des régressions aux périodes 0 et $t .$ Si les droites de régression passaient exactement par l'origine $({\hat{α}}^{t} = {\hat{α}}^{0} = 0),$ les indices GREG et SPAR seraient tous deux égaux au ratio des coefficients de pente ${\hat{β}}^{t} / {\hat{β}}^{0}$ et aucune réduction de la variance n'aurait lieu. Dans le cas moins extrême où ${\hat{α}}^{t}$ et ${\hat{α}}^{0}$ sont proches de 0 et où les ratios ${\hat{α}}^{t} / {\bar{a}}^{0}, {\hat{α}}^{t} / {\bar{a}}^{0 (t)}, {\hat{α}}^{0} / {\bar{a}}^{0}$ et ${\hat{α}}^{0} / {\bar{a}}^{0 (0)}$ dans (3.10) et (5.2) sont très faibles comparativement à ${\hat{β}}^{t}$ et ${\hat{β}}^{0},$ les indices GREG et SPAR ne différeront que légèrement, et la réduction de la variance sera marginale; voir aussi l'annexe.

Cette dernière situation est ce que l'on constate effectivement en pratique, comme le montrent les figures 5.1 et 5.2, où les valeurs de ${\hat{α}}^{t} / {\bar{a}}^{0}$ et ${\hat{α}}^{t} / {\bar{a}}^{0 (t)}$ et celles de ${\hat{β}}^{t}$ sont représentées en fonction du temps. Les ratios ${\hat{α}}^{t} / {\bar{a}}^{0}$ et ${\hat{α}}^{t} / {\bar{a}}^{0 (t)}$ sont remarquablement similaires et petits comparativement aux ${\hat{β}}^{t} .$ Bien que nous ne puissions pas ignorer ces ratios, c'est la variation de ${\hat{β}}^{t}$ qui dicte principalement les indices GREG et SPAR. L'indice SPAR est non seulement un estimateur entièrement fondé sur échantillon de l'indice GREG, comme nous l'avons mentionné plus haut, mais il semble être presque aussi efficace.

Description de la figure 5.1

Figure 5.1 Ordonnées à l'origine divisées par les moyennes des évaluations

Description de la figure 5.2

Figure 5.2 Coefficients de pente

5.2 Volatilité du coefficient de pente

Plusieurs facteurs peuvent avoir contribué à la volatilité des coefficients de pente ${\hat{β}}^{t}$ dans nos régressions des prix de vente sur les évaluations foncières, et donc sur les indices de GREG et SPAR. Nous allons discuter brièvement de trois de ces facteurs, à savoir le changement de composition de l'échantillon, l'hétéroscédasticité et les valeurs aberrantes.

Un échantillon de logements peut être considéré comme un échantillon de localisations, ou adresses, puisque les logements sont attachés au terrain sur lequel ils sont construits. Un changement de composition de l'échantillon n'est rien d'autre qu'un changement dans les localisations au niveau le plus bas. Un changement de composition des localisations influe sur la composition de l'échantillon en ce qui concerne les caractéristiques de qualité moyennes des biens, telles que le nombre de pièces, la superficie, etc. Dans notre cadre simple, où nous observons une seule caractéristique (non physique), à savoir la valeur d'évaluation, un changement de composition des localisations se résume à un changement de la distribution d'échantillon des évaluations. Cela, conjugué à toute variation des changements de prix selon le créneau du marché, induit un changement dans la distribution d'échantillons des ratios $p_{n}^{t} / a_{n}^{0},$ qui à son tour entraîne un changement de ${\hat{β}}^{t}$ dans le modèle de régression à deux variables (3.5).

Hormis la stratification, nous ne pouvons pas faire grand-chose quant à l'effet des changements de composition des localisations dans l'échantillon (mais la stratification par province et par type de logement n'a pas été très utile), de sorte qu'il est difficile de réduire la volatilité de ${\hat{β}}^{t}$ et, par conséquent, des indices GREG et SPAR. Il est également impossible d'introduire une variable de contrôle pour la localisation au niveau de l'adresse dans les méthodes d'imputation hédoniques. Dans ces dernières, l'effet du changement de composition (des localisations) est atténué par l'ajout de variables de contrôle pour la région ainsi qu'une gamme de caractéristiques physiques. Cependant, cela ne signifie pas nécessairement que l'imputation hédonique produira une série d'indices plus stable que les méthodes GREG ou SPAR. La plupart des modèles hédoniques classiques sont moins bien ajustés aux données transversales que notre modèle, et les coefficients des caractéristiques présentent habituellement une forte variabilité au cours du temps. Donc, il n'est peut-être pas étonnant que Bourassa, et coll. (2006) constatent que [traduction] « l'indice SPAR […] suit fiablement les variations de prix des logements mais est moins volatil que les indices produits par des méthodes qui requièrent plus d'estimations de paramètres. »

Nous pouvons aussi examiner la variabilité du coefficient de pente d'un point de vue purement statistique. Il est bien connu que, dans un modèle à deux variables, l'estimateur par les MCO ${\hat{β}}^{t}$ peut s'écrire sous la forme

${\hat{β}}^{t} = r (p^{t}, a^{0}) \frac{s (p^{t})}{s (a^{0})}, (5.2)$

où $r (p^{t}, a^{0})$ désigne le coefficient de corrélation dans l'échantillon à la période $t$ entre les prix de vente et les évaluations foncières, qui est égal à la racine carrée de $R^{2}; s (p^{t})$ et $s (a^{0})$ sont les écarts-types d'échantillon correspondants. Une comparaison des figures 4.1 et 5.2 laisse entendre que des variations subites de $R^{2}$ sont en grande partie responsables de la volatilité de ${\hat{β}}^{t} .$ Ainsi, en décembre 2004, une diminution importante de $R^{2}$ coïncide avec une diminution importante de ${\hat{β}}^{t}$ (et avec une diminution des indices GREG et SPAR, comme le montre la figure 4.4).

La régression par les moindres carrés peut être pondérée ou non pondérée. En l'absence d'hétéroscédasticité, c'est-à-dire quand la variance des erreurs est constante, il faut utiliser les MCO. En présence d'hétéroscédasticité, la préférence va aux moindres carrés pondérés (MCP); si l'on utilise les poids appropriés, les MCP donnent des coefficients plus stables que les MCO. Dans ce cas, la somme des résidus dans l'échantillon pondéré diffère de zéro, de sorte que l'estimateur (3.9), doit être utilisé. Pour faciliter l'interprétation de l'indice GREG et la comparaison avec l'indice SPAR, à la section 3, nous avons supposé qu'il n'y avait pas de problème d'hétéroscédasticité et nous nous sommes limités aux MCO. Donc, l'estimateur GREG (MCO) donné par (3.10) demeure asymptotiquement sans biais sous le plan en présence d'hétéroscédasticité.

La forme la plus intéressante d'hétéroscédasticité (classique) $-$ et, étant donné notre jeu de données, la seule forme que nous serions capables de réduire $-$ se présenterait si la variance des erreurs de notre modèle de régression (3.5) dépendait de la valeur d'évaluation, celle-ci étant la seule variable explicative. Cependant, les résidus de nos régressions par les MCO n'indiquent par la présence d'une hétéroscédasticité de ce type importante. Cela est illustré à la figure 5.3, qui représente les prix de vente en fonction des évaluations, pour trois mois y compris la période de référence (janvier 2003); les droites de régression sont également données. En guise de confirmation, nous avons également effectué le test de White (1980), qui n'a pas indiqué cette forme d'hétéroscédasticité.

Description de la figure 5.3

Figure 5.3 Nuages de points et droites de régression

Notre jeu de données initiales de prix de vente et d'évaluations foncières comprenait certaines valeurs aberrantes évidentes. Pour estimer l'indice GREG, nous avons par conséquent utilisé un jeu de données nettoyées qui a été préparé pour calculer l'indice officiel des prix des logements aux Pays-Bas. Statistics Netherlands applique plusieurs procédures de nettoyage des données. Les logements qui ont été vendus plus d'une fois durant un mois donné sont exclus du jeu de données. Pour éliminer les erreurs de saisies et les valeurs aberrantes qui pourraient influencer excessivement les résultats, les biens dont le prix de vente ou l'évaluation foncière est inférieur à 10 000 $€$ ou supérieur à 5 000 000 $€$ et ceux dont le ratio prix de vente-évaluation est « irréaliste » sont également supprimés. La suppression des observations « irréalistes » est faite en examinant la distribution du logarithme des ratios prix de vente-évaluation; sont supprimées toutes les observations pour lesquelles l'écart du logarithme du ratio par rapport à la moyenne est de plus de 5 écarts-types. Pour plus de renseignements, voir Statistics Netherlands (2008).

Ces procédures sont assez arbitraires. Pour les estimateurs par la régression, tels que l'estimateur GREG, il est plus approprié de supprimer les observations dont l'effet de levier est important, c'est-à-dire d'éliminer de l'échantillon les unités dont l'exclusion a un effet important sur les coefficients de régression. Une mesure bien connue dans ce contexte est le DFBETA d'une unité de l'échantillon (Cook et Weisberg 1982). Puisque l'indice SPAR peut s'écrire sous forme d'un indice fondé sur la régression, cette mesure pourrait également être utilisée pour déceler et supprimer les valeurs aberrantes. Les nuages de points de la figure 5.3 montrent que le jeu de données nettoyé contient encore certaines valeurs aberrantes importantes. Il reste à déterminer si ces valeurs ont un effet de levier important et si leur élimination réduira la volatilité des ${\hat{β}}^{t}$ dans les indices GREG et SPAR.

5.3 Certaines autres remarques

La méthode GREG part du principe que le parc de logements est fixe. Autrement dit, nous avons supposé qu'il ne se produit pas d'entrées (par exemple logements nouvellement construits) ni de sorties (logements mis aux rebuts) et que la qualité des logements demeure constante au cours du temps. Notre approche n'est pas symétrique en ce sens que nous nous conditionnons sur le parc de logements à la période de référence. Dans la perspective d'un indice, nous estimons un indice des prix de Laspeyres pour le parc de logements où les quantités sont toutes égales à 1 parce que chaque logement est traité comme un bien unique. Une approche tout aussi justifiable consisterait à mesurer la variation du parc de logements à la période courante, qui comprend les ajouts au parc durant chaque période, en utilisant un indice de Paasche. En calculant la moyenne géométrique des deux indices, on obtiendrait l'indice de Fisher. Ce dernier est une mesure privilégiée de la variation des prix en raison de sa forme symétrique. La construction d'un indice GREG de type Fisher est toutefois impossible, puisque la composante de Paasche requiert des valeurs d'évaluation en temps réel pour les logements neufs dans le parc, alors qu'elles ne sont manifestement pas disponibles.

L'hypothèse d'un parc de logements fixe (à la période de référence) peut être relâchée par enchaînement annuel, à condition que le parc de logements soit réévalué annuellement. Il s'agit de la situation actuelle aux Pays-Bas; dans le passé, les évaluations foncières étaient effectuées tous les trois ou quatre ans. Une mise à jour annuelle des évaluations pourrait également comprendre une correction pour les changements de qualité des biens, du moins dans une certaine mesure, parce que les évaluations mises à jour tiennent vraisemblablement compte des réparations importantes, des rénovations et de la dépréciation.

Une remarque finale s'impose. À certaines fins, il est souhaitable de décomposer l'indice des prix des logements global en deux composantes : l'une qui mesure la variation de prix du bâtiment, et l'autre, la variation de prix du terrain. Ni notre méthode GREG ni les méthodes SPAR et des ventes répétées ne conviennent pour cela. Les méthodes d'imputation hédoniques pourraient convenir, malgré des problèmes pratiques tels que la multicolinéarité; voir Diewert, de Haan et Hendriks (2012) pour une première tentative. Si les données sur la taille du bâtiment, la taille du terrain et d'autres attributs déterminant le prix devenaient disponibles pour tous les biens inclus dans le parc de logements, nous serions capables d'estimer un « indice GREG avec imputation hédonique », comprenant la décomposition terrain-bâtiment. Les chances d'obtenir ce genre de données aux Pays-Bas sont malheureusement minces.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5 Discussion

5.1 Comparaisons de GREG et SPAR

5.2 Volatilité du coefficient de pente

5.3 Certaines autres remarques