Publications

Techniques d’enquête

Recherche par

3 Estimation par la régression généralisée

Jan de Haan et Rens Hendriks

3.1 Une méthode GREG simple

A la présente section, nous décrivons une approche de rechange pour mesurer le changement de prix des logements qui s'appuie sur des données d'évaluation. Les évaluations foncières servent maintenant d'information auxiliaire dans un cadre de régression généralisée (GREG). Considérons le simple modèle de régression linéaire à deux variables suivant :

$p_{n}^{0} = α^{0} + β^{0} a_{n}^{0} + ε_{n}^{0}, (3.1)$

où $ε_{n}^{0}$ est le terme d'erreur. Contrairement aux modèles de régression hédonique, qui postulent une relation causale entre le prix de vente $p_{n}^{0}$ et un jeu de caractéristiques ayant trait à la structure et à la localisation des unités de logement, ce modèle ne dit rien sur la façon dont les prix des logements sont produits; l'équation (3.1) est simplement un modèle descriptif.

L'estimation du modèle (3.1) par la régression par les moindres carrés sur les données de l'échantillon $S^{0}$ donne les prix prédits

${\hat{p}}_{n}^{0} = {\hat{α}}^{0} + {\hat{β}}^{0} a_{n}^{0} . (3.2)$

Les résidus de la régression pour $n \in S^{0}$ sont $e_{n}^{0} = p_{n}^{0} - {\hat{p}}_{n}^{0} .$ En supposant un échantillonnage aléatoire, comme auparavant, nous pouvons écrire l'estimateur de Horvitz-Thompson $\sum_{n \in S^{0}} p_{n}^{0} / n^{0}$ de la valeur moyenne $\sum_{n \in U^{0}} p_{n}^{0} / N^{0}$ sous la forme

$\sum_{n \in S^{0}} p_{n}^{0} / n^{0} = \sum_{n \in S^{0}} {\hat{p}}_{n}^{0} / n^{0} + \sum_{n \in S^{0}} e_{n}^{0} / n^{0} = {\hat{α}}^{0} + {\hat{β}}^{0} \sum_{n \in S^{0}} a_{n}^{0} / n^{0} + \sum_{n \in S^{0}} e_{n}^{0} / n^{0} . (3.3)$

Le remplacement de la moyenne d'échantillon des évaluations, $\sum_{n \in S^{0}} a_{n}^{0} / n^{0},$ par son équivalent pour la population, $\sum_{n \in U^{0}} a_{n}^{0} / N^{0}$ donne l'estimateur par la régression généralisée (GREG) :

${\hat{\bar{p}}}_{GREG}^{0} = {\hat{α}}^{0} + {\hat{β}}^{0} \sum_{n \in U^{0}} a_{n}^{0} / N^{0} + \sum_{n \in S^{0}} e_{n}^{0} / n^{0} = \sum_{n \in U^{0}} {\hat{p}}_{n}^{0} / N^{0} + \sum_{n \in S^{0}} e_{n}^{0} / n^{0} . (3.4)$

La théorie de l'échantillonnage assisté par modèle montre que les estimateurs GREG sont asymptotiquement sans biais sous le plan de sondage (Särndal et coll. 1992), quel que soit le choix des variables explicatives. À moins que l'échantillon soit petit, le biais peut être négligé. Il est évident que l'estimateur GREG (3.4) sera plus efficace $-$ au sens où sa variance est plus faible $-$ que l'estimateur de Horvitz-Thompson (3.3). Par conséquent, l'estimateur GREG donnera habituellement de meilleurs résultats que l'estimateur de Horvitz-Thompson en termes d'erreur quadratique moyenne (la somme de la variance et du carré du biais).

La même procédure peut être appliquée à la période de comparaison $t .$ Après avoir estimé le modèle

$p_{n}^{t} = α^{t} + β^{t} a_{n}^{0} + ε_{n}^{t} (3.5)$

par la régression par les moindres carrés sur les données de l'échantillon de la période courante $S^{t},$ nous obtenons les prix prédits

${\hat{p}}_{n}^{t} = {\hat{α}}^{t} + {\hat{β}}^{t} a_{n}^{0}, (3.6)$

ce qui mène à l'estimateur GREG de la valeur moyenne du parc de logements à la période $t :$

${\hat{\bar{p}}}_{GREG}^{t} = {\hat{α}}^{t} + {\hat{β}}^{t} \sum_{n \in U^{t}} a_{n}^{0} / N^{t} + \sum_{n \in S^{t}} e_{n}^{t} / n^{t} = \sum_{n \in U^{t}} {\hat{p}}_{n}^{t} / N^{t} + \sum_{n \in S^{t}} e_{n}^{t} / n^{t}, (3.7)$

où $e_{n}^{t} = p_{n}^{t} - {\hat{p}}_{n}^{t}$ désigne les résidus de la régression à la période $t .$ Pour un parc de logements fixe, nous avons $U^{t} = U^{0},$ d'où $\sum_{n \in U^{t}} a_{n}^{0} / N^{t} = \sum_{n \in U^{0}} a_{n}^{0} / N^{0},$ et il s'ensuit que

${\hat{\bar{p}}}_{GREG}^{t} = {\hat{α}}^{t} + {\hat{β}}^{t} \sum_{n \in U^{0}} a_{n}^{0} / N^{0} + \sum_{n \in S^{t}} e_{n}^{t} / n^{t} = \sum_{n \in U^{0}} {\hat{p}}_{n}^{t} / N^{0} + \sum_{n \in S^{t}} e_{n}^{t} / n^{t} . (3.8)$

L'estimateur GREG du changement de prix des logements s'obtient simplement en prenant le ratio des équations (3.8) et (3.4):

${\hat{P}}_{GREG}^{0 t} = \frac{{\hat{\bar{p}}}_{GREG}^{t}}{{\hat{\bar{p}}}_{GREG}^{0}} = \frac{{\hat{α}}^{t} + {\hat{β}}^{t} {\bar{a}}^{0} + \sum_{n \in S^{t}} e_{n}^{t} / n^{t}}{{\hat{α}}^{0} + {\hat{β}}^{0} {\bar{a}}^{0} + \sum_{n \in S^{0}} e_{n}^{0} / n^{0}} = \frac{\sum_{n \in U^{0}} {\hat{p}}_{n}^{t} / N^{0} + \sum_{n \in S^{t}} e_{n}^{t} / n^{t}}{\sum_{n \in U^{0}} {\hat{p}}_{n}^{0} / N^{0} + \sum_{n \in S^{0}} e_{n}^{0} / n^{0}}, (3.9)$

où ${\bar{a}}^{0} = \sum_{n \in U^{0}} a_{n}^{0} / N^{0} .$ Un certain biais de petit échantillon supplémentaire sera introduit en raison de la structure non linéaire (ratio). Lorsque l'on utilise la régression par les moindres carrés ordinaires (MCO) pour estimer les modèles (3.1) et (3.5), les moyennes d'échantillon non pondérées des résidus de la régression dans (3.9), $\sum_{n \in S^{0}} e_{n}^{0} / n^{0}$ et $\sum_{n \in S^{t}} e_{n}^{t} / n^{t},$ sont égales à 0 et l'indice GREG se réduit à

${\hat{P}}_{GREG,MCO}^{0 t} = \frac{\sum_{n \in U^{0}} {\hat{p}}_{n}^{t} / N^{0}}{\sum_{n \in U^{0}} {\hat{p}}_{n}^{0} / N^{0}} = \frac{{\hat{α}}^{t} + {\hat{β}}^{t} {\bar{a}}^{0}}{{\hat{α}}^{0} + {\hat{β}}^{0} {\bar{a}}^{0}} = \frac{{\hat{α}}^{t} / {\bar{a}}^{0} + {\hat{β}}^{t}}{{\hat{α}}^{0} / {\bar{a}}^{0} + {\hat{β}}^{0}} . (3.10)$

Comme l'indique la première expression dans le membre de droite de l'équation (3.10), l'approche GREG (MCO) consiste essentiellement à imputer les prix pour la période de référence et pour la période courante en utilisant les équations (3.2) et (3.6). La différence par rapport à la méthode hédonique d'imputation double tient à deux aspects : nous utilisons un modèle descriptif, et non un modèle hédonique, pour estimer les prix prédits $-$ de sorte que nous ne pouvons pas parler de prix prédits sans biais $-$ et nous imputons les prix de tous les logements faisant partie du parc au lieu de ceux du sous-ensemble de logements échantillonnés.

3.2 Propriétés de l'indice GREG

L'indice GREG (MCO) possède plusieurs propriétés intéressantes. Premièrement, son calcul est très simple. Une fois que l'on a calculé la moyenne de population des évaluations foncières ${\bar{a}}^{0}$ et les coefficients de régression pour la période de référence ${\hat{α}}^{0}$ et ${\hat{β}}^{0},$ il suffit d'exécuter chaque mois une régression des prix de vente en fonction des évaluations, puis d'introduire les valeurs des coefficients ${\hat{α}}^{t}$ et ${\hat{β}}^{t}$ dans (3.10). Notons que l'indice GREG peut s'écrire sous la forme d'un pseudo indice-chaîne :

${\hat{P}}_{GREG,MCO}^{0 t} = \frac{{\hat{α}}^{t} / {\bar{a}}^{0} + {\hat{β}}^{t}}{{\hat{α}}^{0} / {\bar{a}}^{0} + {\hat{β}}^{0}} = \prod_{τ = 1}^{t} \frac{{\hat{α}}^{τ} / {\bar{a}}^{0} + {\hat{β}}^{τ}}{{\hat{α}}^{τ - 1} / {\bar{a}}^{0} + {\hat{β}}^{τ - 1}} . (3.11)$

Cela peut être utile en pratique, surtout quand de nouvelles données d'évaluation deviennent disponibles. Les nouvelles évaluations sont souvent fournies à l'organisme statistique avec un délai important, pouvant dépasser un an. Les évaluations les plus récentes doivent être utilisées pour deux raisons. La qualité des évaluations peut s'améliorer avec le temps, ce qui semble avoir été le cas aux Pays-Bas (de Vries et coll. 2009). En outre, l'hypothèse d'un parc de logements fixe peut être relâchée afin que les logements nouvellement construits puissent être intégrés par enchaînement; l'indice GREG chaîné tient compte de la dynamique du parc de logements. Les mêmes avantages de l'enchaînement s'appliquent à la méthode SPAR. Supposons que de nouvelles évaluations foncières, se rapportant à la période $T (0 < T \leq t),$ soient disponibles à la période $t + 1.$ La série chronologique peut alors être mise à jour par enchaînement, c'est-à-dire en multipliant ${\hat{P}}_{GREG,MCO}^{0 t}$ par la variation d'un mois à l'autre $({\tilde{α}}^{t + 1} / {\bar{a}}^{T} + {\tilde{β}}^{t + 1}) / ({\tilde{α}}^{t} / {\bar{a}}^{T} + {\tilde{β}}^{t}),$ où les coefficients sont maintenant ceux d'une régression des prix de vente sur les évaluations foncières à la période $T .$

Deuxièmement, les erreurs-types de l'indice GREG peuvent être estimées assez facilement en utilisant la matrice de variance-covariance des coefficients de régression, qui est une sortie standard de la plupart des progiciels statistiques. Une expression de l'erreur-type approximative est dérivée en annexe. L'erreur-type de l'indice GEEG dépend de la qualité de l'ajustement $(R^{2})$ du modèle de régression. Il est fort probable que la valeur de $R^{2}$ pour la régression à la période de référence soit plus élevée que pour les régressions à la période courante. Nous nous attendons en effet à observer une forte relation linéaire entre les évaluations foncières et les prix de vente à la période de référence des évaluations, mais une relation probablement plus faible aux périodes ultérieures en raison des différences de tendance des prix selon le type de logement ou la région. Il est un peu plus compliqué d'établir une expression pour les erreurs-types approximatives dans le cas de l'indice SPAR, parce que la variabilité d'échantillonnage des évaluations moyennes est une source additionnelle d'erreur d'échantillonnage; voir de Haan (2007).

Cette dernière remarque nous mène à la troisième propriété de l'indice GREG, c'est-à-dire sa dépendance à l'égard de la qualité des données d'évaluation. Pour au moins deux raisons, il peut arriver que les évaluations foncières ne représentent pas exactement les prix de transaction durant la période de référence, de sorte que l'ajustement du modèle n'est pas parfait $(R^{2} < 1) .$ Les organismes chargés des évaluations pourraient ne pas avoir accès (en temps réel) aux prix de vente réels et, par conséquent, être obligés d'exercer leur propre jugement en se basant sur d'autres renseignements. Toutefois, même s'ils connaissaient les prix de vente, ces organismes pourraient encore décider de faire des ajustements lorsqu'ils déterminent la valeur des biens immobiliers. On peut soutenir que le prix de vente ne mesure pas toujours correctement la valeur de marché inconnue $-$ laquelle peut être considérée comme une variable latente $-$ et a tendance à être plus volatile. À cet égard, Francke (2010) et d'autres ont utilisé le terme de bruit de transaction.

La manière dont les évaluations foncières ont été déterminées aura une incidence sur l'erreur-type de l'indice GREG. À condition que la qualité des données d'évaluation soit la même pour tous les logements compris dans le parc, il n'existe aucun biais, puisque les évaluations servent seulement de variables auxiliaires dans les régressions exécutées sur les échantillons $S^{0}$ et $S^{t}$ de biens immobiliers vendus aux périodes 0 et $t (t = 1, \dots, T) .$ Cependant, en général, nous nous attendons à ce que la qualité des évaluations soit meilleure pour les biens appartenant à l'échantillon de la période de référence où a eu lieu l'évaluation $S^{0},$ quoique cela varie fort probablement en fonction de la méthode d'évaluation. Aux Pays-Bas, les biens immobiliers sont évalués aux fins de l'impôt (impôt sur le revenu ainsi que les impôts municipaux). Les municipalités sont chargées des évaluations. Plusieurs d'entre elles évaluent les logements qui sont vendus durant la période de référence (janvier) au moyen du prix de vente. Les logements qui n'ont pas été vendus sont parfois évalués en les comparant à des logements négociés similaires. Il semble que certaines municipalités utilisent une forme de régression hédonique pour évaluer les logements, mais la méthodologie n'a malheureusement pas été rendue publique. Pour plus de renseignements sur le système d'évaluation foncière des Pays-Bas, voir de Vries et coll. (2009).

Jusqu'à présent, nous avons supposé que la qualité des logements individuels ne varie pas au fil du temps. Cette hypothèse est forte. Donc, la quatrième propriété $-$ et l'inconvénient le plus important $-$ de la méthode GREG est que l'indice des prix résultants est entaché d'un biais de changement de qualité puisque l'on n'effectue pas d'ajustement explicite de la qualité. La méthode SPAR ainsi que la méthode classique fondée sur les ventes répétées présentent le même inconvénient. En principe, les méthodes de régression hédonique permettent de traiter le problème du changement de qualité, quoi qu'il puisse s'avérer difficile d'utiliser des variables de contrôle pour toutes les caractéristiques influant sur le prix pertinentes, en particulier la microlocalisation. La méthode SPAR tient compte automatiquement de la microlocalisation, à condition naturellement que les évaluations foncières en tiennent suffisamment compte, puisqu'elle est basée sur la méthode d'appariement de modèles pour laquelle l'appariement est effectué au niveau de l'adresse.

3.3 Estimateur GREG de rechange

Statistics Netherlands calcule les indices des prix des logements non seulement pour l'ensemble du pays, mais aussi pour certains créneaux du marché du logement, selon le type de logement (logements familiaux et appartements) et la région (provinces et grandes villes), principalement pour répondre aux besoins des utilisateurs. L'échantillon peut aussi être stratifié afin d'atténuer l'effet du biais de sélection dans l'échantillon. Ce type de biais peut survenir si l'ensemble de logements vendus durant une période particulière n'est pas une sélection aléatoire provenant du parc de logements. L'indice national doit alors être calculé indirectement sous forme d'une moyenne pondérée des indices de strate plutôt que directement d'après toutes les observations.

Supposons que le parc total de logements $U^{0}$ est subdivisé en $K$ strates non chevauchantes $U_{k}^{0}$ de taille $N_{k}^{0} (\sum_{k = 1}^{K} N_{k}^{0} = N^{0}) .$ L'indice des prix cible (2.3) peut alors être réécrit sous la forme

$P^{0 t} = \frac{\sum_{n \in U^{0}} p_{n}^{t}}{\sum_{n \in U^{0}} p_{n}^{0}} = \frac{\sum_{k = 1}^{K} \sum_{n \in U_{k}^{0}} p_{n}^{t}}{\sum_{k = 1}^{K} \sum_{n \in U_{k}^{0}} p_{n}^{0}} = \sum_{k = 1}^{K} s_{k}^{0} P_{k}^{0 t}, (3.12)$

où $P_{k}^{0 t} = \sum_{n \in U_{k}^{0}} p_{n}^{t} / \sum_{n \in U_{k}^{0}} p_{n}^{0}$ est l'indice des prix cible pour la strate $U_{k}^{0} (k = 1, \dots, K) .$ Les parts de la valeur du parc de logements à la période de référence $s_{k}^{0} = \sum_{n \in U_{k}^{0}} p_{n}^{0} / \sum_{n \in U^{0}} p_{n}^{0},$ qui servent de pondérations pour les indices de strate, sont inconnues et doivent être estimées. En supposant que l'on connaît les variables qui définissent les strates pour tout $n \in U^{0},$ un choix naturel pour les pondérations serait les parts fondées sur l'évaluation foncière ${\hat{s}}_{k}^{0} = \sum_{n \in U_{k}^{0}} a_{n}^{0} / \sum_{n \in U^{0}} a_{n}^{0} = (N_{k}^{0} / N^{0}) ({\bar{a}}_{k}^{0} / {\bar{a}}^{0}) .$ Manifestement, les variables de logement qui définissent les strates doivent être incluses dans le jeu de données d'évaluation. Aux Pays-Bas, l'adresse et le type de logement sont inclus. Cela permet une subdivision de la population en strates obtenues par classification croisée de la localisation et du type de logement. Les évaluations foncières ne sont peut-être pas toujours des estimations exactes de la valeur de marché « réelle » des biens immobiliers individuels, mais au niveau de la strate, nous nous attendons à ce que l'exactitude des évaluations moyennes soit suffisante pour le calcul des pondérations.

Des techniques statistiques telles que l'estimation GREG sont habituellement appliquées pour estimer les totaux ou les moyennes pour de petits domaines pour lesquels le nombre d'observations est si faible que les erreurs-types lorsque l'on utilise les estimateurs classiques (de Horvitz-Thompson) $-$ ici le ratio des moyennes d'échantillon $-$ deviendraient inacceptablement grandes. Il convient de mentionner que, même avec la méthode GREG, le schéma de stratification ne doit pas être trop détaillé, car cela pourrait accroître excessivement la variance des indices de strate, et donc, de l'indice agrégé. Fait peut-être encore plus important, le biais de petit échantillon augmentera au point de devenir éventuellement non négligeable pour les très petits échantillons.

Les régressions par les MCO des prix de vente sur les évaluations foncières doivent maintenant être exécutées à chaque période pour chaque strate afin de calculer l'indice GREG agrégé. L'indice GREG (MCO) stratifié est donné par

${\hat{P}}_{StrGREG}^{0 t} = \sum_{k = 1}^{K} {\hat{s}}_{k}^{0} {\hat{P}}_{k, GREG,MCO}^{0 t} = \sum_{k = 1}^{K} {\hat{s}}_{k}^{0} (\frac{{\hat{α}}_{k}^{t} / {\bar{a}}_{k}^{0} + {\hat{β}}_{k}^{t}}{{\hat{α}}_{k}^{0} / {\bar{a}}_{k}^{0} + {\hat{β}}_{k}^{0}}); (3.13)$

Les écarts entre les coefficients de pente ${\hat{β}}_{k}^{s} (s = 0, t)$ d'une strate à l'autre pourraient résulter de l'erreur d'échantillonnage ou refléter un phénomène réel. Celui-ci peut avoir une importance particulière pour les périodes $t$ très éloignées de la période 0, car les différents créneaux du marché du logement ont tendance à présenter des tendances des prix variables. On pourrait effectuer un test afin de savoir si tout écart entre les coefficients de pente reflète un phénomène réel.

Un modèle de rechange, à estimer sur le jeu complet de données, comprendrait un terme d'ordonnée à l'origine unique, mais des coefficients $β$ pouvant varier d'une strate à l'autre. Soit $D_{n, k}$ une variable indicatrice binaire qui prend la valeur 1 si le bien immobilier $n$ appartient à la strate $k$ et 0 autrement. À la période $s (s = 0, t),$ le modèle

$p_{n}^{s} = α^{s} + \sum_{k = 1}^{K} β_{k}^{s} D_{n, k} a_{n}^{0} + ε_{n}^{s} (3.14)$

est estimé par la régression par les MCO sur les données de l'échantillon $S^{s},$ ce qui donne les prix prédits ${\tilde{p}}_{n}^{s} = {\tilde{α}}^{s} + {\tilde{β}}_{k}^{s} a_{n}^{0}$ pour $n \in U_{k}^{0} .$ De nouveau, la somme des résidus est égale à zéro et le nouvel indice GREG (OMC) (non stratifié) devient

${\tilde{P}}_{GREG,MCO}^{0 t} = \frac{\sum_{n \in U^{0}} {\tilde{p}}_{n}^{t} / N^{0}}{\sum_{n \in U^{0}} {\tilde{p}}_{n}^{0} / N^{0}} = \frac{\sum_{k = 1}^{K} \sum_{n \in U_{k}^{0}} {\tilde{p}}_{n}^{t} / N^{0}}{\sum_{k = 1}^{K} \sum_{n \in U_{k}^{0}} {\tilde{p}}_{n}^{0} / N^{0}} = \frac{{\tilde{α}}^{t} + \sum_{k = 1}^{K} (\frac{N_{k}^{0}}{N^{0}}) {\tilde{β}}_{k}^{t} {\bar{a}}_{k}^{0}}{{\tilde{α}}^{0} + \sum_{k = 1}^{K} (\frac{N_{k}^{0}}{N^{0}}) {\tilde{β}}_{k}^{0} {\bar{a}}_{k}^{0}} . (3.15)$

Le modèle (3.14) est plus souple que le modèle original donnée par les équations (3.1) et (3.5), et pourrait être utile si la proportionnalité entre les prix de vente et les évaluations foncières n'est pas respectée. L'estimateur (3.15) se réduit à l'indice GREG original (3.10) si les coefficients ${\tilde{β}}_{k}^{s}$ sont tous égaux. En pratique, cela n'arrivera pas et (3.15) et (3.10) donneront des réponses différentes. Une raison fréquemment avancée pour justifier l'utilisation des estimateurs GREG est que, étant asymptotiquement sans biais, ils sont relativement robustes au choix du modèle. Donc, nous nous attendrions à ce que l'effet de la spécification du modèle de rechange (3.15) soit modéré. Par ailleurs, il est généralement reconnu dans la littérature que l'indépendance à l'égard du modèle peut être un problème dans des circonstances particulières, notamment lorsqu'on a affaire à des populations très variables et ayant tendance à présenter des valeurs aberrantes. Par exemple, Hedlin, Falvey, Chambers et Kokic (2001) soulignent qu'il est important de procéder à une recherche minutieuse des spécifications du modèle, tandis que Beaumont et Alavi (2004) se concentrent sur le traitement des valeurs aberrantes. Il serait donc utile d'examiner l'effet de la spécification de ce modèle de rechange.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche